Erweiterte technische Umsetzung des AI Kamerascanners im Robotereinsatz
Für die Objekterkennung habe ich bewusst auf ein lokal betreibbares Modell aus dem Ökosystem von Hugging Face gesetzt. Zum Einsatz kam ein YOLOv8 Modell für Object Detection, da es eine sehr gute Balance zwischen Erkennungsgenauigkeit Reaktionszeit und Ressourcenbedarf bietet. Das Modell wurde lokal installiert und vollständig offline betrieben. Es findet keine Cloud Verarbeitung statt und es werden keine externen APIs für die Bilderkennung genutzt.
Die gesamte visuelle Inferenz läuft auf einem Raspberry Pi, der als Edge Komponente fungiert. Die Kamera liefert kontinuierlich Videoframes, welche vorverarbeitet und direkt an das Vision Modell übergeben werden. Erkannte Objekte werden mit Klassenbezeichnungen Wahrscheinlichkeiten und Bounding Box Koordinaten angereichert. Das Ergebnis ist ein klar strukturiertes technisches Objektmodell und kein Videostream.
Diese strukturierten Objektdaten werden über eine lokale REST API an ein angebundenes Large Language Model weitergegeben. Das LLM übernimmt bewusst keine visuelle Erkennung. Seine Aufgabe ist die semantische Interpretation der erkannten Objekte. Das Modell ordnet Kontext zu, erkennt Muster, erstellt Beschreibungen und kann regelbasierte Bewertungen oder Zusammenfassungen erzeugen. Vision und Sprache sind strikt getrennt, sowohl technisch als auch konzeptionell.
Der gesamte Stack wurde auf einem mobilen Roboter installiert. Der Roboter bewegt sich autonom durch die Wohnung und dient als physischer Scanner seiner Umgebung. Die Navigation erfolgt unabhängig von der KI Logik. Der Kamerascanner beobachtet und analysiert passiv. Er trifft keine Bewegungsentscheidungen und greift nicht aktiv in die Steuerung ein. Dadurch bleibt die Verantwortung klar getrennt und kontrollierbar.
Datenschutz und Nachvollziehbarkeit waren von Anfang an zentrale Designkriterien. Es werden keine Rohbilder oder Videodaten dauerhaft gespeichert. Persistiert werden ausschliesslich Objektmetadaten wie Objektklasse Position Zeitstempel und Konfidenzwerte. Jeder Verarbeitungsschritt ist protokolliert und technisch erklärbar. Das System ist damit auditierbar und transparent aufgebaut.
Das Projekt zeigt sehr deutlich, dass leistungsfähige visuelle KI auch mit begrenzter Hardware lokal betrieben werden kann. Gleichzeitig demonstriert es eine Architektur, die den Grundgedanken des EU AI Act bereits technisch umsetzt. Edge Verarbeitung klare Zweckbindung minimale Datenspeicherung Trennung von Wahrnehmung und Entscheidung sowie jederzeitige menschliche Kontrolle sind integraler Bestandteil des Systems.
Der AI Kamerascanner ist kein Überwachungssystem. Er ist ein technisches Experiment und ein Proof of Concept für verantwortungsvolle Computer Vision in Kombination mit LLMs und Robotik. Ziel ist es zu zeigen, dass KI physische Umgebungen erfassen kann, ohne Kontrolle Transparenz und Datenschutz zu verlieren.