Wie Objekterkennung funktioniert
Objekterkennung kombiniert Bildklassifizierung mit Lokalisierung. Im Gegensatz zu einfachen Klassifikatoren, die ein ganzes Bild beschriften, identifizieren Objektdetektoren mehrere Objekte und deren Positionen. Moderne Detektoren wie YOLO verwenden Faltungsneuronale Netze (CNNs), um Merkmale aus dem Bild zu extrahieren und Begrenzungsrahmen-Koordinaten, Klassenbeschriftungen und Konfidenzwerte in einem einzigen Vorwaertsdurchlauf vorherzusagen.
Die YOLO-Architektur verstehen
YOLO teilt das Eingabebild in ein S x S Raster auf. Jede Rasterzelle sagt eine feste Anzahl von Begrenzungsrahmen mit Konfidenzwerten und Klassenwahrscheinlichkeiten voraus. Non-Maximum-Suppression (NMS) entfernt doppelte Erkennungen. Dieser Single-Shot-Ansatz macht YOLO deutlich schneller als zweistufige Detektoren wie R-CNN, bei gleichzeitig wettbewerbsfaehiger Genauigkeit.
Konfidenzwerte und Schwellenwerte
Jede Erkennung kommt mit einem Konfidenzwert zwischen 0 und 1, der die Sicherheit des Modells repraesentiert. Die Intersection over Union (IoU) Metrik misst, wie gut ein vorhergesagter Rahmen mit dem tatsaechlichen Objekt uebereinstimmt. Durch Anpassen der Konfidenzschwelle wird zwischen Praezision (weniger Fehlerkennungen) und Recall (weniger uebersehene Objekte) abgewogen.
Anwendungen der Objekterkennung
Objekterkennung treibt autonome Fahrzeuge (Fussgaenger- und Fahrzeugerkennung), Sicherheitsueberwachung (Einbrucherkennung), Einzelhandelsanalytik (Regalueberwachung und Kundenzaehlung), medizinische Bildgebung (Tumorlokalisierung), industrielle Qualitaetskontrolle (Fehlererkennung) und Augmented Reality (Szenenverstaendnis und Objektinteraktion) an.





