Wie Objekterkennung funktioniert
Objekterkennung kombiniert Bildklassifizierung mit Lokalisierung. Im Gegensatz zu einfachen Klassifikatoren, die ein ganzes Bild beschriften, identifizieren Objektdetektoren mehrere Objekte und deren Positionen. Moderne Detektoren wie YOLO verwenden Faltungsneuronale Netze (CNNs), um Merkmale aus dem Bild zu extrahieren und Begrenzungsrahmen-Koordinaten, Klassenbeschriftungen und Konfidenzwerte in einem einzigen Vorwaertsdurchlauf vorherzusagen.
Die YOLO-Architektur verstehen
YOLO teilt das Eingabebild in ein S x S Raster auf. Jede Rasterzelle sagt eine feste Anzahl von Begrenzungsrahmen mit Konfidenzwerten und Klassenwahrscheinlichkeiten voraus. Non-Maximum-Suppression (NMS) entfernt doppelte Erkennungen. Dieser Single-Shot-Ansatz macht YOLO deutlich schneller als zweistufige Detektoren wie R-CNN, bei gleichzeitig wettbewerbsfaehiger Genauigkeit.
Konfidenzwerte und Schwellenwerte
Jede Erkennung kommt mit einem Konfidenzwert zwischen 0 und 1, der die Sicherheit des Modells repraesentiert. Die Intersection over Union (IoU) Metrik misst, wie gut ein vorhergesagter Rahmen mit dem tatsächlichen Objekt übereinstimmt. Durch Anpassen der Konfidenzschwelle wird zwischen Praezision (weniger Fehlerkennungen) und Recall (weniger übersehene Objekte) abgewogen.
Anwendungen der Objekterkennung
Objekterkennung treibt autonome Fahrzeuge (Fussgaenger- und Fahrzeugerkennung), Sicherheitsüberwachung (Einbrucherkennung), Einzelhandelsanalytik (Regalüberwachung und Kundenzaehlung), medizinische Bildgebung (Tumorlokalisierung), industrielle Qualitätskontrolle (Fehlererkennung) und Augmented Reality (Szenenverstaendnis und Objektinteraktion) an.





