Was Ist Monokulare Tiefenschatzung?
Monokulare Tiefenschatzung ist die Aufgabe, die Entfernung jedes Pixels in einem Bild von einem einzelnen Kamerastandpunkt vorherzusagen. Im Gegensatz zur Stereovision, die zwei Kameras verwendet, basieren monokulare Methoden auf gelernten visuellen Hinweisen. Moderne KI-Modelle wie Depth Anything v2 verwenden Vision Transformer, die mit Millionen von Bildern trainiert wurden, um Muster wie Perspektivkonvergenz und Texturdichtevariation zu erkennen.
Wie Depth Anything v2 Funktioniert
Depth Anything v2 verwendet einen DINOv2 Vision Transformer Encoder gepaart mit einem Dense Prediction Transformer Decoder. Das Modell wurde mit einer Lehrer-Schuler-Pipeline auf 595.000 beschrifteten synthetischen Bildern und 62 Millionen pseudo-beschrifteten realen Bildern trainiert. Dieser Ansatz erreicht modernste Genauigkeit mit einem absoluten relativen Fehler von nur 4,3% auf Standardbenchmarks.
Relative vs. Metrische Tiefe
Dieses Tool erzeugt relative Tiefenkarten, die zeigen, welche Objekte naher oder weiter entfernt sind, ohne genaue Entfernungen in Metern anzugeben. Relative Tiefe ist zuverlassig fur die Sortierung von Objekten nach Entfernung mit uber 95% Genauigkeit. Fur tatsachliche metrische Messungen waren LiDAR-Sensoren oder Stereokamerasysteme erforderlich.
Einschrankungen und Best Practices
Tiefenschatzung funktioniert am besten mit gut beleuchteten Szenen, die vielfache Texturen und klare Tiefenvariation aufweisen. Sie kann Schwierigkeiten haben mit reflektierenden Oberflachen wie Spiegeln, transparenten Objekten wie Glas und repetitiven Mustern wie gleichformigen Fliesen. Sehr entfernte Objekte jenseits von 100 Metern konnen unzuverlassige Tiefenwerte haben.





