Was Ist Monokulare TiefenSchätzung?
Monokulare TiefenSchätzung ist die Aufgabe, die Entfernung jedes Pixels in einem Bild von einem einzelnen Kamerastandpunkt vorherzusagen. Im Gegensatz zur Stereovision, die zwei Kameras verwendet, basieren monokulare Methoden auf gelernten visuellen Hinweisen. Moderne KI-Modelle wie Depth Anything v2 verwenden Vision Transformer, die mit Millionen von Bildern trainiert würden, um Muster wie Perspektivkonvergenz und Texturdichtevariation zu erkennen.
Wie Depth Anything v2 Funktioniert
Depth Anything v2 verwendet einen DINOv2 Vision Transformer Encoder gepaart mit einem Dense Prediction Transformer Decoder. Das Modell würde mit einer Lehrer-Schüler-Pipeline auf 595.000 beschrifteten synthetischen Bildern und 62 Millionen pseudo-beschrifteten realen Bildern trainiert. Dieser Ansatz erreicht modernste Genauigkeit mit einem absoluten relativen Fehler von nur 4,3% auf Standardbenchmarks.
Relative vs. Metrische Tiefe
Dieses Tool erzeugt relative Tiefenkarten, die zeigen, welche Objekte näher oder weiter entfernt sind, ohne genaue Entfernungen in Metern anzugeben. Relative Tiefe ist zuverlässig für die Sortierung von Objekten nach Entfernung mit über 95% Genauigkeit. Für tatsächliche metrische Messungen waren LiDAR-Sensoren oder Stereokamerasysteme erforderlich.
Einschränkungen und Best Practices
TiefenSchätzung funktioniert am besten mit gut beleuchteten Szenen, die vielfache Texturen und klare Tiefenvariation aufweisen. Sie kann Schwierigkeiten haben mit reflektierenden Oberflachen wie Spiegeln, transparenten Objekten wie Glas und repetitiven Mustern wie gleichformigen Fliesen. Sehr entfernte Objekte jenseits von 100 Metern können unzuverlassige Tiefenwerte haben.





