Zukünftige Aussichten für eine Verbesserung der Tiefendaten auf dem Project Tango Tablet
I ist interessiert die Project Tango Tablette zur 3D-Rekonstruktion unter Verwendung von beliebigen Punkt Funktionen in Verwendung. In der aktuellen SDK-Version, scheinen wir Zugriff auf die folgenden Daten zu haben.
Ein 1280 x 720 RGB-Bild.A Punktwolke mit 0- ~ 10.000 Punkten, abhängig von der Umgebung. Dies scheint im Durchschnitt zwischen 3000 und 6000 in den meisten Umgebungen.What ich wirklich in der Lage will, ist, um einen 3D-Punkt für die wichtigsten Punkte innerhalb eines Bildes zu identifizieren. Daher ist es sinnvoll, die Tiefe in die Bildebene zu projizieren. Ich habe das getan und bekomme so etwas:
The Problem bei diesem Verfahren ist, dass die Tiefenpunkte werden auf das RGB-Pixel spärlich verglichen. So nahm ich es noch einen Schritt weiter und durchgeführte Interpolation zwischen den Tiefenpunkten. Zuerst habe ich eine Delaunay-Triangulation durchgeführt, und sobald ich eine gute Triangulation erhalten hatte, habe ich zwischen den drei Punkten auf jeder Facette interpoliert und ein anständiges, ziemlich gleichmäßiges Tiefenbild erhalten. Hier sind die Zonen, in denen die interpolierte Tiefe gültig ist, auf der RGB iamge auferlegt.
Jetzt ist es angesichts des Kameramodells möglich, die Tiefe an jedem Punkt des Tiefenbilds in kartesische Koordinaten zurück zu projizieren (da das Tiefenbild so erstellt wurde, dass jedes Pixel einem Punkt des ursprünglichen RGB-Bildes entspricht, und wir haben die Kamera Parameter der RGB-Kamera). Wenn Sie sich jedoch das Triangulationsbild ansehen und es mit dem ursprünglichen RGB-Bild vergleichen, können Sie feststellen, dass die Tiefe für alle uninteressanten Punkte im Bild gilt: meistens leere, nicht sichtbare Ebenen. Dies gilt nicht nur für diesen einzigen Satz von Bildern; Ich sehe einen Trend für den Sensor. Wenn eine Person vor dem Sensor steht, zum Beispiel, gibt es sehr wenige Tiefen Punkte innerhalb ihrer Silhouette.
Aufgrund dieser Sensoreigenschaft fallen die meisten Bereiche mit Ecken oder interessanten Texturen in Bereiche ohne zugehörige Tiefeninformationen, wenn ich eine visuelle Merkmalsextraktion für das Bild durchführe. Nur ein Beispiel: I 1000 detektiert SIFT keypoints aus einem einem RGB-Bild von einem Xtion Sensor, und 960 von denen hatten gültige Tiefenwerte. Wenn ich die gleiche Sache zu diesem System zu tun, erhalte ich 80 keypoints mit gültiger Tiefe um. Im Moment dieses Leistungsniveau ist nicht akzeptabel für meine Zwecke.
Ich kann die Gründe dafür erraten: Es scheint, als würde eine Art Ebenenextraktionsalgorithmus verwendet, um Tiefenpunkte zu erhalten, während Primesense / DepthSense-Sensoren etwas Raffinierteres verwenden.
So ist meine Hauptfrage hier: Können wir zu einem späteren Zeitpunkt eine Verbesserung der Tiefendaten durch verbesserte RGB-IR-Bildverarbeitungsalgorithmen erwarten? Oder ist dies eine inhärente Begrenzung des Stromsensors?