Die Entwicklung des 3D-Sehens
3D-Vision ist das Herzstück moderner Automatisierung, die industrielle Prozesse auf unzählige Arten verbessert und unser Leben einfacher macht. Es hilft uns, Produkte zu sortieren, Objekte in der Qualitätskontrolle zu inspizieren und Fehler daran zu finden und auch die unterschiedlichsten Aufgaben schneller und effizienter zu erledigen, als es Menschen jemals könnten. Sichtgesteuerte Roboter werden häufig verwendet, um gefährliche Aufgaben auszuführen und schwere Gegenstände zu handhaben, sodass sie auch die Sicherheit erhöhen und das Verletzungsrisiko eliminieren.
3D-Sensortechnologien haben einen langen Weg zurückgelegt, um all diese Vorteile zu bieten, die wir heute genießen können – und sie entwickeln sich immer noch weiter. Vom ersten Foto bis zur digitalen Bildgebung, von 2D zu 3D und vom 3D-Scannen statischer Objekte bis zur Erfassung dynamischer Szenen. Was kommt als nächstes?
Gemeinsam mit Tomas Kovacovsky, Mitbegründer und CTO der Photoneo Group, haben wir uns die Geschichte der 3D-Bildverarbeitung angesehen bis hin zu den neuesten Entwicklungen, die die heutigen Trends wie Industrie 4.0 dominieren. Werfen wir einen kurzen Blick darauf.
Fotografie und die ersten Technologien zur Bilderfassung
Seit den Anfängen der Fotografie sind Menschen von der Möglichkeit fasziniert, Ereignisse festzuhalten und festzuhalten. Das erste bekannte Foto wurde irgendwo zwischen 1826 und 1827 aufgenommen des französischen Erfinders Joseph Nicéphore Niépce. Während sein fotografischer Prozess mindestens acht Stunden, wenn nicht mehrere Tage Belichtung in der Kamera erforderte, hat sein Mitarbeiter Louis Daguerre entwickelte das erste öffentlich angekündigte fotografische Verfahren (bekannt als Daguerreotypie), das nur wenige Minuten belichtet werden musste. Die Erfindung wurde der Öffentlichkeit im 1839 vorgestellt – ein Jahr, das allgemein als die Geburtsstunde der praktischen Fotografie gilt.
Die Fotografie diente lange Zeit nur als Medium, um Ereignisse festzuhalten. Da die Bildverarbeitung ziemlich lange dauerte, war die analoge Technologie nicht ideal, um für Bildverarbeitungs- oder Entscheidungsaufgaben verwendet zu werden.
1969, William Boyle und George E. Smith von den Americal Bell Laboratories erfand die CCD-Sensor (Charge-Coupled Device) zur Aufnahme von Bildern , die ein wichtiger Meilenstein in der Entwicklung der digitalen Bildgebung war. Ein CCD-Sensor nimmt Bilder auf, indem er Photonen in Elektronen umwandelt – das heißt, er nimmt das Licht auf und übersetzt es in digitale Daten. Obwohl CCDs damals nicht mit dem Standardfilm zur Bilderfassung konkurrieren konnten, wurden sie für bestimmte Anwendungen eingesetzt und der Stein kam ins Rollen.
Von 2D zu 3D
Die 2D-Erkennung hat das Zeitalter der Automatisierung eingeläutet und war lange Zeit der vorherrschende Ansatz in der Automatisierung des Industriesektors. 2D-Vision wird auch heute noch in einigen einfachen Anwendungen verwendet, einschließlich der folgenden:
- Optical Character Recognition (OCR) – Lesen getippter, handgeschriebener oder gedruckter Texte; Barcodelesen
- Qualitätskontrolle – wird häufig in Kombination mit einer speziellen Beleuchtung verwendet, um sicherzustellen, dass die optischen Eigenschaften des gescannten Objekts gleich bleiben
- Zählen
- Kommissionierung von Artikeln unter genau definierten Bedingungen
Die größte Einschränkung von 2D-Technologien besteht jedoch darin, dass sie keine Objektformen erkennen oder Entfernungen in der Z-Dimension messen können.
2D-Anwendungen erfordern gute, klar definierte Bedingungen mit zusätzlicher Beleuchtung, was auch Anwendungen wie den Griff in die Kiste einschränkt. Diese Roboteraufgabe kann mit einem 2D-Vision-System durchgeführt werden, ist jedoch im Allgemeinen problematisch aufgrund der zufälligen Position von Objekten in einem Behälter und einer großen Menge an Informationen in der Szene, die 2D-Vision-Systeme nicht verarbeiten können.
Die Leute erkannten den Bedarf an 3D-Informationen, um komplexere Aufgaben automatisieren zu können. Sie verstanden, dass Menschen ihre Umgebung in einer 3D-Ansicht sehen und die Entfernung von Objekten erkennen konnten, weil sie zwei Augen hatten – stereoskopisches Sehen.
In den 1960er Jahren Larry Roberts , der alsVater der Computer Vision gilt , beschrieb wie 3D-Geometrieinformationen aus 2D-Fotografien von Strichzeichnungen abgeleitet werden und wie ein Computer aus einem einzigen 2D-Foto ein 3D-Modell erstellen könnte.
In den 1970er Jahren startete am MIT’s Artificial Intelligence Lab ein „Machine Vision“-Kurs, um Low-Level-Machine-Vision-Aufgaben anzugehen. Hier entwickelte David Marr einen einzigartigen Ansatz zum Szenenverständnis durch Computervision, bei dem er das Sehen als Informationsverarbeitungssystem betrachtete. Sein Ansatz begann mit einer 2D-Skizze, auf der der Computer ein endgültiges 3D-Bild erstellte.
Die Forschung auf dem Gebiet des maschinellen Sehens wurde in den 1980er Jahren intensiviert und brachte neue Theorien und Konzepte hervor. Diese führten zu einer Reihe unterschiedlicher 3D-Machine-Vision-Technologien, die nach und nach in Industrie- und Fertigungsumgebungen eingeführt wurden, um die unterschiedlichsten Prozesse zu automatisieren.
Erste 3D-Vision-Technologien
Der Versuch, das menschliche stereoskopische Sehen zu imitieren, führte zur Entwicklung einer der ersten 3D-Sensortechnologien – Passive Stereo . Dieses Triangulationsverfahren betrachtet eine Szene aus zwei Blickwinkeln und berechnet das Dreieck Kamera – gescanntes Objekt – Kamera , auf der Suche nach Korrelationen zwischen den beiden Bildern. Basierend auf der Ungleichheit zwischen den Bildern berechnet es die Entfernung (Tiefe) vom gescannten Objekt. Dieser Ansatz beruht jedoch darauf, identische Details in den Bildern zu finden, sodass er bei weißen Wänden oder Szenen ohne Muster nicht gut funktioniert. Die Zuverlässigkeit von passivem Stereo ist gering und die 3D-Ausgabe hat normalerweise ein hohes Rauschen und erfordert viel Rechenleistung.
Um diesen Nachteil auszugleichen, begannen die Forscher damit zu experimentieren, Lichtmuster auf die Szene zu projizieren, um eine künstliche Textur auf der Oberfläche zu erzeugen und Korrespondenzen in der Szene leichter zu identifizieren. Diese Methode wird als aktives Stereo bezeichnet . Obwohl diese Methode zuverlässiger ist als passives Stereo, wird die Rekonstruktionsqualität oft durch strenge Anforderungen an die Verarbeitungszeit beeinträchtigt, was sie für viele Anwendungen unzureichend macht.
Eine der frühesten und immer noch sehr beliebten Methoden zur Gewinnung von 3D-Informationen ist die Laserprofilometrie . Diese Technik projiziert ein schmales Lichtband (oder einen Punkt) auf eine 3D-Oberfläche, wodurch eine Beleuchtungslinie erzeugt wird, die aus einem anderen Winkel als dem des Projektors verzerrt erscheint. Diese Abweichung codiert Tiefeninformationen. Linienscanner erfassen in schneller Folge jeweils ein Tiefenprofil, wofür sie das gescannte Objekt oder die Kamera ständig bewegen müssen. Die Laserprofilometrie war eines der ersten 3D-Scanverfahren, das für den industriellen Einsatz eingeführt wurde, und ist beispielsweise in messtechnischen Anwendungen immer noch sehr beliebt.
Eine andere Methode, die erfunden wurde, um strukturierte Lichtmuster auf eine Szene zu projizieren, ist strukturiertes Licht . Eine der am häufigsten zitierten Arbeiten zur Verwendung von strukturiertem Licht mit Binärcodes für die digitale Restaurierung war The Digital Michelangelo Project unter der Leitung von Marc Levoy und seinem Team an der Stanford University. Das Projekt begann 1998 mit der Digitalisierung von Michelangelos Statuen mit Hilfe eines Projektors und eines Kamerasensors. Die Laserscandaten für Michelangelos David wurden dann für die Restaurierung der Statue verwendet, die 2002 begann. Obwohl die in diesem Projekt verwendete Methode nicht schnell genug war, um in Echtzeitanwendungen eingesetzt zu werden, bot sie die sehr hohe Genauigkeit, die für die Digitalisierung verschiedener erforderlich war Artefakte und Objekte. Dank dessen fand die Technologie ihre Nische in messtechnischen Anwendungen und anderen Roboter- und Bildverarbeitungsaufgaben, die eine hohe Scanpräzision erfordern.
Allmählich erweiterte sich die Strukturlicht-Technologie über die Messtechnik hinaus und durchdrang alle Arten von Online-Anwendungen mit sichtgeführten Robotern. Der Vorteil von Streifenlicht-3D-Scannern besteht darin, dass sie keine Bewegung erfordern. Da sie eine Momentaufnahme des gesamten Scanbereichs erstellen können und man mit dem Scanner nicht um das gesamte Objekt herumgehen muss, sind sie schneller als Geräte, die auf Laserprofilometrie basieren, und erfordern nicht so viel Datennachbearbeitung.
Von statischen zu dynamischen Szenen
Die Erfassung von Bewegung ist viel schwieriger als das 3D-Scannen statischer Szenen und disqualifiziert Methoden, die längere Erfassungszeiten erfordern.
Weil passives Stereo Ist eine passive Methode, die keine zusätzliche Beleuchtung verwendet, könnte sie zum Aufnehmen dynamischer Szenen verwendet werden, aber nur, wenn bestimmte Bedingungen erfüllt sind. Trotzdem wären die Ergebnisse nicht gut.
Laserprofilometrie ist in dieser Hinsicht nicht viel erfolgreicher als Passiv-Stereo. Da jeweils nur ein Profil erfasst wird, muss sich die Kamera oder die Szene bewegen, um einen vollständigen Schnappschuss der Szene zu erstellen. Die Technologie kann jedoch kein dynamisches Ereignis erfassen. Um die Tiefe für ein einzelnes Profil zu rekonstruieren, muss ein Scanbild mit einem schmalen Bereich aufgenommen werden, dessen Größe die Bildrate und folglich auch die Scangeschwindigkeit begrenzt.
Strukturiertes Licht Systeme hingegen projizieren mehrere Lichtmuster in einer Sequenz nacheinander auf die Szene. Dazu muss die Szene statisch sein. Wenn sich das gescannte Objekt oder die Kamera bewegt, wird der Code beschädigt und die 3D-Punktwolke wird verzerrt.
Die Notwendigkeit, dynamische Objekte in 3D zu rekonstruieren, führte zur Entwicklung von Time-of-Flight (ToF) Systeme. Ähnlich wie die strukturierte Lichttechnologie ist ToF eine aktive Methode, die Lichtsignale an die Szene sendet und die Signale dann mit der Kamera und ihrer Software interpretiert. Im Gegensatz zu strukturiertem Licht strukturiert ToF das Licht zeitlich und nicht räumlich. Es funktioniert nach dem Prinzip der Messung der Zeit, während der ein von der Lichtquelle ausgesendetes Lichtsignal auf das gescannte Objekt trifft und zum Sensor zurückkehrt.
Die ersten ToF-Systeme hatten eher geringe Qualität. Zu den großen Akteuren in diesem Bereich gehörten Unternehmen wie Canesta, 3DV Systems oder Microsoft (das später beide Unternehmen übernahm). Eines der frühen, bekannten Projekte war die ZCam – eine Time-of-Flight-Kamera, die von 3DV entwickelt und später von Microsoft gekauft wurde, um für die Erfassung von 3D-Informationen und die Interaktion mit virtuellen Objekten in Microsofts Xbox-Videospielkonsole verwendet zu werden.
Im Jahr 2010 veröffentlichte Microsoft sein Kinect-Sensorsystem für Xbox, eine Bewegungserkennungskamera, die auf der PrimeSense-Technologie basierte. Die PrimeSense-Technologie verwendete ein strukturiertes Muster, um bestimmte Pixel (nicht alle) zu codieren und 3D-Informationen zu erhalten. Obwohl das Verfahren keine hohe Auflösung und detaillierte Konturen an den Rändern der gescannten Objekte liefern konnte, wurde es weit verbreitet, da seine Verarbeitungsgeschwindigkeit ziemlich schnell und die Technologie auch sehr erschwinglich war. Es wurde hauptsächlich im akademischen Bereich verwendet, ist aber auch im industriellen Umfeld für die Roboterkommissionierung und andere Aufgaben kaum zu finden.
Im Gegensatz zu Kinect 1 basierte Kinect 2 auf der ToF-Technologie. Fortschritte bei ToF führten dazu, dass das Verfahren immer beliebter und weit verbreitet wurde – es konnte eine höhere Qualität als die PrimeSense-Technologie liefern, aber die Auflösung der 3D-Scans dynamischer Szenen war immer noch nicht ausreichend.
Die heutigen ToF-Systeme sind dank ihrer schnellen Scangeschwindigkeit und nahezu Echtzeiterfassung in 3D-Vision-Anwendungen sehr beliebt. Ihre Auflösung ist jedoch immer noch ein Problem und sie haben auch mit höheren Rauschpegeln zu kämpfen.
Im Jahr 2013 hatte Photoneo eine revolutionäre Idee, wie man sich schnell bewegende Objekte erfassen kann, um 3D-Informationen in hoher Auflösung und Submillimetergenauigkeit zu erhalten.
Die patentierte Technologie von Parallel Structured Light basiert auf einem speziellen, proprietären CMOS-Sensor mit einem Multi-Tap-Shutter mit einem mosaikartigen Pixelmuster, das die Art und Weise, wie ein Bild aufgenommen werden kann, grundlegend verändert.
Dieser neuartige Schnappschuss-Ansatz nutzt strukturiertes Licht, vertauscht jedoch die Rolle der Kamera und des Projektors:Während strukturierte Lichtsysteme mehrere Muster vom Projektor in einer Sequenz aussenden, sendet die Parallel Structured Light-Technologie einen sehr einfachen Laser-Sweep ohne Musterung über die Szene und konstruiert die Muster auf der anderen Seite – im CMOS-Sensor. All dies geschieht in einem einzigen Zeitpunkt und ermöglicht den Aufbau mehrerer virtueller Bilder innerhalb eines Belichtungsfensters. Das Ergebnis ist ein hochauflösendes und hochpräzises 3D-Bild bewegter Szenen ohne Bewegungsartefakte.
Eine dynamische Szene, aufgenommen mit der Parallel Structured Light-Technologie .
Die Parallel Structured Light-Technologie ist in Photoneos 3D-Kamera MotionCam-3D implementiert. Die Entwicklung der Kamera und ihre Markteinführung markierten einen Meilenstein in der Geschichte der maschinellen Bildverarbeitung, da sie die bildverarbeitungsgeführte Robotik neu definierte und die Automatisierungsmöglichkeiten in einem beispiellosen Ausmaß erweiterte. Der neuartige Ansatz wurde mit zahlreichen Preisen ausgezeichnet, darunter dem Vision Award 2018 , Vision Systems Design Innovators Platinum Award 2019 , inVision-Top-Innovationen 2019 , IERA-Preis 2020 , Robotics Business Review’s RBR50 Robotics Innovation Awards 2021 , inVision-Top-Innovationen 2021 und SupplyTech Breakthrough Award 2022 .
3D-Scannen in Bewegung und Farbe
Im Jahr 2022 erweiterte Photoneo die Fähigkeiten der MotionCam-3D, indem es sie mit einer Farbeinheit zur Erfassung von Farbdaten ausstattete. MotionCam-3D Color gilt als die nächste Wunderwaffe in der Bildverarbeitung, da sie endlich die Erstellung von farbigen 3D-Punktwolken in Echtzeit von bewegten Szenen in perfekter Qualität ermöglicht. Dank der einzigartigen Kombination aus 3D-Geometrie, Bewegung und Farbe öffnet die Kamera die Tür zu anspruchsvollen KI-Anwendungen und Roboteraufgaben, die nicht nur auf Tiefeninformationen, sondern auch auf Farbdaten angewiesen sind.
Farbige 3D-Punktwolkenerstellung in Echtzeit einer sich bewegenden Szene mit MotionCam-3D Color .
Anwendungsbereiche, die durch Bildverarbeitungsinnovationen ermöglicht werden
Die Möglichkeiten, die die neuesten Innovationen in der 3D-Bildverarbeitung bieten, ermöglichen es uns, Aufgaben zu automatisieren, die bis vor kurzem nicht durchführbar waren. Diese Anwendungen finden sich in Fertigung, Logistik, Automobil, Lebensmittel, Landwirtschaft, Medizin und anderen Sektoren und umfassen:
- Roboterhandhabung von Objekten in ständiger oder zufälliger Bewegung
- Kommissionierung von Förderbändern und Hängebahnen
- Hand-Auge-Manipulation
- 3D-Modellerstellung für Inspektion und Qualitätskontrolle
- Reinigen und Lackieren von großen Objekten
- Wartungsvorgänge in VR/AR
- Sortieren und Ernten in der Landwirtschaft
- Und viele mehr
Was kommt als nächstes?
Die maschinelle Bildverarbeitung entwickelt sich weiter, um neue Fortschritte mit neuen Möglichkeiten zu bringen. Die Richtung von Innovationen wird immer von Marktanforderungen, Kundenerwartungen, Wettbewerb und anderen Faktoren beeinflusst.
Es ist zu erwarten, dass sich der Trend zum Einsatz von KI in allen Bereichen der Bildverarbeitung definitiv fortsetzen wird, mit dem Ziel, die Entwicklung maßgeschneiderter Algorithmen zu eliminieren. Im Bereich der künstlichen Intelligenz (KI) und deren Kombination mit der Parallel Structured Light-Technologie sehen wir ein enormes Potenzial. Einerseits ist KI auf gute Daten angewiesen. Andererseits kann die neue Bildverarbeitungstechnologie eine große Menge hochwertiger echter 3D-Daten liefern. Die Kombination dieser beiden Ansätze kann die intelligente Robotik transformieren und neue Möglichkeiten eröffnen.
Eine weitere vielversprechende Richtung zukünftiger Entwicklungen ist Edge Computing. Die Hersteller werden wahrscheinlich ihre Bemühungen fortsetzen, um KI direkt in Sensoren zu integrieren und spezialisieren Sie sie für einen definierten Zweck (z. B. Personenzählung, Bemaßung oder automatisierte Erkennung definierter Objektmerkmale), was den Einsatz für Integratoren vereinfacht und den Bedarf an zusätzlichen Komponenten minimiert. Neue Hardwarelösungen, die in der Lage sind, sich bewegende Szenen zu erfassen, werden in Kombination mit fortschrittlichen KI-Algorithmen die immer breiter werdenden Anwendungsfelder auch in anspruchsvolleren Bereichen wie kollaborativer Robotik oder vollständiger Logistikautomatisierung erweitern.
Automatisierungssteuerung System
- Was ist die Realität von Robot Vision?
- Die Entwicklung der industriellen Instandhaltung
- Bildverarbeitungsinspektion:Handwerkszeug
- Cisco Cyber Vision:Unter der Haube
- Die Entwicklung der Wartungspraxis
- Die Kraft einer klaren, prägnanten Vision
- Wird 5G die Vision von 2020 erfüllen?
- Die Entwicklung medizinischer Materialien
- Die Evolution medizinischer Geräte
- Die Entwicklung von Houston Dynamic Service