Die Macht der KI in der industriellen Automatisierung

Die fortschrittlichsten Ansätze für vollständig intelligente Robotersysteme

KI (künstliche Intelligenz) ermöglicht die Automatisierung einer wachsenden Zahl von Geschäftsprozessen und industriellen Anwendungen. Der Umfang und das Tempo der intelligenten Automatisierung hängen direkt von den Fortschritten in der KI ab und haben daher in den letzten Jahren enorme Fortschritte gemacht. In Kombination mit leistungsstarker 3D-Bildverarbeitung ermöglicht KI Robotern, jede Art von Objekt zu erkennen, zu lokalisieren und zu handhaben und so Aufgaben zu automatisieren, die für Menschen zu gefährlich, eintönig oder anderweitig zu anspruchsvoll wären.

Aber was versteht man unter KI in der industriellen Automatisierung, wie funktioniert sie und welche Möglichkeiten eröffnet sie Fabriken und Unternehmen, die nach Modernität, Innovation und Produktivitätssteigerung streben? Werfen wir zunächst einen Blick auf die Anfänge der KI und ihre schrittweise Entwicklung.

Von den ersten Architekturen zu Convolutional Neural Networks

Der Begriff KI kann eine Reihe von Maschinenfähigkeiten und -prozessen darstellen – von einfachen Statistiken über Entscheidungsbäume bis hin zu neuronalen Netzen wie Convolutional Neural Networks oder sogar fortgeschritteneren Ansätzen wie Reinforcement Learning.

In der Geschichte der Entwicklung der KI gab es mehrere Ansätze, aber neuronale Netze erwiesen sich dank ihrer Verallgemeinerungsfähigkeit als die vielversprechendsten und interessantesten.

In den 1990er und frühen 2000er Jahren erlangten neuronale Netze große Aufmerksamkeit dank der ersten erfolgreichen Anwendungen der Zeichenerkennung, die das Lesen handgeschriebener Zahlen beinhalteten in Bankschecks und Postleitzahlen. Diese neuronalen Netze wurden auf einem sogenannten MNIST-Datensatz trainiert (steht für Modified National Institute of Standards and Technology ), eine Sammlung handgeschriebener Ziffern von 0 bis 9, die beim maschinellen Lernen und maschinellen Sehen zum Trainieren von Bildverarbeitungssystemen verwendet werden. Der MNIST-Datensatz diente als Grundlage für das Benchmarking von Klassifizierungsalgorithmen und wird noch heute für Schulungs- und Testzwecke verwendet.

Obwohl diese klassischen neuronalen Netze praktisch alles lernen können, repräsentieren sie eine alte, vollständig vernetzte Architektur und ihr Training erfordert viel Zeit und Mühe . Denn alle Neuronen in einer Schicht sind vollständig mit den Neuronen in der nächsten Schicht verbunden – was bedeutet, dass eine riesige Anzahl von Parametern gelernt werden muss, die mit der Größe eines Bildes ansteigen. Obwohl sich die Leistung von Computern im Laufe der Zeit verbessert hat, dauert es immer noch sehr lange, die Erkennung selbst kleiner Bilder zu trainieren.

Ein Wendepunkt in der Entwicklung der KI war geprägt von der Einführung von Convolutional Neural Networks (CNNs) . CNNs werden hauptsächlich zur Analyse visueller Bilder verwendet, einschließlich Bildklassifizierung oder Mustererkennung , und bilden das Rückgrat vieler moderner Bildverarbeitungssysteme. Ein weiteres Hauptanwendungsgebiet ist die Verarbeitung natürlicher Sprache.

Ein CNN ist, sehr grob gesagt, vom visuellen Kortexsystem im Gehirn inspiriert. Die Hauptidee hinter CNNs ist, nicht alle Neuronen miteinander zu verbinden, wie es bei vollständig verbundenen Netzwerken der Fall ist, sondern nur mit benachbarten Neuronen, um Nähe zu schaffen, da benachbarte Eingaben wie Pixel zusammengehörige Informationen tragen. Das bedeutet, dass CNNs mehrere Schichten haben können und Neuronen einer Schicht nur mit räumlich nahen Neuronen der nächsten Schicht verbunden sind . Dies reduziert die Komplexität, die Anzahl der Neuronen im Netzwerk und folglich auch die Anzahl der zu lernenden Parameter. Dadurch sind CNNs schneller zu trainieren, benötigen weniger Samples und können auch auf größere Bilder angewendet werden.

Der Begriff "Faltung" bezieht sich auf den Filterprozess, durch den CNNs Muster erkennen. Die einzelnen Schichten falten sich , also kombinieren , die Eingabe und übergeben Sie das Ergebnis an die nächste Schicht.

Der Fortschritt in der Entwicklung von CNNs wurde auch durch die Fortschritte bei Grafikprozessoren (GPUs) beschleunigt. Ihre Leistung und Rechenleistung haben sich in den letzten Jahren enorm verbessert und eröffnen neue Möglichkeiten für das Training von CNNs.

Einer der anerkanntesten Führer auf dem Gebiet der KI, der oft als „Godfather of AI“ bezeichnet wird, ist Geoffrey Hinton . Er hat einen Abschluss in experimenteller Psychologie und künstlicher Intelligenz. Diese Kombination gab ihm einen großartigen Einblick in das Training künstlicher neuronaler Netze.

2012 sein Schüler Alex Krizhevsky markierte einen weiteren Wendepunkt in der KI, als er ein CNN schuf, das in der Lage war, die Art und Weise nachzuahmen, wie das menschliche Gehirn Objekte erkennt. Das CNN wurde AlexNet genannt und zum ersten Mal in der Geschichte ermöglichte es einer Maschine, Objekte wie eine Person zu identifizieren.

Dieser Durchbruch machte Faltungsneuronale Netze populär und zeigte die große Bandbreite an Anwendungen, in denen CNNs verwendet werden könnten.

Training eines Convolutional Neural Network

Bei der Objekterkennung ist es wichtig, dass ein CNN eine Eigenschaft namens Invarianz hat . Das bedeutet, dass es unabhängig von Übersetzung, Blickwinkel, Größe oder Beleuchtung ist, Eingabemuster zu interpretieren und Objekte zu klassifizieren, unabhängig davon, wo und wie sie in einem Bild platziert sind. Um dies zu erreichen, muss CNN an einer bestimmten Anzahl von Beispielen trainiert werden. Eine der Best Practices zur Erhöhung der Menge relevanter Daten in einem Datensatz ist die Datenerweiterung .

Augmentation ist die Praxis, Eingabedaten, dh das Originalbild, zu modifizieren, um mehrere andere, leicht veränderte Versionen davon zu erzeugen. Zu den Erweiterungstechniken gehören horizontales oder vertikales Spiegeln, Drehen, Skalieren, Zuschneiden, Verschieben des Bildes entlang der X- oder Y-Richtung und andere.

Das Training eines CNN mit veränderten Daten macht seine Neuronen immun gegen solche Erweiterungen und verhindert, dass es irrelevante Muster lernt. Ein umgedrehter Papagei wird also immer noch als Papagei erkannt.

Sehr praktisch ist hier das sogenannte Transfer Learning . Um die Menge an Trainingsdaten zu eliminieren, kann man ein vorhandenes und bereits trainiertes Netzwerk verwenden und einige seiner Filter für die Erkennung neuer Arten von Objekten anwenden. Beispielsweise kann ein für die Erkennung von Hunden trainiertes Netzwerk auch für die Erkennung von Katzen verwendet werden, indem einige seiner Filter beibehalten und nur ein bestimmter Teil davon modifiziert werden. Das bedeutet, dass sich das Netzwerk an die Erkennung von Katzen anpasst.

Vorteile modularer Convolutional Neural Networks

Der große Wert von CNNs liegt in ihrer Architektur und darin, dass die einzelnen Module einzelne Bildblöcke betrachten. Die Module müssen nicht gleichzeitig trainiert werden und können einfach miteinander verbunden werden. Die Kombination dieser gut trainierten Module führte zu komplexen Architekturen, die für die Segmentierung verwendet werden können .

Im Gegensatz zum AlexNet, das nur erkennen kann, was sich im Bild befindet, können diese komplexen CNNs eine Objektsegmentierung durchführen und die Position des Objekts im Bild definieren .

Diese Modularität ermöglicht es, verschiedene Eingangskanäle zu verwenden, dh wenn das CNN für Schwarz-Weiß-Daten verwendet wurde, kann es auch für Farbdaten verwendet werden, und wenn es für Farbdaten verwendet wurde, kann es um Tiefeninformationen erweitert werden. Das Hinzufügen zusätzlicher Informationen steigert die Leistung von CNN , which includes increased accuracy and better recognition of objects and their positions.

From object recognition to smart automation solutions

Based on the above features and characteristics of convolutional neural networks, Photoneo took CNNs as a basis for its advanced robotic intelligence systems and automation solutions .

Photoneo’s CNN works with black &white data, color data, as well as depth information. The algorithms are trained on a large dataset of objects and if they come across new types of items, they can quickly generalize, that is, recognize and classify objects which it has not “seen” before.

Let’s take the concept of a box, for instance. The algorithms were trained on a large dataset of boxes so they understand that a box has a certain amount of faces, edges, and vertices. This principle will also work for boxes that the algorithms have not come across before, even squeezed or damaged ones. The greatest value of AI lies in the fact that it can generalize concepts that it was trained on without further retraining.

This enables Photoneo systems to recognize items of various shapes, sizes, colors, or materials – a robotic ability used for the localization and handling of mixed objects, including organic items such as fruit or fish, sorting of parcels, unloading of pallets laden with boxes, and many other industrial applications.

It might also happen that the algorithms come across objects with features that are fundamentally different from those the algorithms were trained on. This might confuse the CNN and cause a decrease in its performance. What can be done to solve this problem is either to prevent it by expecting exotic objects or to have a good retraining system. In the latter case, the performance will be temporarily lower but the CNN will be retrained to reach full performance rather quickly.

In case a customer needs to pick unusual items or non-commercial products such as industrial components, the CNN can be trained on a specific dataset containing these exotic items .

When it comes to the realization of a customer project, the customer receives Photoneo’s CNN for pilot testing and a feasibility study to ensure that the network can be used for that particular application. This CNN can then be improved and further trained on images from the pilot phase of the project, which will provide greater variability.

The greatest challenge in AI-powered object recognition and picking

The greatest challenge could also be described as the last puzzle piece that was missing in the range of pickable objects. This last piece was bags .

The difficulty lies in the nature of bags since they are extremely deformable and full of wrinkles, folds, and other irregularities. Despite the challenges that bags pose to AI, Photoneo developed a system that is able to recognize and pick bags, may they be full, half-empty, colored, transparent, or semi-transparent. This task is often challenging even for the human eye, which may find it difficult to recognize boundaries between bags that are chaotically placed in a container, especially if they are transparent.

However, good recognition and localization of bags are only part of the precondition for successful object picking. The other part relates to the mechanical side of an application – the robot gripper. The fact that bags are full of folds and wrinkles increases the risk that they will fall off the gripper. This risk can be prevented by using an appropriate vacuum gripper with feedback.

Future developments of AI

Despite significant advancements that have been made in AI in recent years, the field still offers a vast space for new achievements. For instance, so-called reinforcement learning receives great attention as it seems to be very promising in suggesting complex movements, for instance allowing a robot to adjust the position of an item before grasping it.

Reinforcement learning is not only able to cope with object recognition but also with mechanical problems of an application. This means that it not only enables a system to recognize items but also assess the individual steps of a robot action on the basis of rewards and punishments and “calculate” the chance of success or failure . In other words, AI algorithms are trained to make a sequence of decisions that will lead to actions maximizing the total reward. An example of the power of reinforcement learning is mastering and winning the board game of Go.

Despite its immense potential, reinforcement learning is closely linked to the environment it is set in and to the limitations it may pose. For example, the deployed gripper and its functionalities and limitations will always influence a system’s overall performance.

AI is the main driver of emerging technologies and its developments will be very dependent on a number of factors, including market demands, customer expectations, competition, and many others.

3D-Vision-Systeme – welches ist das Richtige für Sie? Roboterpalettierer – großartige End-of-Line-Lösung

Automatisierungssteuerung System

Herstellungsprozess

3d Drucken

Automatisierungssteuerung System

Industrietechnik