Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Manufacturing Technology >> Industrietechnik

GLTR:Eine neue Methode zur Erkennung computergenerierter Sprachen

In den letzten zehn Jahren hat die Community für die Verarbeitung natürlicher Sprache das Wachstum immer größerer und intelligenterer Sprachmodelle erlebt.

In einer Zeit künstlicher Intelligenz und tiefer neuronaler Netze, die mit menschlicher natürlicher Sprache ausgestattet sind, haben Forscher der Harvard University und IBM Research eine statistische Methode entwickelt, um computergenerierten Text zu erkennen.

Sie haben ein interaktives Tool (öffentlich verfügbar) entwickelt, um natürliche menschliche Sprache und von Maschinen generierten Text von menschlicher Sprache zu unterscheiden. Das Ziel besteht darin, den Menschen mehr Informationen zu geben, damit sie eine fundierte Entscheidung darüber treffen können, was gefälscht und was echt ist.

Modelle der künstlichen Intelligenz werden normalerweise an Millionen von Texten trainiert (aus dem World Wide Web). Sie sagen Wörter voraus, die am häufigsten aufeinander folgen, um die menschliche Sprache nachzuahmen. Auf das Wort „Sie“ folgen beispielsweise statisch am ehesten die Wörter „waren“, „haben“ und „sind“.

Mit dieser Methodik haben die Forscher ein Tool entwickelt, das Texte erkennt, die zu vorhersehbar sind [anstatt Fehler in Texten zu kennzeichnen]. Es ermöglicht sowohl der KI als auch dem Menschen, zusammenzuarbeiten, um die maschinengenerierte Sprache zu identifizieren.

Wie es funktioniert?

Die neue Technik mit dem Namen Giant Language Model Test Room (GLTR) basiert auf einem Modell, das auf etwa 45 Millionen Texten von Websites trainiert wurde. Es hat Zugriff auf eines der größten öffentlich verfügbaren Modelle, GPT-2.

Somit kann es beobachten, was GPT-2 an jeder Position vorhergesagt hätte (für jede Texteingabe) und schneidet effizient gegen GPT-2 und viele andere Modelle ab.

GLTR stellt ein visuell forensisches Werkzeug dar, um automatisch generierte Texte zu identifizieren. Es zeigt 3 verschiedene Histogramme, die die Informationen über den gesamten Text zusammenfassen.

Referenz:The Harvard Gazette | GitHub

Geben Sie einfach einen Absatz in die Toolbox ein und alle Wörter werden in vier verschiedenen Farben hervorgehoben, von denen jede die Vorhersehbarkeit des Wortes im Kontext dessen anzeigt, was es folgt. Lila bedeutet, dass das Wort nicht vorhersehbar ist; rot, leicht vorhersehbar; gelb, mäßig vorhersehbar; und grün zeigt sehr vorhersehbare Wörter im Absatz.

So sieht ein maschinell generierter Absatz aus –

Das erste Histogramm zeigt an, wie viele Wörter aus jeder Kategorie im Absatz vorkommen. Der zweite zeigt das Verhältnis zwischen den Wahrscheinlichkeiten des höchsten vorhergesagten Wortes und des folgenden Wortes. Das dritte Histogramm stellt die Verteilung über die Vorhersage-Entropien dar.

Natürlich wird die Unsicherheit bei von Menschen geschriebenen Texten höher sein, insbesondere bei Forschungsarbeiten und wissenschaftlichen Texten. So sieht die Zusammenfassung einer Forschungsarbeit (über EAGLE-Galaxien) aus –

Lesen Sie:Künstliche Intelligenz kann Sprache aus neuronaler Aktivität generieren

Das Forschungsteam testete ihr neues Tool auch mit einer Reihe von Informatik-Absolventen. Die Studierenden konnten 50 % der computergenerierten Absätze erkennen, mit Hilfe dieses Tools jedoch 72 %. Der Prozentsatz könnte mit ein wenig Training mit dem System noch besser werden.


Industrietechnik

  1. Neue KI kann erkennen, ob eine Nachrichtenquelle korrekt oder politisch voreingenommen ist
  2. Eine neue Methode zur Steigerung der Leistung von Quantencomputern
  3. Forscher schlugen eine neue Methode vor, um Objekte unsichtbar zu machen
  4. Neues System kann Fehler in elektromechanischen Geräten erkennen, bevor sie auftreten
  5. Microsoft erzielt neuen Durchbruch im Bereich der Konversations-KI
  6. Neue holografische Methode erfasst Objekte außerhalb der Reichweite des Lichts
  7. Wissenschaftler entwickeln eine neue Methode, um Bildschirme heller und effizienter zu machen
  8. Neue Methode kann jedes Objekt in eine Datenspeichereinheit verwandeln
  9. Forscher entwickeln KI zum Erkennen des Coronavirus
  10. Bosque:Microsofts neue Programmiersprache ohne Schleifen