Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Manufacturing Technology >> Industrietechnik

Microsoft erstellt das größte Sprachgenerierungsmodell mit 17 Milliarden Parametern

Groß angelegte Deep-Learning-Sprachmodelle (wie GPT-2 und BERT) mit Milliarden von Parametern, die für den gesamten im Internet verfügbaren Text trainiert wurden, haben verschiedene Aufgaben der natürlichen Sprachverarbeitung (NLP) verbessert, wie z. B. das Verstehen von Dokumenten, Konversationsagenten und Fragen antworten.

Es wurde beobachtet, dass größere Modelle mit vielfältigeren und umfassenderen Vortrainingsdaten sogar mit weniger Trainingsstichproben besser abschneiden. Daher ist es effizienter, ein massives zentralisiertes Modell zu trainieren und seine Funktionen für verschiedene Aufgaben zu teilen, anstatt für jede Aufgabe einzeln ein neues Modell zu trainieren.

Diesem Trend folgend haben Forscher von Microsoft Turing Natural Language Generation (T-NLG) eingeführt, das weltweit größte Modell mit 17 Milliarden Parametern. Es übertrifft bestehende Start-of-the-Art-Modelle bei verschiedenen Sprachmodellierungs-Benchmarks.

T-NLG kann Wörter generieren, um unvollendete Sätze zu vervollständigen, Zusammenfassungen von Eingabedokumenten und direkte Antworten auf Fragen. Im Gegensatz zu anderen NLP-Systemen, die darauf angewiesen sind, Inhalte aus Dokumenten zu extrahieren, um eine Zusammenfassung zu erstellen oder Fragen zu beantworten, reagiert das neue generative Modell so genau, direkt und fließend, wie es Menschen in verschiedenen Situationen können.

Anstatt Passagen zu kopieren, beantwortet T-NLG die Frage direkt mit einem vollständigen Satz.

Training T-NLG

Da eine GPU (auch mit 32 GB Speicher) nicht Milliarden von Parametern verarbeiten kann, müssen Sie das Modell selbst parallelisieren oder in Slices aufteilen, um es über mehrere GPUs hinweg zu trainieren.

In dieser Studie nutzten die Forscher das NVIDIA DGX-2-Hardware-Setup (um die Kommunikation zwischen GPUs zu beschleunigen) und Tensor-Slicing (um das Modell auf 4 NVIDIA V100-GPUs aufzuteilen). Mit der DeepSpeed-Bibliothek und dem Zero-Optimierer konnten sie T-NLG sehr effizient mit weniger GPUs trainieren.

Leistung bei Standardaufgaben 

Anschließend verglichen sie die Leistung des vortrainierten T-NLG mit anderen leistungsstarken Transformer-Sprachmodellen für zwei Standardaufgaben:LAMBADA-Vorhersagegenauigkeit für das nächste Wort (höher ist besser) und Wikitext-103-Perplexität (niedriger ist besser). In beiden Fällen schnitt T-NLG besser ab.

Referenz:Microsoft | GitHub 

Leistung in Frage beantwortet 

Um Qualitäten wie grammatikalische Korrektheit und sachliche Korrektheit zu testen, suchten die Forscher Hilfe bei menschlichen Annotatoren. Sie verglichen das neue Modell mit dem LSTM-Modell (ähnlich CopyNet).

Leistung bei der aktiven Zusammenfassung 

T-NLG kann menschenähnliche abstrakte Zusammenfassungen für eine Vielzahl von Textdokumenten schreiben (einschließlich Word-Dokumente, Blog-Posts, E-Mails, PowerPoint-Präsentationen und sogar Excel-Tabellen), aber wie gut es im Vergleich zu anderen bestehenden NLP-Modellen ist.

Um das neue Modell vielseitiger zu machen, damit es alle Arten von Text zusammenfassen kann, trainierten die Forscher es mit öffentlich verfügbaren Zusammenfassungsdatensätzen. Anschließend verglichen sie es mit einem anderen großen transformatorbasierten Sprachmodell namens PEGASUS und seiner Vorgängerversion. Dieses Mal haben sie den ROUGE-Score gemeldet – eine Reihe von Metriken, die zur Bewertung der automatischen Zusammenfassung bei der Verarbeitung natürlicher Sprache verwendet werden.

Anwendungen

Microsoft hat einen Durchbruch in der dialogorientierten künstlichen Intelligenz erzielt. In den kommenden Jahren werden sie T-NLG in die Microsoft Office Suite integrieren, was den Nutzern nicht nur Zeit spart, indem sie E-Mails und Dokumente zusammenfasst, sondern auch Schreibhilfen bietet und Fragen beantwortet, die Leser zu den Inhalten stellen können.

Lesen Sie: Microsoft erstellt einen vollständig automatisierten DNA-Datenspeicher

Darüber hinaus ebnen die Ergebnisse den Weg für genauere, flüssigere digitale Assistenten und Chatbots, die Unternehmen beim Vertriebs- und Kundenbeziehungsmanagement unterstützen.


Industrietechnik

  1. Was mache ich mit den Daten?!
  2. Microsoft erzielt neuen Durchbruch im Bereich der Konversations-KI
  3. Beginnen Sie mit dem (Cybersicherheits-)Ende im Hinterkopf
  4. Digitale Netzwerkplattformen:Das fünfstufige Reifegradmodell
  5. Optimierung der Lieferkette im Gesundheitswesen mit einem WMS
  6. Schutz der globalen Lieferkette mit grenzenlosen Daten
  7. Mit digitalen Wartungssystemen durch die Kapazitätskrise navigieren
  8. Zukunftssicheres Geschäft mit digitalen Käufertechnologien
  9. Wie kann ich das Beste aus meiner Investition in die Lead-Generierung herausholen?
  10. SSI Schaffer beliefert Coop mit „einer der grössten Automatisierungslösungen der Welt“