Industrielle Fertigung
Industrielles Internet der Dinge | Industrielle Materialien | Gerätewartung und Reparatur | Industrielle Programmierung |
home  MfgRobots >> Industrielle Fertigung >  >> Manufacturing Technology >> Industrietechnik

Microsoft erzielt neuen Durchbruch im Bereich der Konversations-KI

Robuste und universelle Sprachdarstellungen sind wichtig, um anständige Ergebnisse bei verschiedenen Aufgaben der Natural Language Processing (NLP) zu erzielen. Ensemble Learning ist einer der effizientesten Ansätze zur Verbesserung der Modellgeneralisierung. Bisher haben Entwickler damit hochmoderne Ergebnisse bei einer Vielzahl von Aufgaben zum Verstehen natürlicher Sprache (NLU) erzielt, die vom maschinellen Leseverständnis bis hin zur Beantwortung von Fragen reichen.

Solche Ensemble-Modelle enthalten jedoch Hunderte von tiefen neuronalen Netzen (DNN)-Modellen und sind ziemlich teuer zu implementieren. Auch vortrainierte Modelle wie GPT und BERT sind sehr teuer in der Bereitstellung. GPT zum Beispiel besteht aus 48 Transformer-Layer mit 1,5 Milliarden Parametern, während BERT 24 Transformer-Layer mit 344 Millionen Parametern hat.

Im Jahr 2019 hat Microsoft seinen eigenen Algorithmus zur Verarbeitung natürlicher Sprache (NLP) mit dem Namen Multi-Task DNN entwickelt. Sie haben diesen Algorithmus jetzt aktualisiert, um beeindruckende Ergebnisse zu erzielen.

Destillation des erweiterten Wissens

Das Forschungsteam komprimierte mithilfe von Wissensdestillation mehrere Ensemble-Modelle zu einem Multi-Task-DNN. Sie verwendeten das Ensemble-Modell [offline], um weiche Ziele für jede einzelne Aufgabe im Trainings-Dataset zu generieren. Im Vergleich zu harten Zielen bieten sie hilfreichere Daten pro Trainingsbeispiel.

Nehmen wir zum Beispiel einen Satz:„Ich hatte gestern Abend ein gutes Gespräch mit John“, die Stimmung in diesem Satz ist wahrscheinlich nicht negativ. Der Satz „Wir hatten gestern Abend ein faszinierendes Gespräch“ kann jedoch je nach Kontext entweder negativ oder positiv sein.

Referenz:arXiv:1904.09482 | Microsoft Research-Blog 

Die Forscher verwendeten sowohl die richtigen Ziele als auch weiche Ziele für verschiedene Aufgaben, um ein einzelnes MT-DNN zu trainieren. Sie nutzten das cuDNN-beschleunigte Deep-Learning-Framework PyTorch, um das neue Modell auf NVIDIA Tesla V100-GPUs zu trainieren und zu testen.

Ergebnisse

Sie verglichen destilliertes MT-DNN mit normalem MT-DNN und BERT. Die Ergebnisse zeigen, dass das destillierte MT-DNN beide Modelle deutlich übertrifft, was die Gesamtpunktzahl beim General Language Understanding Evaluation (GLUE)-Benchmark angeht, der zum Testen der Systemleistung auf ein breites Spektrum linguistischer Phänomene verwendet wird.

GLUE-Benchmark-Score 

Der Benchmark umfasst 9 NLU-Aufgaben, einschließlich Textähnlichkeit, Textfolge, Stimmungsanalyse und Beantwortung von Fragen. Die Daten enthalten mehrere hundert Satzpaare aus verschiedenen Quellen, wie wissenschaftlichen und enzyklopädischen Texten, Nachrichten und sozialen Medien.

Alle in dieser Studie durchgeführten Experimente zeigen deutlich, dass die durch destillierte MT-DNN gelernte Sprachrepräsentation universeller und robuster ist als normales MT-DNN und BERT.

Lesen Sie:Bosque:Microsofts neue Programmiersprache ohne Schleifen

In den kommenden Jahren werden die Forscher versuchen, bessere Möglichkeiten zu finden, harte korrekte Ziele und weiche Ziele für das Lernen mit mehreren Aufgaben zu kombinieren. Und anstatt ein kompliziertes Modell zu einem einfacheren zu komprimieren, werden sie bessere Möglichkeiten erkunden, Wissensdestillation zu verwenden, um die Modellleistung unabhängig von seiner Komplexität zu verbessern.


Industrietechnik

  1. Das Aufkommen einer neuen IT-Spezies:Der IT/OT-Hybridprofi
  2. Ist das Büro geschlossen? Microsoft kündigt neuen Inkubator für KI-Forschung an
  3. GLTR:Eine neue Methode zur Erkennung computergenerierter Sprachen
  4. Microsoft erstellt das größte Sprachgenerierungsmodell mit 17 Milliarden Parametern
  5. Bosque:Microsofts neue Programmiersprache ohne Schleifen
  6. 9 neue Programmiersprachen zum Erlernen im Jahr 2021
  7. In der globalen Logistik ist Orchestrierung die neue Sichtbarkeit
  8. Die Auswirkungen neuer E-Commerce-Shopping-Verhalten
  9. 5G, IoT und die neuen Herausforderungen der Lieferkette
  10. Die neue E-Commerce-Landschaft definiert erfolgreiches Marketing neu