Stanford- und Google-Forscher schlagen DoReMi vor: einen KI-Algorithmus, der Datendomänen für das Training von Sprachmodellen neu gewichtet
Beim Training von Sprachmodellen (LMs) werden häufig Datensätze aus verschiedenen Domänen entnommen. Beispielsweise besteht ein umfangreicher öffentlich zugänglicher Datensatz namens „The Pile“ zu 24 % aus Online-Daten, zu 9 % aus Wikipedia, zu 4 % aus GitHub usw. Die Zusammensetzung der Vortrainingsdaten hat erheblichen Einfluss auf die Leistung eines LM. Es muss klar sein, wie viel von jeder Domäne einbezogen werden sollte, um ein Modell zu erstellen, das sich für eine Reihe nachgelagerter Aufgaben eignet. Bestehende Studien nutzen Intuition oder eine Reihe nachgelagerter Aufgaben, um Domänengewichte oder Stichprobenwahrscheinlichkeiten für jede Domäne festzulegen. Beispielsweise verwendet The Pile heuristisch ausgewählte Domänengewichte, was möglicherweise nicht die beste Wahl ist.
In dieser Studie versuchen Forscher von Google und der Stanford University, Domänengewichte zu identifizieren, die Modelle liefern, die auf allen Domänen gut funktionieren, indem sie den Worst-Case-Verlust über Domänen minimieren, anstatt Domänengewichte auf der Grundlage einer Sammlung nachgelagerter Aufgaben zu optimieren. Da jede Domäne einen einzigartigen optimalen Verlust (auch Entropie genannt) aufweist, würde eine naive Worst-Case-Strategie den Domänen mit den verrauschtesten Daten mehr Gewicht verleihen. Bei vorhandenen LMs wie PaLM und GLaM, die die Domänengewichte basierend auf einer Reihe nachgelagerter Aktivitäten anpassen, sind jedoch möglicherweise Tausende von LMs mit verschiedenen Domänengewichten trainiert und es besteht die Möglichkeit einer Überanpassung an einen bestimmten Satz nachgelagerter Aufgaben.
Dies ist die treibende Kraft hinter ihrer Technik Domain Reweighting with Minimax Optimization (DoReMi), bei der die Domänengewichte mithilfe der Distributionally Robust Optimization (DRO) angepasst werden, ohne sich der Aufgaben bewusst zu sein, die später ausgeführt werden (Abbildung 1). DoReMi beginnt mit dem herkömmlichen Training eines winzigen Referenzmodells mit 280 Millionen Parametern. Um den übermäßigen Verlust im schlimmsten Fall (im Vergleich zum Verlust des Referenzmodells) zu reduzieren, führen sie außerdem ein kleines verteilungsresistentes Sprachmodell (DRO-LM) ein. Insbesondere verwenden sie die durch das DRO-Training generierten Domänengewichte anstelle des robusten LM. Anstatt ein robustes Modell zu erstellen, nutzt ihre Strategie das DRO-LM-Framework, um Domänengewichte zu optimieren. Anschließend wird ein großer (8B) LM auf einen neuen Datensatz trainiert, der durch diese Domänengewichte spezifiziert wird.
Anstatt Instanzen aus einem Minibatch auszuwählen, verwenden sie den online-lernbasierten Optimierer von Group DRO, der die Domänengewichte entsprechend dem Verlust in jeder Domäne dynamisch ändert, um das Trainingsziel neu zu skalieren. DoReMi verwendet dann die über die DRO-Trainingsphasen gemittelten Domänengewichte. Um die Domänengewichte auf The Pile und dem GLaM-Datensatz zu optimieren, führen sie DoReMi auf 280M-Proxy- und Referenzmodellen aus. Ein 8B-Parameter-LM, der mehr als 30-mal größer ist, wird mithilfe der DoReMi-Domänengewichte trainiert. Selbst wenn eine Domain herabgewichtet ist, verringert DoReMi die Verwirrung auf The Pile über alle Domains hinweg im Vergleich zu den Basis-Domaingewichtungen.
Bei produktiven Aufgaben mit wenigen Schüssen erreicht DoReMi die Downstream-Basisliniengenauigkeit 2,6-mal schneller als ein Basismodell, das auf den Standarddomänengewichten von The Pile trainiert wurde, und verbessert so die durchschnittliche Downstream-Genauigkeit um 6,5 %. Sie veröffentlichen die abgestimmten Domänengewichte, um zukünftige mit The Pile erlernte LMs zu verbessern. Sie entdecken, dass DoReMi das LM-Training kontinuierlich verbessert, wenn die Größen des mit optimierten Domänengewichten trainierten Hauptmodells und des Proxy-Modells geändert werden. DoReMi übertrifft sogar die Optimierung der Domänengewichtung bei der Leistung nachgelagerter Aufgaben im GLaM-Datensatz, wo es möglich ist, die Domänengewichte bei nachgelagerten Aufgaben zu optimieren.
Besuche diePapier.Vergessen Sie nicht, mitzumachenunser 22k+ ML SubReddit,Discord-Kanal, UndE-Mail-Newsletter , wo wir die neuesten Nachrichten aus der KI-Forschung, coole KI-Projekte und mehr teilen. Wenn Sie Fragen zum obigen Artikel haben oder uns etwas entgangen ist, schreiben Sie uns gerne eine E-Mail an[email protected]
🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an
Aneesh Tickoo ist Beratungspraktikantin bei MarktechPost. Derzeit absolviert er seinen Bachelor-Abschluss in Datenwissenschaft und künstlicher Intelligenz am Indian Institute of Technology (IIT) in Bhilai. Die meiste Zeit verbringt er mit der Arbeit an Projekten, die darauf abzielen, die Leistungsfähigkeit des maschinellen Lernens zu nutzen. Sein Forschungsinteresse gilt der Bildverarbeitung und er ist leidenschaftlich daran interessiert, Lösungen dafür zu entwickeln. Er liebt es, mit Menschen in Kontakt zu treten und an interessanten Projekten mitzuarbeiten.
Abbildung 1: Papier. unser 22k+ ML SubReddit Discord Channel E-Mail-Newsletter [email protected] 🚀 Schauen Sie sich 100 KI-Tools im AI Tools Club an