Alles rund um Windows

Microsoft: Phi-4 übertrifft vergleichbare und größere Modelle im Bereich des mathematischen Denkens

Microsoft Phi-4 ist ein Small Language Model, das auf komplexe mathematische Schlussfolgerungen spezialisiert ist. Phi-4 ist ein 14B-Parametermodell von Microsoft Research, das darauf abzielt, den Stand der Technik für mathematische Schlussfolgerungen zu verbessern. Phi-4 war zuvor auf Azure AI Foundry verfügbar und ist seit kurzem unter der MIT-Lizenz auf Hugging Face verfügbar.

Laut Microsoft übertrifft Phi-4 vergleichbare und größere Modelle im Bereich des mathematischen Denkens dank einer Reihe von Innovationen während des gesamten Trainingsprozesses, darunter die Verwendung synthetischer Daten für das Vortraining und das Mitteltraining, die Kuratierung und Filterung organischer Daten sowie ein neues Nachtrainingsschema. Dieser Ansatz, so Microsoft, habe zu einer deutlichen Verbesserung gegenüber früheren Modellen der Phi-Familie geführt:

Während frühere Modelle der Phi-Familie die Fähigkeiten eines Lehrermodells (insbesondere GPT-4) weitgehend verfeinern, übertrifft phi-4 sein Lehrermodell bei den auf MINT ausgerichteten QA-Fähigkeiten deutlich und liefert den Beweis, dass unsere Techniken zur Datengenerierung und zum Post-Training über die Destillation hinausgehen.

Die Verwendung synthetischer Daten ist für LLMs oder Phi-Modelle im Besonderen nicht neu. Laut Microsoft ist die Verwendung synthetischer Daten kein billiger Ersatz für organische Daten, sondern bietet gegenüber letzteren deutliche Vorteile, da sie einen allmählicheren Lernpfad und eine bessere Abstimmung auf Inferenzkontexte bieten. Beispielsweise könnten organische Daten aus dem Internet die Formulierung eines mathematischen Problems enthalten, gefolgt von der endgültigen Lösung, wobei die Argumentationsschritte erst danach folgen. Dies erschwert es einem LLM zu lernen, die Lösung aus der Problemformulierung zu generieren. Im Gegensatz dazu würde eine synthetische Beschreibung des Problems das LLM Schritt für Schritt von der anfänglichen Problemstellung zur endgültigen Lösung führen.

Neben synthetischen Daten verwendete Microsoft auch kuratierte organische Daten, darunter mehrere zehn Millionen hochwertige organische Probleme und Lösungen von öffentlichen Websites und externen Datensätzen. In Fällen, in denen keine genauen Lösungen bereitgestellt wurden, wurden diese synthetisch mithilfe von Mehrheitsentscheidungen generiert, um die Genauigkeit zu erhöhen. Es wurden auch wissenschaftliche Arbeiten, Bildungsforen und Programmier-Tutorials gesammelt.

Wir haben festgestellt, dass saubere und korrekte natürliche Daten für die Aussaat synthetischer Daten absolut entscheidend sind: Geringfügige Fehler können zu einer erheblichen Qualitätsminderung der abgeleiteten synthetischen Dokumente führen. Deshalb haben wir viel in die perfektionistische Kuratierung unserer Webdaten investiert.

Die Nachschulungsphase für Phi-4 zielte darauf ab, das vorab trainierte Modell in einen zuverlässigen KI-Assistenten umzuwandeln. Im ersten Schritt verfeinerte Microsoft das Modell mit Daten, die aus hochwertigen Daten aus verschiedenen Bereichen generiert wurden, darunter Mathematik, Programmierung, Argumentation, Konversation, Modellidentität und Sicherheit. Anschließend führten sie zwei Schritte der direkten Präferenzoptimierung (DPO) durch, um das Modell besser an menschliche Präferenzen anzupassen und unerwünschtes Verhalten auszuschließen. Im ersten Schritt verwendete Microsoft eine neue Technik namens Pivotal Token Search, um Paare von erwünschten/unerwünschten Ergebnissen zu generieren; im zweiten Schritt verließ man sich auf GPT-4o als Richter, um jedes gegebene Paar als positiv oder negativ zu kennzeichnen.

Phi-4 wurde anhand einer Reihe von Benchmarks unter Verwendung des SIMPLE-EVALS-Frameworks von OpenAI bewertet und übertraf Llama-3.1-405B bei mehreren Benchmarks sowie sein Lehrermodell GPT-4o bei den Benchmarks GPQA (Graduate-Level STEM Q&A) und MATH (Mathematikwettbewerb).