Microsoft und Google stellen neue KI-Modelle vor

Microsoft und Google kündigten die Veröffentlichung neuer KI-Modelle an, die sich jedoch deutlich voneinander unterscheiden: Microsoft bringt neue grundlegende MAI-Modelle auf den Markt, die ausschließlich über die Plattformen "Azure Foundry" und den nur in den USA verfügbaren "MAI Playground" zugänglich sind, während Google neue offene Gemma-4-KI-Modelle bereitstellt, die lokal ausgeführt werden können. Darüber hinaus wechselt das Unternehmen für diese neuen offenen Modelle zur Apache-2.0-Lizenz.

Betrachten wir zunächst die neuen "weltklasse" MAI-Modelle aus dem Hause Microsoft, von denen es drei gibt:

MAI-Transcribe-1, ein "hochmodernes" Sprach-zu-Text-Transkriptionsmodell, das die 25 am häufigsten verwendeten Sprachen versteht und eine 2,5-mal schnellere Batch-Transkriptionsgeschwindigkeit bietet als das bestehende Azure Fast-Angebot von Microsoft.
MAI-Voice-1, ein neues Modell zur Stimmgenerierung, das in nur einer Sekunde 60 Sekunden Audio generieren kann. Es unterstützt zudem die Erstellung benutzerdefinierter Stimmen in Microsoft Foundry anhand kurzer Audio-Samples
Das MAI-Image-2-Modell, ein schnelleres Text-zu-Bild-Modell, das bereits in Copilot eingeführt wurde, wobei Bing und PowerPoint als Nächstes an der Reihe sind.

Wir stellen diese erstklassigen Modelle zügig bereit, um unsere eigenen Verbraucher- und Unternehmensprodukte damit auszustatten. .Sie werden bald weitere Modelle von uns in Foundry und direkt in Microsoft-Produkten und -Erlebnissen sehen.

Kommen wir nun zu Googles neuen offenen Gemma-4-Modellen, die unter einer Apache-2.0-Lizenz statt unter der bisherigen firmeneigenen Gemma-Lizenz verfügbar sind. Die Modelle sind in der Lage, komplexe Schlussfolgerungen zu ziehen, agentische Workflows auszuführen, Code zu generieren sowie Bild- und Audioinhalte zu erstellen. Sie sind in vier Varianten erhältlich, die für die lokale Ausführung optimiert sind, unter anderem auf "Milliarden von Android-Geräten".

Gemma 4 basiert auf derselben erstklassigen Forschung und Technologie wie Gemini 3 und ist die leistungsfähigste Modellfamilie, die Sie auf Ihrer Hardware ausführen können. Sie ergänzt unsere Gemini-Modelle und bietet Entwicklern die branchenweit leistungsstärkste Kombination aus offenen und proprietären Tools.

Die größeren Gemma-4-Modelle des Unternehmens mit 26B und 31B sind für den Einsatz auf Consumer-GPUs konzipiert, um IDEs, Programmierassistenten und agentische Workflows zu unterstützen. Im Gegensatz dazu legen die schlankeren Gemma-4-Modelle E2B und E4B den Schwerpunkt auf multimodale Fähigkeiten und Verarbeitung mit geringer Latenz auf Mobil- und IoT-Geräten, einschließlich Raspberry Pi. Diese Modelle können auch vollständig offline ausgeführt werden.

Googles neue offene Gemma 4-Modelle können von verschiedenen Plattformen heruntergeladen werden, darunter Hugging Face, Kaggle und Ollama. "Diese Modelle durchlaufen dieselben strengen Sicherheitsprotokolle für die Infrastruktur wie unsere proprietären Modelle", betonte das Unternehmen heute.