Um ChatGPT zu ermöglichen, wurden Zehntausende von Nvidia-Grafikprozessoren eingesetzt

Ein aktueller Bericht enthüllt die enorme Menge an Nvidia-Grafikprozessoren, die von Microsoft eingesetzt werden, sowie die Innovationen, die bei der Zusammenstellung dieser Prozessoren für das ChatGPT-Training von OpenAI zum Einsatz kommen. Die Meldung kommt zu einem Zeitpunkt, an dem Microsoft ein bedeutendes Upgrade seines KI-Supercomputers ankündigt, um die hauseigene generative KI-Initiative zu fördern.

Laut Bloomberg hat OpenAI ChatGPT auf einem Supercomputer trainiert, den Microsoft aus Zehntausenden von Nvidia A100-GPUs gebaut hat. Microsoft kündigte diese Woche ein neues Array an, das die neueren H100-GPUs von Nvidia nutzt.

Die Herausforderung, vor der die Unternehmen stehen, begann 2019, nachdem Microsoft 1 Milliarde Dollar in OpenAI investiert und gleichzeitig zugesagt hatte, einen KI-Supercomputer für das Startup zu bauen. Microsoft hatte jedoch intern nicht die Hardware, die OpenAI benötigte.

Nach dem Erwerb der Chips von Nvidia musste Microsoft überlegen, wie eine solche große Anzahl von GPUs angeordnet werden kann, um Überhitzung und Stromausfälle zu vermeiden. Das Unternehmen verrät nicht genau, wie viel das Projekt gekostet hat, aber Executive Vice President Scott Guthrie bezifferte den Betrag auf mehrere hundert Millionen Dollar.

Der gleichzeitige Betrieb aller A100-Rechner zwang die Redmonder dazu, sich Gedanken über die Platzierung der Rechner und ihrer Stromversorgung zu machen. Außerdem musste eine neue Software entwickelt werden, um die Effizienz zu steigern, die Netzwerkausrüstung musste massiven Datenmengen standhalten, und es mussten verschiedene Kühlmethoden eingesetzt werden. Je nach den klimatischen Bedingungen kamen Verdunstungskühlung, Sumpfkühler und Außenluft zum Einsatz.

Seit dem Anfangserfolg von ChatGPT haben Microsoft und einige seiner Konkurrenten mit der Arbeit an parallelen KI-Modellen für Suchmaschinen und andere Anwendungen begonnen. Um seine generative KI zu beschleunigen, hat das Unternehmen die ND H100 v5 VM eingeführt, eine virtuelle Maschine, die von acht bis zu Tausenden von Nvidia H100 GPUs genutzt werden kann.

Die H100s sind über NVSwitch und NVLink 4.0 mit einer bisektionalen Bandbreite von 3,6 TB/s zwischen den acht lokalen GPUs innerhalb jeder virtuellen Maschine verbunden. Jede GPU verfügt über 400 Gb/s Bandbreite durch Nvidia Quantum-2 CX7 InfiniBand und 64GB/s PCIe5 Verbindungen. Jede virtuelle Maschine verwaltet 3,2 TB/s über ein nicht-blockierendes Fat-Tree-Netzwerk. Microsofts neues System verfügt außerdem über Intel Xeon-Prozessoren der 4. Generation und 16-Kanal-DDR5-RAM mit 4800 MHz.

Microsoft plant, die ND H100 v5 VM für seine neue KI-gestützte Suchmaschine Bing, den Edge-Webbrowser und Microsoft Dynamics 365 einzusetzen. Die virtuelle Maschine ist ab sofort als Preview verfügbar und wird standardmäßig in das Azure-Portfolio aufgenommen. Interessierte Nutzer können den Zugang beantragen.