NVIDIA stellt TensorRT-LLM Tool vor, um die Leistung von AI-Sprachmodellen auf Windows-PCs zu steigern
NVIDIA hat angekündigt, dass die Open-Source-Bibliothek TensorRT-LLM, die bisher auf die Nutzung in Rechenzentren beschränkt war, nun auch für Windows-PCs verfügbar ist. Die neue Software-Entwicklung von NVIDIA soll die Leistung von großen Sprachmodellen (LLMs) auf lokalen Windows-Desktops und -Laptops verbessern.
Verbesserte Geschwindigkeit und Genauigkeit mit GeForce RTX GPUs
Laut NVIDIA können LLMs auf Windows-Computern mit NVIDIA GeForce RTX Grafikprozessoren (GPUs) bis zu viermal schneller arbeiten. Dieser Geschwindigkeitszuwachs wird das Handling komplexer LLM-Anwendungen, wie z. B. Schreib- und Codierassistenten, die mehrere eindeutige Autovervollständigungen gleichzeitig generieren, deutlich verbessern. Es wird erwartet, dass die Benutzer eine bessere Qualität und eine schnellere Leistung erfahren, so dass sie aus einer schnelleren und effizienteren Auswahl an Optionen wählen können.
Ein anschauliches Beispiel von NVIDIA zeigte, dass ein Standard Meta LLaMa 2 LLM auf die Frage "Wie erzeugt NVIDIA ACE emotionale Antworten? In Verbindung mit einer Vektorbibliothek oder einer Vektordatenbank lieferte der mit dem TensorRT-LLM-Tool ausgestattete LLM jedoch nicht nur eine genaue Antwort, sondern dies auch noch in einem höheren Tempo.
GeForce-Treiber-Update mit mehr KI-basierten Funktionen veröffentlicht
In Verbindung mit der Ankündigung von TensorRT-LLM hat NVIDIA auch neue Funktionen in seinem neuesten GeForce-Treiber-Update veröffentlicht. Zu diesen Ergänzungen gehört eine aktualisierte Version (1.5) der RTX Video Super Resolution Funktion, die eine bessere Skalierung ermöglicht und Komprimierungseffekte beim Betrachten von Online-Videos reduziert.
Das Update stellt außerdem die TensorRT AI-Beschleunigung für Stable Diffusion Web UI vor. Diese Funktion ermöglicht es GeForce RTX GPU-Benutzern, Bilder aus dem AI Art Creator mit hoher Geschwindigkeit herunterzuladen. Diese neue Funktion, die eine bessere Produktivität für Kreative gewährleistet, unterstreicht das Engagement von NVIDIA für kontinuierliche KI-gesteuerte Verbesserungen.
NVIDIA hat die TensorRT-LLM im September eingeführt. Tensor Core GPUs können TensorRT-LLM ausführen, eine Open-Source-Bibliothek zur Entwicklung und zum Testen neuer großer Sprachmodelle (LLMs). Diese Modelle sind die Grundlage für generative KI-Plattformen wie ChatGPT, die unterschiedliche Arten von Inhalten erstellen können. Die Bibliothek hilft bei der Verbesserung des KI-Trainings, indem sie sich auf die Inferenz konzentriert, d. h. den Prozess der Herstellung von Verbindungen und Vorhersagen. NVIDIA behauptet, dass TensorRT-LLM die Inferenz auf ihren GPUs viel schneller machen kann.
Die Bibliothek unterstützt viele moderne LLMs, wie Meta Llama 2, OpenAI GPT-4, Falcon, Mosaic MPT, BLOOM und andere. Sie nutzt den TensorRT Deep Learning Compiler, optimierte Kernel und Tools für Pre- und Post-Processing. Außerdem ermöglicht sie die Kommunikation zwischen mehreren GPUs und Knoten. Ein bemerkenswertes Merkmal ist, dass Entwickler TensorRT-LLM verwenden können, ohne viel über C++ oder NVIDIA CUDA zu wissen.