Alles rund um Windows

LAM (Large Action Model)

Bei der rasanten Entwicklung der KI stehen unserer Beobachtung nach Large Language Models (LLMs) an vorderster Front, da sie Chatbots, die Erstellung von Texten und sogar das Schreiben von Code ermöglichen. LLMs sind zwar gut darin, Texte zu verstehen und zu erstellen, tun sich aber schwer, wenn es darum geht, Aufgaben in realen Umgebungen auszuführen. Forscher von Microsoft haben ein so genanntes Large Action Model (LAM) entwickelt, ein KI-Modell, das Windows-Programme eigenständig ausführen kann.

LAMs (Large Action Models) stellen einen bedeutenden Fortschritt in der künstlichen Intelligenz dar und ermöglichen es KI-Systemen, komplexe Aufgaben auf der Grundlage menschlicher Anweisungen auszuführen. LAMs markieren den Übergang von KI-Modellen, die nur mit Modellen kommunizieren, die tatsächlich Aufgaben ausführen können.

Was sind LAM-Modelle?

Herkömmliche KI-Modelle verarbeiten und generieren hauptsächlich Text, aber LAMs gehen noch einen Schritt weiter. Sie sind in der Lage, Benutzeranfragen in echte Aktionen umzusetzen. Diese Aktionen können von der Bedienung von Software bis hin zur Steuerung von Robotern reichen. Es ist zu beachten, dass dieses Konzept nicht neu ist; LAM ist nur das erste Modell, das speziell für die Arbeit mit Microsoft Office-Produkten trainiert wurde. LAMs als Konzept erlangten in der ersten Hälfte des Jahres 2024 an Bedeutung, als das KI-Gerät Rabbit mit einer KI auf den Markt kam, die ohne Zutun des Benutzers mit mobilen Anwendungen interagieren konnte.

LAM-Modelle können Eingaben wie Text, Sprache oder Bilder verstehen und diese Anfragen auch in detaillierte Schritt-für-Schritt-Pläne umwandeln. Sie sind auch in der Lage, ihren Ansatz in Echtzeit anzupassen. Einfach ausgedrückt handelt es sich bei LAMs um KIs, die nicht nur verstehen, sondern auch handeln sollen.

Basierend auf dem Forschungsbericht "Large Action Models: From Inception to Implementation" wurden diese Modelle so konzipiert, dass sie sowohl mit der digitalen als auch mit der physischen Umgebung interagieren können. Man kann sich das so vorstellen, dass man eine KI nicht fragt, wie man eine PowerPoint-Präsentation erstellt, sondern sie bittet, die App zu öffnen, Folien zu erstellen und sie nach den eigenen Wünschen zu formatieren. Im Kern kombinieren LAMs im Wesentlichen die folgenden drei Aspekte: Verständnisabsicht, d. h. sie interpretieren Benutzerbefehle genau; Aktionsgenerierung, d. h. die Fähigkeit, umsetzbare Schritte zu planen; und dynamische Anpassung, d. h. sie sind in der Lage, sich auf der Grundlage von Feedback aus ihrer Umgebung anzupassen.

Wie werden LAMs erstellt?

Im Vergleich zu LLMs ist die Erstellung von LAMs weitaus komplexer, da sie fünf Phasen umfasst. Daten sind die Grundlage jeder KI, und LAMs benötigen zwei Arten von Daten: Aufgabenplanungsdaten, bei denen es sich um allgemeine Schritte für Aufgaben wie das Öffnen eines Word-Dokuments und das Hervorheben von Text handelt. Die zweite Art sind Aufgabenaktionsdaten, bei denen es sich im Wesentlichen um spezifische ausführbare Schritte handelt. Im Rahmen der Schulung werden diese Modelle einer sogenannten überwachten Feinabstimmung, einem verstärkten Lernen und einem Imitationslernen unterzogen. Vor ihrer Bereitstellung werden diese Modelle in kontrollierten Umgebungen getestet. Sie werden auch in Agentensysteme wie Windows-GUI-Agenten integriert, um mit anderen Umgebungen zu interagieren. Schließlich wird das Modell in Live-Szenarien getestet, um seine Anpassungsfähigkeit und Leistung zu beurteilen.

Die LAMs stellen einen großen Entwicklungssprung dar – von der Textgenerierung zu handlungsorientierten KI-Agenten. Von der Automatisierung von Arbeitsabläufen bis hin zur Unterstützung von Menschen mit Behinderungen sind LAMs nicht nur intelligentere KI, sondern auch KI, die im Alltag nützlicher sein kann. Mit der Weiterentwicklung der Technologie könnten LAMs bald zu einem Standard-KI-System für alle Sektoren werden.

Stand: 05.01.2025