Microsoft will mit KI die sprachlichen Unterschiede überbrücken

In Indien werden über 100 Sprachen gesprochen. . Je nach Zählweise gibt es in Indien mindestens 120 Sprachen und weitere 1 300 "Muttersprachen", ein indischer Begriff, der sich auf lokale Dialekte bezieht. Die Regierung des Landes erkennt 22 Sprachen an, arbeitet aber hauptsächlich in nur zwei: Hindi, das hauptsächlich im Norden Indiens gesprochen wird, und Englisch. Das schließt Zehntausende von Indern aus, die keine der beiden Sprachen sprechen.

In diesem Jahr haben Dorfbewohner in Karnataka einige Wochen lang Dutzende von Sätzen in ihrer Muttersprache Kannada in eine App eingelesen, um den ersten KI-basierten Chatbot des Landes für Tuberkulose zu entwickeln.

In Indien gibt es mehr als 40 Millionen Kannada-Muttersprachler. Kannada ist eine der 22 Amtssprachen des Landes und eine von über 121 Sprachen, die im bevölkerungsreichsten Land der Welt von mindestens 10.000 Menschen gesprochen werden.

Aber nur wenige dieser Sprachen werden von der natürlichen Sprachverarbeitung (NLP) erfasst, dem Zweig der künstlichen Intelligenz, der es Computern ermöglicht, Texte und gesprochene Wörter zu verstehen.

Hunderte von Millionen Indern sind somit von wichtigen Informationen und vielen wirtschaftlichen Möglichkeiten ausgeschlossen.

Damit KI-Tools für alle funktionieren, müssen sie auch für Menschen geeignet sein, die kein Englisch, Französisch oder Spanisch sprechen.

Die Regierung, die mehr Dienstleistungen digital erbringen will, baut auch Sprachdatensätze über Bhashini auf, ein KI-gestütztes Sprachübersetzungssystem, das Open-Source-Datensätze in lokalen Sprachen zur Entwicklung von KI-Tools erstellt.

Die Plattform umfasst eine Crowdsourcing-Initiative, bei der Menschen Sätze in verschiedenen Sprachen beisteuern, von anderen transkribierte Audio- oder Textinhalte validieren, Texte übersetzen und Bilder beschriften können.

Von den mehr als 7.000 lebenden Sprachen der Welt sind weniger als 100 in den großen NLPs erfasst, wobei Englisch am weitesten entwickelt ist.

ChatGPT - dessen Start im letzten Jahr eine Welle des Interesses an generativer KI auslöste - ist hauptsächlich auf Englisch trainiert. Googles Bard ist auf Englisch beschränkt, und von den neun Sprachen, auf die Amazons Alexa reagieren kann, sind nur drei nicht-europäisch: Arabisch, Hindi und Japanisch.