Ein genauerer Blick zeigt, dass Microsofts ChatGPT-Suche genauso mangelhaft ist wie Googles Bard

Seit der Enthüllung von Bard, einem ChatGPT-Konkurrenten, der bald in die Google-Suche integriert werden soll, hat Google viel Schelte einstecken müssen. Der Chatbot von Google hat eine der wenigen Abfragen, die ihm gestellt wurden, verpatzt, aber auch Microsofts GPT-gesteuertes Bing hat nicht perfekt funktioniert. Eine genauere Analyse der Microsoft-Demo ergab unzählige Fehler, was die Frage aufwirft: Können wir diesen Maschinen trauen? Der Suchmaschinenforscher Dmitri Brereton hat die Bing-Demo von Microsoft unter die Lupe genommen und dabei festgestellt, dass der vermeintlich fortschrittlichere Chatbot mehr als genug Fehler gemacht hat.

Eine der Abfragen in der Microsoft-Demo beinhaltete die Suche nach Staubsaugern für Tierhaare. Laut Brereton behauptete Bing fälschlicherweise, eines der ausgewählten Modelle sei laut und habe ein kurzes Kabel. Die zitierten Quellen besagen jedoch, dass das Gerät leise und kabellos ist. Bei der Planung einer Reise nach Mexiko schlug Bing einige Orte vor, an denen man das Nachtleben genießen kann, behauptete aber, dass mehrere der empfohlenen Bars keine Bewertungen hätten, obwohl es in Wirklichkeit Hunderte davon gibt. Außerdem wurde eine beliebte Bar empfohlen, ohne zu erwähnen, dass es sich um eine Schwulenbar handelt.

Bing hat also einige wichtige Dinge übersehen, aber das lässt sich wahrscheinlich beheben. Noch beunruhigender ist die Art und Weise, wie Bing eine PDF-Datei zusammenfasst. In der Demo bat Microsoft Bing, die wichtigsten Informationen aus dem Finanzbericht von Gap für das dritte Quartal 2022 zu generieren. Hier hat Bing einige Zahlen erfunden, z. B. die Angabe einer operativen Marge von 5,9%. Diese Zahl steht nirgendwo im Dokument. Noch schlimmer wurde es, als Bing gebeten wurde, Daten von Gap und Lululemon zu vergleichen, wobei noch mehr Zahlen aus dem Nichts erfunden wurden und die Vergleiche sinnlos wurden.

Microsoft kam auf der Veranstaltung damit durch, weil niemand auch nur annähernd weiß, wie die Finanzdaten von Gap aussehen. Ebenso gibt es nicht viele Leute, die mit dem Nachtleben von Mexiko-Stadt ausreichend vertraut sind, um Fehler zu erkennen, wenn sie nur kurz auf dem Bildschirm zu sehen sind. Diese Antworten sind jedoch genauso falsch wie Bards aufsehenerregender Patzer bei der Frage nach dem James Webb-Weltraumteleskop.

Das neue Chatbot-gestützte Bing ist für eine kleine Anzahl von Testern verfügbar. Sie können sich auf die Warteliste setzen lassen, aber wenn die Demo ein Hinweis darauf ist, wird das neue Bing noch viel mehr getestet werden müssen, bevor man ihm Glauben schenken kann.