Studie zeigt: ChatGPT wird immer schlechter

Forscher der Stanford University und der UC Berkeley haben in einer mehrmonatigen Studie untersucht, wie sich die Antworten der verschiedenen GPT-Generationen verändern. Das Ergebnis ist überraschend. Denn GPT scheint mit der Zeit immer schlechter zu werden.

Kein Mathegenie

Die Autoren der Studie Lingjiao Chen, Matei Zaharia und James Zou, fütterten die Versionen des Large Language Models GPT-3.5 und GPT-4 im März und Juni 2023 mit Anfragen aus vier verschiedenen Aufgabenbereichen: mathematische Probleme lösen, sensible/gefährliche Fragen beantworten, Code generieren und visuelle Schlussfolgerungen ziehen. Dabei Antworten variierten stark.

Wir erleben gerade eine digitale Revolution und die Folgen sind noch nicht abzusehen. Gerade die rasante Entwicklung der Künstlichen Intelligenz bereitet vielen Menschen Sorgen um ihre Zukunft. In der neuen FREILICH-Ausgabe zeigen wir, wie die neuen Technologien unser Leben und unsere Welt verändern werden.

Jetzt abonnieren

Wenn Sie jetzt abonnieren, erhalten Sie die aktuelle FREILICH-Ausgabe „Die digitale Revolution“ mit diesen und vielen weiteren Themen schon in Kürze direkt nach Hause! Hier abonnieren: www.freilich-magazin.com/abonnieren

Die Ergebnisse von GPT-4, dem am weitesten entwickelten LLM von OpenAI, zeigten zwischen März und Juni signifikante Leistungseinbußen bei der Lösung mathematischer Probleme, der Beantwortung heikler Fragen und der Codegenerierung. Beispielsweise war GPT-4 im März sehr gut bei der Identifizierung von Primzahlen und gab in 97,6 Prozent der Fälle die richtige Antwort auf die Frage, ob 17.077 eine Primzahl sei. Im Juni war die gleiche Version jedoch nur in 2,4 Prozent der Fälle erfolgreich. Interessanterweise war GPT-3.5 bei dieser Aufgabe im Juni deutlich besser als im März, wenn auch mit deutlich geringerem Abstand.

Auch in der Kategorie Codegenerierung verschlechterte sich die Leistung von GPT-4. Die direkt ausführbaren Codegenerierungen von GPT-4 fielen von 52 Prozent im März auf zehn Prozent im Juni. Im Juni fügte das Modell gerne zusätzliche Anführungszeichen ein, die den Code nicht ausführbar machten. Die Autoren fordern nun die Nutzer von LLM-Diensten auf, ähnliche Überwachungsanalysen durchzuführen und sich nicht darauf zu verlassen, dass maschinelle Lernsysteme auch in Zukunft brauchbare Antworten produzieren, wenn sie dies beim Testen getan haben.

Kein Mathegenie