Wird Chat-GPT dümmer? Über die mögliche Identitätskrise einer KI

Mittlerweile hat sicherlich jeder Schüler oder Student bereits die KI „Chat GPT“ von Open AI um Rat gebeten. Spätestens seit Microsoft ihre Beteiligung am Unternehmen Open AI auf eine Investitionssumme von 10 Milliarden € erweitert hat[1], ist die KI in den Medien so präsent wie viele Promis. Schlagzeilen wie „ChatGPT würde US-Mediziner-Examen bestehen“[2] oder „ChatGPT besteht Jura-Prüfung in Minnesota“[3] untermauern das Genie der KI und haben den Technologiesektor in Aufruhr versetzt. Unlängst haben mehrere Studien von den Universitäten Stanford und Berkeley untersucht, wie sich die Ergebnisse der KI verändert haben. Dabei ist herausgekommen, dass sich die Qualität und Konsistenz der Ergebnisse innerhalb relativ kurzer Zeitintervalle stark verändern kann.[4]

Insbesondere die mathematischen Fähigkeiten der KI haben sich nach den Studienergebnissen zufolge innerhalb weniger Monate verschlechtert. Bemerkenswert ist auch, dass es teilweise erhebliche Unterschiede bei der Leistungsentwicklung der kostenfreien Version GPT-3.5 und der kostenpflichtigen Version GPT-4. Eine Frage, die die mathematischen Fähigkeiten der KI forderte, wurde im März 2023 von der kostenpflichtigen Version noch mit einer Genauigkeit von 97,6 % beantwortet, wohingegen im Juni 2023 lediglich 2,4 % der gegebenen Antworten richtig waren. Erstaunlicherweise hat die kostenfreie Version von Chat-GPT ihre Zuverlässigkeit beim Beantworten derselben Frage von 7,4 % im März auf 86,8 % im Juni 2023 gesteigert. Auch beim Generieren von Softwarecode ist die KI schlechter geworden, wobei in dieser Disziplin ein Leistungsabfall bei sowohl der kostenpflichtigen Version 4 als auch der kostenfreien Version 3.5 zu vermerken war.[5]

Es stellt sich also die Frage, ob es sich bei den wahrgenommenen Unterschieden lediglich um einen Bias handelt, der darauf begründet ist, dass die KI häufiger genutzt wird und somit auch mehr Fehler registriert werden, oder ob die Argumentationslogik von GPT tatsächlich gelitten hat.

Eine Gegenposition von einem Professor aus Princeton, in der das Studienergebnis eingehend beleuchtet wurde, kommt zu dem Schluss, dass es methodische Unschärfen bei der Untersuchung gab und die Ergebnis nicht auf andere Bereiche der KI übertragbar seien. So wurde beispielsweise lediglich die Ausführbarkeit des generierten Softwarecodes geprüft, nicht jedoch die inhaltliche Richtigkeit. Aufgrund einer Änderung bei der Ausgabe des Ergebnisses konnte der Code folglich nicht mehr ohne weiteres verwendet werden, wie es noch im März der Fall war.[6] Nach offiziellen Angaben von OpenAI ist die aktuelle Hypothese, dass bei intensiverer Nutzung mehr Probleme bemerkt werden als vorher und OpenAI stets an der Weiterentwicklung der KI arbeitet.[7]

Warum genau die Ergebnisse der KI in so kurzer Zeit teilweise stark schwanken kann nicht mit genauer Sicherheit gesagt werden, denn Chat-GPT lernt mit jeder Unterhaltung dazu. Die vorliegende Studie allein reicht jedoch sicherlich nicht aus, die Aussage des Titels dieses Beitrages zu bestätigen. In jedem Fall sollte man die Hilfestellungen von Chat-GPT kritisch auf die Richtigkeit der Angaben prüfen, um unangenehme Überraschungen zu vermeiden.


[1] https://www.golem.de/news/openai-microsoft-investiert-in-chat-gpt-unternehmen-2301-171383.html (letzter Abruf am 23.09.2023)

[2] https://www.scinexx.de/news/technik/chatgpt-wuerde-us-mediziner-examen-bestehen/ (letzter Abruf am 23.09.2023)

[3] https://www.zdf.de/nachrichten/panorama/chatgpt-jura-pruefung-minnesota-100.html (letzter Abruf am 23.09.2023)

[4] https://t3n.de/news/chatgpt-studie-schlechter-leistungsabfall-berkeley-1565956/#:~:text=ChatGPT%20wird%20nicht%20besser%2C%20sondern%20schlechter&text=Sie%20entwickelten%20strenge%20Benchmark%2DTests,GPT%2D4%20sogar%20einen%20Leistungsr%C3%BCckgang. (letzter Abruf am 23.09.2023)

[5] Chen, L. / Zaharia, M. / Zou, J. (2023); How Is ChatGPT’s Behavior Changing over Time? Abgerufen auf: https://arxiv.org/pdf/2307.09009.pdf (letzter Abruf am 23.09.2023)

[6] https://www.aisnakeoil.com/p/is-gpt-4-getting-worse-over-time (letzter Abruf am 23.09.2023)

[7] https://x.com/npew/status/1679538687854661637?s=20 (letzter Abruf am 23.09.2023)