Grenzen von ChatGPT
Warum ChatGPT bei der Bearbeitung von Aufgaben eines logisch-analytischen Tests nichts nützt, sondern im Gegenteil zu schlechteren Ergebnissen (ver)führt.
Einleitung
Benutzer und Testteilnehmer von Master-Tests waren natürlich neugierig auf die Auswirkungen von ChatGPT, das den Testteilnehmern bei der Beantwortung von Tests im Allgemeinen, aber insbesondere bei kognitiven Tests hilft. In den letzten Monaten haben wir verschiedene Fragen zu ChatGPT und der Beantwortung von Aufgaben in unseren Logiktests wie ACE (Adjustable Competence Evaluation) erhalten. Auch wir bei Master waren der Meinung, dass wir diese soziologische Tendenz, die wir beobachten, verstehen müssen, und deshalb haben wir uns vorgenommen, den aktuellen Stand der künstlichen Intelligenz (KI) im Vergleich zu unseren Tests zu untersuchen, wobei wir vor allem das zugängliche Tool ChatGPT im Vergleich zu ACE betrachtet haben.
Ziel unserer Untersuchung und dieses Beitrags ist es, die Einschränkungen und Möglichkeiten von ChatGPT im Zusammenhang mit Testentwicklung aufzuzeigen, die Neugier auf dieses Werkzeug aufzugreifen und hoffentlich auch einige der Fragen zu beantworten, die Testteilnehmende und Anwender unserer Lösungen in Bezug auf ChatGPT und ACE haben.
In den letzten Jahren hat KI bemerkenswerte Fortschritte bei der Verarbeitung natürlicher Sprache gemacht, so dass KI-Modelle wie ChatGPT in der Lage sind, menschenähnliche Unterhaltungen zu führen. Obwohl ChatGPT eine beeindruckende Fähigkeit besitzt, kohärente Antworten zu generieren, ist es wichtig zu erkennen, dass es inhärente Grenzen für seine logischen Argumentationsfähigkeiten gibt. Dieser Artikel geht der Frage nach, warum ChatGPT trotz seiner bemerkenswerten Sprachkenntnisse Schwierigkeiten haben kann, logische Aufgaben in einem Test zu beantworten.
Ein sprachliches (linguistisches) Modell
Das erste Element, das man verstehen muss, ist, dass ChatGPT (und alle Large Language Models - LLM) ein linguistisches Modell ist, was bedeutet, dass ChatGPT im Grunde eine große Datenbank mit schriftlichen Informationen ist und auf der Grundlage dieser Textdaten selbst gelernt hat, Sätze aus den riesigen Mengen an Textdaten in der Datenbank zu konstruieren. ChatGPT verwendet dazu statistische Modelle, die Sätze konstruieren, indem sie versuchen, das wahrscheinlichste nächste Wort vorherzusagen. Es ist zwar hervorragend im Verstehen und Erzeugen von menschenähnlicher Sprache, verfügt aber nicht über ein echtes Verständnis oder die Fähigkeit, tief zu denken. Dem Modell fehlen Erfahrungen aus der realen Welt, gesunder Menschenverstand und kontextuelles Verständnis, die für das Verstehen komplexer logischer Szenarien entscheidend sind. Infolgedessen kann ChatGPT Schwierigkeiten mit differenzierten logischen Fragen haben, die abstraktes Denken und kritische Überlegungen erfordern.
ChatGPT verarbeitet Texteingaben sequentiell und hat kein umfassendes Verständnis für den breiteren Kontext. Wenn es mit logischen Fragen konfrontiert wird, kann es sich nicht auf ein tiefes Verständnis des gesamten Textes oder früherer Aussagen verlassen. Folglich kann das Modell Fragen isoliert interpretieren und dabei wichtige Informationen, die zuvor erwähnt wurden, außer Acht lassen oder sich auf irrelevante Informationen für die Lösung einer bestimmten Aufgabe konzentrieren. Diese Einschränkung beeinträchtigt seine Fähigkeit, genaue logische Schlussfolgerungen zu ziehen oder Ableitungen auf der Grundlage von kontextuellen Hinweisen zu treffen.
Ein gutes Beispiel für seine Grenzen sind diejenigen Aufgaben, die mehrere Texte enthalten, und die eigentliche Aufgabe darin besteht, diejenigen Informationen herauszufiltern und nur die Informationen zu verwenden, die für die Aufgabe relevant sind. ACE hat verschiedene dieser Fragen.
Empfindlichkeit gegenüber Eingabeformulierungen
Induktives Denken – also die Fähigkeit, von spezifischen Beispielen auf allgemeinere Prinzipien zu schließen, ist ein grundlegender Aspekt des logischen Denkens. ChatGPT kann zwar Antworten auf der Grundlage vorhandener Muster in den Daten generieren, besitzt aber nicht die Fähigkeit, allgemeine Prinzipien zu induzieren oder Lösungen auf der Grundlage begrenzter Informationen abzuleiten. Diese Einschränkung hindert ChatGPT daran, komplexe logische Fragen zu beantworten, die induktives Denken erfordern, und schränkt damit seine Leistung bei solchen Testaufgaben ein.
ChatGPT reagiert sehr empfindlich auf die Formulierung und Struktur der Eingabefragen (Prompts), und selbst eine geringfügige Umformulierung derselben Frage kann zu unterschiedlichen Antworten führen, was die mangelnde Robustheit des linguistischen Modells bei der Erfassung der zugrunde liegenden Logik verdeutlicht.
Im Gegensatz zu menschlichen Testteilnehmern, die die Absicht hinter einer Frage entschlüsseln können, verlässt sich ChatGPT auf Muster und statistische Assoziationen in den Fragen, die ihm vorgelegt werden. Folglich kann ChatGPT Schwierigkeiten haben, logische Konzepte über verschiedene Formulierungen hinweg zu verallgemeinern, was zu inkonsistenten oder falschen Antworten führt.
Von Master International umgesetzte Maßnahmen
Einschränkung der Microsoft Visual Search
Bei der Verwendung des Browsers Microsoft Edge sehen Nutzende unter normalen Umständen ein kleines Symbol auf allen Bildern einer Webseite. Durch Anklicken dieses Symbols wird eine Websuche nach ähnlichen Bildern ausgelöst. Dies bedeutet, dass Testteilnehmende, die ACE und/oder CORE mit Edge bearbeiten, potenziell im Internet nach ähnlichen Bildern suchen könnten. Darüber hinaus kann das Symbol ablenkend wirken, was in manchen Fällen die Antworten und damit das Testergebnis beeinflussen kann.
Unsere umfangreiche Untersuchung hat gezeigt, dass es im Internet zahlreiche Diskussionen zu diesem Thema gibt, bereits kurz nach der Einführung dieser Funktion durch Microsoft. Wir sind zum Schluss gekommen, dass der aktuelle Einfluss der Microsoft Visual Search auf Testteilnehmende begrenzt ist und derzeit keine unmittelbare Gefahr darstellt, da die gefundenen Bilder zwar ähnlich, jedoch nicht mit ACE oder CORE in Zusammenhang stehen. Die größere Problematik liegt vielmehr in der möglichen Ablenkung während der Testbearbeitung. Aus diesem Grund haben wir auf unseren Testseiten entsprechende Programmierungen vorgenommen, um die Anzeige des Microsoft-Visual-Search-Symbols zu verhindern.
Einschränkung der Rechtsklick-Funktion
Das Entfernen der Möglichkeit, während der Testbearbeitung per Rechtsklick zu agieren, betrifft insbesondere zwei Handlungen, die wir als potenzielle Hauptstörfaktoren für Testteilnehmende identifiziert haben.
Erstens wird dadurch verhindert, dass Bilder einfach kopiert und beispielsweise in eine Google-Suche eingefügt werden können. Dadurch wird vermieden, dass wertvolle Testzeit für die Suche nach ähnlichen Bildern aufgewendet wird. Die Reduktion solcher Zeitverluste ist im Interesse der Testteilnehmenden.
Zweitens wird durch die Einschränkung des Kopierens von Texten erschwert, dass Testteilnehmende mit zwei Bildschirmen arbeiten und Text aus ACE kopieren, um ihn in ChatGPT einzufügen. Diese Massnahme eliminiert das Risiko der Nutzung von ChatGPT nicht vollständig, kann es jedoch erschweren und dadurch dazu beitragen, dass Testteilnehmende von der Nutzung absehen – was letztlich auch zu ihrem eigenen Vorteil ist.
Schlussfolgerung
Zusammenfassend lässt sich festhalten, dass ChatGPT zwar über beeindruckende Fähigkeiten zur Sprachgenerierung verfügt, bei der Beantwortung logischer Testaufgaben jedoch erheblichen Einschränkungen unterliegt. Als sprachliches Modell fehlt ihm echtes Verständnis, logische Schlussfolgerungsfähigkeit und Kontextbewusstsein – Fähigkeiten, die für die korrekte Bearbeitung komplexer logischer Szenarien unerlässlich sind. Die Anfälligkeit gegenüber Mehrdeutigkeiten sowie die Unfähigkeit, Rückfragen zu stellen oder Klärungen einzuholen, beeinträchtigen zusätzlich die Leistung bei differenzierten logischen Aufgaben. Darüber hinaus fehlen ChatGPT Fähigkeiten des induktiven Denkens, was es dem Modell erschwert, logische Konzepte zu verallgemeinern oder Lösungen aus begrenzten Informationen abzuleiten.
Zudem reagiert ChatGPT sehr sensibel auf die konkrete Formulierung und Struktur von Fragestellungen, sodass selbst geringe Umformulierungen zu inkonsistenten oder falschen Antworten führen können. Diese Sensitivität verdeutlicht die mangelnde Robustheit des Modells beim Erfassen der zugrunde liegenden Logik. Darüber hinaus ist ChatGPT nicht in der Lage, visuelle Informationen zu verarbeiten, wodurch es räumliche Aufgaben oder Fragen mit visuellen Anforderungen nicht angemessen bearbeiten kann.
Master International A/S und Master Human Resources Consulting GmbH erkennen diese Einschränkungen an und haben gezielte Maßnahmen gesetzt, um die Motivation von Testteilnehmenden zu reduzieren, während der Testbearbeitung auf ChatGPT zurückzugreifen. Dazu zählen unter anderem die Einschränkung von Copy-Paste-Funktionen sowie das Entfernen der Microsoft-Visual-Search-Funktion, um den Zugriff auf externe Ressourcen zu erschweren und mögliche Auswirkungen auf das Testergebnis zu minimieren.
Abschließend ist anzumerken, dass zukünftige Versionen von GPT (und vergleichbaren Modellen) an unterschiedlichen Lösungen arbeiten, etwa durch Plugins oder spezialisierte Trainings, um die mathematische und logische Leistungsfähigkeit zu verbessern. Gleichzeitig bleibt das Problem bestehen, dass Modelle Fakten erfinden („halluzinieren“), ohne dass die Ursachen dafür vollständig verstanden sind. Master International A/S und Master Human Resources Consulting GmbH verfolgen diese Entwicklungen kontinuierlich.
Letztlich bleibt festzuhalten, dass menschliche Testteilnehmende weiterhin einen klaren Vorteil im logischen Denken und im kritischen Urteilen besitzen. ChatGPT kann ein wertvolles Werkzeug für viele Anwendungsbereiche sein, stößt jedoch bei der Komplexität logischer Tests an seine Grenzen. Das Verständnis dieser Einschränkungen ist sowohl für Testanwender als auch für Testteilnehmende wesentlich, um faire und valide Beurteilungen kognitiver Fähigkeiten sicherzustellen.
Nicht zu vergessen ist auch, dass wir bei ACE einen Bestätigungstest (Confirm-Test) implementiert haben. Dieser kurzer Test kann mit Kandidaten unter Aufsicht durchgeführt werden, um die Bestätigung des Ergebnisses des Online-ACE-Tests zu erhalten. Es werden etwas leichtere Beispiele präsentiert, als die, die der Kandidat zuvor lösen konnte. Kann er sie wieder lösen, ist das Ergebnis bestätigt. Der Bestätigungstest dauert ca. 7 Minuten und hat eine 99% Treffsicherheit bei der Identifizierung von ehrlichen Befragten.
Hinweis:
Zu diesem Thema wurde ein ausführliches White Paper veröffentlicht, das die Einschränkungen von ChatGPT sowie die potenziell negativen Auswirkungen einer uneingeschränkten Nutzung auf Testteilnehmende vertieft darstellt.
Hier klicken zum Download: White Paper
(c) 2026 Master Human Resources Consulting GmbH