Jenseits von Persönlichkeitstests

Bewertung KI-gestützter Persönlichkeitsanalysen im Vergleich zu traditionellen, selbstberichteten Big-Five-Messungen

Künstliche Intelligenz (KI) und Maschinelles Lernen (ML) haben schrittweise Einzug in verschiedene Bereiche der Organisationsforschung und -praxis gehalten – einer davon ist die berufliche Eignungsdiagnostik. Ein aktueller Forschungsartikel im Journal of Applied Psychology von Fan et al. (2023) untersucht die Glaubwürdigkeit der indirekten Messung von Persönlichkeit durch einen KI-Chatbot im Vergleich zu traditionellen Selbstauskunftsverfahren wie NEO-PI-R oder OPTO.

In der Studie von Fan et al. (2023) erfasste ein Chatbot freie Texteingaben der Teilnehmenden während eines 20- bis 30-minütigen Online-Gesprächs und nutzte maschinelle Lernalgorithmen, um daraus Persönlichkeitswerte zu berechnen (im Folgenden „KI-Persönlichkeitswerte“). Diese Werte wurden anschließend mit Ergebnissen aus einem selbstberichteten Fragebogen auf Basis der Big-Five-Persönlichkeitsmerkmale verglichen (im Folgenden „Selbstberichtete Big-Five-Werte“).

Der Gedanke, die Persönlichkeit anhand digitaler Spuren mittels KI zu erfassen, mag faszinierend wirken. Doch bevor man zwischen KI-basierten und traditionellen Verfahren wählt, ist es entscheidend, die psychometrischen Feinheiten zu verstehen. Laut den Ergebnissen des genannten Artikels bestehen bei den KI-Persönlichkeitswerten insbesondere folgende Probleme:

1. Diskriminante Validität:
Die KI-Werte zeigten zwar eine gute konvergente Validität (starke Übereinstimmung mit den selbstberichteten Werten für dieselben Merkmale), jedoch eine relativ schwache diskriminante Validität. Letzteres bedeutet, dass die KI Schwierigkeiten hatte, zwischen unterschiedlichen Persönlichkeitsfaktoren klar zu unterscheiden.

2. Inkrementelle Validität:
Die KI-Werte boten nur in „einigen“ Analysen einen Zusatznutzen gegenüber den selbstberichteten Werten. Das legt nahe, dass KI-basierte Verfahren nicht durchgehend zusätzliche Vorhersagekraft liefern.

3. Kriteriumsbezogene Validität:
Besonders kritisch ist, dass die KI-Werte eine geringe kriteriumsbezogene Validität aufwiesen – also nur schwach geeignet waren, externe Kriterien wie z. B. berufliche Leistung vorherzusagen. Dadurch ist ihre praktische Anwendbarkeit im Vergleich zu etablierten Verfahren stark eingeschränkt.

Trotz dieser Schwächen gibt es auch Stärken, wie eine insgesamt akzeptable Reliabilität, eine vergleichbare Faktorenstruktur und Hinweise auf Stichproben-übergreifende Übertragbarkeit. Dennoch sind die genannten Validitätsprobleme bedeutsam für Forschende und Praktiker, die KI-basierte Verfahren im realen Kontext einsetzen möchten.


Psychometrische Untersuchung der KI-Persönlichkeitswerte

Reliabilität (Zuverlässigkeit)
Reliabilität beschreibt die Messgenauigkeit eines Instruments. Im Vergleich zwischen Selbstbericht und KI-Chatbot ist zu beachten, dass klassische Methoden wie Cronbachs Alpha oder Split-Half-Reliabilität bei KI-Analysen nur eingeschränkt anwendbar sind, da es keine „Items“ gibt. Die Studie ergab gemischte Ergebnisse:

  • Auf Facettenebene waren die Split-Half-Reliabilitäten der KI-Werte insgesamt akzeptabel, jedoch niedriger als bei Selbstbericht.

  • Die Test-Retest-Reliabilität der KI-Werte entsprach in etwa der Split-Half-Reliabilität – und war damit ebenfalls niedriger.

  • Behandelte man Facettenwerte als „Items“, zeigten die KI-Werte etwas höhere interne Konsistenzwerte als die Domänenwerte aus Selbstbericht.

  • Die Selbstberichtswerte wiesen insgesamt gute interne Konsistenz und vergleichbare Split-Half-Werte auf.

Validität (Gültigkeit)
Die Studie betrachtete Faktorielle Validität, konvergente und diskriminante Validität sowie kriteriumsbezogene Validität:

  • Die meisten Modell-Fit-Indikatoren erreichten nicht die üblichen Richtwerte, wurden jedoch angesichts der Komplexität der Persönlichkeitsstruktur als noch angemessen bewertet.

  • Die KI-Werte replizierten weitgehend die Muster und Strukturen der Selbstberichtswerte.

  • Faktorladungen und deren Ausprägung waren zwischen den beiden Ansätzen ähnlich.

  • Die konvergente Validität war ausgezeichnet, die diskriminante Validität jedoch schwächer.

  • Erste Hinweise auf eine geringe kriteriumsbezogene Validität wurden gefunden.

Fazit: Psychometrisch erreichen KI-Chatbots noch nicht das Niveau traditioneller Selbstberichtsinstrumente, zeigen aber Fortschritte gegenüber anderen maschinellen Lernansätzen.


Gesamtfazit von Fan et al. (2023)

Die KI-Persönlichkeitswerte in dieser Studie:

  • wiesen insgesamt akzeptable Reliabilität auf (Domänen- und Facettenebene)

  • hatten eine vergleichbare Faktorenstruktur zu Selbstbericht

  • zeigten gute konvergente, aber schwache diskriminante Validität

  • wiesen geringe kriteriumsbezogene Validität auf

  • boten in einigen Analysen inkrementelle Validität

  • zeigten deutliche Übertragbarkeit auf andere Stichproben


Psychometrische Vorteile in dieser Studie
Obwohl die Selbstberichtsmethoden insgesamt überlegen waren, schnitt diese KI-Methode im Vergleich zu anderen Studien günstiger ab – unter anderem wegen:

  1. Größerer Stichprobe – höhere Genauigkeit bei der Erkennung subtiler Merkmalsausprägungen

  2. Datenerhebungsmethode – interaktives Chatbot-Format mit potenziell hochwertigeren Daten

  3. Fortgeschrittenen NLP-Methoden – Einsatz des Universal Sentence Encoder, der kontextreiche Informationen besser erhält


Praktische Überlegungen für HR

Vor einem breiten Einsatz von KI-Chatbots in der Personalauswahl sollten HR-Verantwortliche folgende Punkte beachten:

  • Gesprächsagenda: Unterschiedliche Fragen können zu unterschiedlichen Ergebnissen führen; Transparenz der Trainingsdaten ist entscheidend.

  • Manipulationsresistenz: Es fehlt empirische Evidenz dafür, dass KI-Ergebnisse fälschungssicher sind.

  • Benachteiligungseffekte: Sprachmuster könnten unbeabsichtigt Gruppenmerkmale widerspiegeln.

  • Kriteriumsvalidität: Ergebnisse müssen in vielfältigen Organisationen validiert werden.

  • Mindestmenge an Eingaben: Ein Schwellenwert an Textvolumen ist nötig, um die psychometrische Qualität zu sichern.

  • Einbindung von Fremdeinschätzungen: Kombination mit Fremdberichten könnte die Aussagekraft erhöhen.

  • Ethische Aspekte: Transparente Aufklärung über Datennutzung ist unerlässlich.


Zusammenfassung
KI-Chatbots könnten künftig in frühen Phasen der Personalauswahl eine Rolle spielen. Dennoch sollten methodische Belastbarkeit und ethische Implikationen sorgfältig gegen die bewährte Robustheit traditioneller Verfahren abgewogen werden. Fortschritt in der Technik muss mit einem ebenso hohen Anspruch an Fairness, Ethik und Validität einhergehen.

 

Literatur
Fan, J., Sun, T., Liu, J., Zhao, T., Zhang, B., Chen, Z., Glorioso, M. & Hack, E. (2023). Wie gut kann ein KI-Chatbot Persönlichkeit ableiten? Untersuchung der psychometrischen Eigenschaften maschinell abgeleiteter Persönlichkeitswerte. Journal of Applied Psychology. https://doi.org/10.31234/osf.io/pk2b7

Category: Artikel +, Publikationen +, Produktwissen +
Tags: KI, künstliche Intelligenz

Übersetzt von: Bernhard Dworak
Datum: 12.08.2025