Was müssen Sie über kognitive Tests wissen?

Kognitive Assessments (kognitive Leistungs-/Fähigkeitstests) werden häufig im Bereich Human Resources eingesetzt. Woher kommen sie? Was messen sie und warum sind sie wertvoll? All das und vieles mehr beantworten wir hier.

Dieser Artikel enthält die folgenden Abschnitte:

Interesse am Messen der menschlichen Intelligenz
Von der Philosophie zum Empirismus
Der G-Faktor
Fluide und kristalline Intelligenz
Natur vs. Erziehung
Multiple Intelligenzen
Beste Vorhersage für zukünftige Jobleistung
Unterschiedliche Testformen: Geschwindigkeits- und Leistungstests
Aufbau eines kognitiven Tests

Interesse am Messen der menschlichen Intelligenz

Das Interesse daran, die Fähigkeit zu verstehen und zu messen, wie Menschen geistige Aufgaben lösen, ist seit der Einführung des ersten Intelligenztests im Jahr 1905 stetig gewachsen. Heute ist die Praxis, Tests zu verwenden, um Fähigkeiten in Schulen und anderen Bildungseinrichtungen hervorzuheben, weit verbreitet. Eignungstests sind in der Unternehmenswelt gang und gäbe, während kombinierte Eignungs-/Fähigkeitstests zunehmend zu einem festen Bestandteil von Einstellungs- und Personalentwicklungsverfahren werden.

Auch wenn der Begriff „Intelligenz“ heutzutage weit gefasst ist, bleibt das Wesentliche der Intelligenz, nämlich die schnelle und kompetente Problemlösung, für unsere Lern- und Arbeitsfähigkeit von zentraler Bedeutung. Darauf konzentrieren sich ACE und CORE. Dieser Artikel befasst sich mit der Geschichte und Forschung hinter Fähigkeitstests.

Von der Philosophie zum Empirismus

Studien über Unterschiede in geistigen Fähigkeiten und Potenzial wurden ernsthaft ab der Mitte des 19. Jahrhunderts relevant, als das Interesse an differentieller Psychologie (die Untersuchung individueller Unterschiede im Verhalten) wuchs. Bis zu diesem Zeitpunkt dominierte der philosophische Ansatz, wenn Fragen geistiger Fähigkeit und individueller Unterschiede diskutiert wurden.

Illustration of two professionals assembling a human head-shaped puzzle, symbolizing psychological assessment, personality analysis, and cognitive evaluation.

Platon (427–347 v. Chr.) trennte in seinen philosophischen Schriften den Körper vom Geist (der Seele). Obwohl die Begriffe Intelligenz oder Intellekt in seinen Schriften nicht vorkommen, stützte er seine Überlegungen auf das, was wir heute als intellektuelle oder geistige Fähigkeiten bezeichnen würden. Er verglich den menschlichen Geist mit einem Wachsklumpen, in den Eindrücke der Welt, die wir um uns herum beobachten, eingeprägt werden können, ähnlich wie bei einem Gipsabdruck. Platon behauptete, dass „Eindrücke” wie Abdrücke im Wachs gespeichert würden. Der Wachsklumpen kann in seiner „Härte”, „Feuchtigkeit” und „Reinheit” variieren. Ist das Wachs rein, klar und ausreichend tief, kann der Geist Daten leicht speichern und gleichzeitig Verwirrung vermeiden.

Der Verstand denkt nur „Dinge”, die wahr sind. Da die Eindrücke im Wachs klar sind, werden sie schnell an ihren richtigen Platz im Wachsklumpen verteilt. Ist das Wachs trüb und unklar oder sehr weich oder sehr hart, treten Defekte im Intellekt auf. Menschen mit weichem Wachs lernen schnell, vergessen aber ebenso schnell wieder. Menschen mit hartem Wachs lernen langsam, behalten aber umgekehrt das Gelernte. Menschen, deren Wachs uneben ist, können nur unklare Eindrücke haben. Dasselbe gilt für Menschen mit hartem Wachs, da sie nicht in der Lage sind, tiefgründig zu denken. (Sternberg, 2000).

Aristoteles (384–322 v. Chr.) kam unserer Klassifizierung/unserem Verständnis des Intellekts näher. Er vertrat die Ansicht, dass geistige Fähigkeiten wie Denken, Wissenserwerb und logisches Denken auf Gedächtnis und Gefühlen beruhen. Er war der Erste, der der Psyche kognitive Funktionen und Emotionen zuschrieb (Jensen, 1998).

Mitte des 19. Jahrhunderts führte Francis Galton (1822–1911) als Erster empirische Studien zu geistigen Fähigkeiten und individuellen Unterschieden durch. Im Gegensatz zum philosophischen Ansatz zeichnen sich empirische Studien durch die systematische Erhebung von Daten, objektive Messungen und Experimente aus. Galton war fasziniert davon, alles zu messen und zu zählen. Zu seinen Errungenschaften gehörte die Entwicklung einer Methode, mit der sich messen ließ, inwieweit ein Vortragender sein Publikum langweilte. Durch das Messen und Zählen der Anzahl von Husten, Schniefen, Fußbewegungen und der Art und Weise, wie das Publikum den Kopf hielt, konnte er beurteilen, wie langweilig der Vortrag gewesen war.

Um die riesigen Datenmengen zu berechnen, die er aus seinen unzähligen Studien gesammelt hatte, entwickelte Galton eine Vielzahl statistischer Berechnungsmethoden, von denen einige noch heute verwendet werden. Galton war und ist nach wie vor als Wissenschaftler in vielen Disziplinen anerkannt, darunter Genetik, Statistik und Psychologie. In Bezug auf geistige Fähigkeiten und individuelle Unterschiede beschäftigte er sich insbesondere mit der Idee des erblichen Genies. Galtons Schlussfolgerung war, dass die Intelligenz der Menschen variiert und dass das Intelligenzniveau eines Individuums weitgehend erblich bedingt ist. Seitdem konzentrieren sich Studien auf die Entwicklung von Theorien und Methoden, mit denen individuelle Unterschiede verstanden und aufgezeigt werden können.

Galton verwendete den Begriff Intelligenz selten und entwickelte nie eine formale Definition dafür. Seine Idee war, dass ein Mensch umso intelligenter ist, je besser und empfindlicher seine Sinne sind. Um dies zu messen, verwendete Galton Tests zur sensorischen Unterscheidung und Reaktionszeit. Sein Test zur sensorischen Unterscheidung maß den Unterschied (wie gering er auch sein mochte), den eine Person erkennen konnte, wenn ihr fast identische Sinneseindrücke präsentiert wurden. Zum Beispiel den Unterschied zwischen zwei fast gleich langen Linien oder zwei fast gleich starken Druckausübungen auf die Hand. Sensorische Unterscheidung und Reaktionszeit wurden zu dieser Zeit nicht als besonders aussagekräftig für die Aufdeckung individueller Unterschiede angesehen.

Mit den ersten Theorien zu individuellen Unterschieden kam der Ehrgeiz auf, Methoden zu entwickeln, mit denen zukünftiges Verhalten und Erfolg gemessen und vorhergesagt werden konnten. Der französische Psychologe Alfred Binet (1857-1911) war der Ansicht, dass Intelligenz nicht durch einfache physiologische Sinnesmessungen beurteilt werden könne.

Er argumentierte, dass komplizierte Aufgaben erforderlich seien, um komplizierte geistige Fähigkeiten zu beurteilen. 1904 beauftragte die französische Regierung Binet und seinen Kollegen Theodor Simon, eine Methode zu entwickeln, mit der die Schulreife eines Kindes gemessen werden konnte. 1905 veröffentlichten Binet und Simon den ersten IQ-Test. Der Test bestand zum Teil aus einer Liste von Fragen, mit denen der Wortschatz, das Zahlenverständnis, das logische Assoziationsvermögen, das Urteilsvermögen usw. des Kindes getestet wurden. Der Test wurde standardisiert, um ihn mit dem „normalen” Kind gleichzusetzen. Das Testergebnis wurde als „mentales Alter” des Kindes angegeben. So hatte ein Siebenjähriger, der Aufgaben für Vierjährige lösen konnte, das mentale Alter von vier Jahren. Viele Menschen verbinden den Begriff IQ (Intelligenzquotient) mit Binet, obwohl es tatsächlich sein deutscher Kollege William Stern war, der den Begriff 1912 prägte.

Mit der Einführung des ersten Intelligenztests gewann die Intelligenzforschung an Dynamik. Zu Beginn des Ersten Weltkriegs entstand der Bedarf, Rekruten auszuwählen und sie verschiedenen Ausbildungsgängen zuzuordnen. Rund 1.750.000 Menschen wurden einem IQ-Test unterzogen. Die Ergebnisse der Kandidaten wurden im Verhältnis zu den Ergebnissen anderer Kandidaten berechnet. Im Wesentlichen werden heute bei IQ-Tests dieselben Methoden angewendet.

Illustration of two professionals analyzing candidate profiles with digital selection interfaces, symbolizing AI-driven recruitment and talent assessment.

Heute gibt es zahlreiche Theorien zum Thema Intelligenz. Im Folgenden geben wir eine kurze Einführung in einige der etablierteren Theorien und Definitionen von Intelligenz.

Der G-Faktor

Charles Spearman (1863–1945), ein britischer Psychologe, war fasziniert von Galtons Theorie über individuelle Unterschiede in der geistigen Leistungsfähigkeit und deren Ursachen. Zu Beginn des 20. Jahrhunderts entwickelte Spearman eine statistische Berechnungsmethode, um die Komplexität der Verarbeitung großer Datenmengen zu reduzieren. Diese bezeichnete er als Faktorenanalyse. Mithilfe der Faktorenanalyse entdeckte Spearman eine Korrelation zwischen den Ergebnissen, die Menschen in verschiedenen Arten von Tests erzielten. Wenn eine Person beispielsweise bei der Lösung mathematischer Probleme überdurchschnittlich gut abschneidet, während alle anderen Faktoren gleich bleiben, folgt daraus, dass dieselbe Person auch bei der Ausführung schriftlicher Aufgaben überdurchschnittlich gut abschneidet. Was er tatsächlich entdeckt hatte, war eine allgemeine Korrelation zwischen den Leistungsniveaus bei verschiedenen Arten von Tests. Spearman führte dieses Phänomen auf einen zugrunde liegenden Faktor zurück: den g-Faktor (wobei g für allgemeine Intelligenz steht). Laut Spearman ist der g-Faktor die allgemeine geistige Fähigkeit, die erforderlich ist, um jede Art von Aufgabe auszuführen, die geistige Fähigkeiten erfordert (z. B. Lesen, Verstehen und Erinnern).

Bildlich lässt sich dies als geistige Grundlage oder Basis ausdrücken: Je höher der g-Faktor, desto solider die Basis. Daraus folgt: Je solider die Basis, desto stärker sind die Fähigkeiten, die darauf aufgebaut werden können. Mit steigendem g-Faktor steigt auch die Kompetenz einer Person, jede Art von Fertigkeit zu erlernen und anschließend auszuüben.

G ist nicht der einzige Faktor, der die Leistung einer Person in jedem Kontext bestimmt. Spearman entdeckte, dass die Leistung eines Kandidaten in Tests entsprechend den einzelnen Untertests variierte. Spearman bezeichnete dies als den s-Faktor (wobei s für spezifische Intelligenz steht). Manche Menschen sind besser in Arithmetik, andere besser im Schreiben, je nach den individuellen Fähigkeiten in den verschiedenen Disziplinen. Von besonderem Interesse war jedoch eine genauere Betrachtung des g-Faktors, da dieser offenbar einen Einfluss auf die Leistung einer Person über das gesamte Spektrum intellektueller/mentaler Herausforderungen hatte. In Bezug auf die Arbeitsleistung ist der g-Faktor die universelle Fähigkeit, Probleme zu lösen, die nicht unbedingt mit der besonderen Natur des Problems zusammenhängen.

Aufgrund seiner Studien kam Spearman zu dem Schluss, dass ein spezieller Test, bei dem der Kandidat Beziehungen und Zusammenhänge erkennen und verstehen und daraus eine Lösung ableiten muss, die beste Methode zur Messung des g-Niveaus einer Person ist. Die Ergebnisse sagen nicht nur viel über die Eignung des Kandidaten für den Test aus, sondern auch über seine Fähigkeit, eine Reihe von geistigen Herausforderungen zu bewältigen, beispielsweise in seinen täglichen Arbeitsaufgaben.

Fluide und kristalline Intelligenz

Der britische Psychologe Raymond B. Cattell (1905–1992) unterteilte Intelligenz in zwei Kategorien, die er als „fluide Intelligenz” und „kristalline Intelligenz” bezeichnete. Diese weithin anerkannte Theorie vermittelt ein hervorragendes Bild vom Unterschied zwischen geistigem Potenzial und Erfahrung. In frühen Intelligenztests fehlte diese Unterscheidung oft.

Fluide Intelligenz ist laut Cattell in erster Linie biologisch bedingt und bezieht sich auf unsere Fähigkeiten zur Problemlösung und zum logischen Denken, unabhängig von früheren Erfahrungen oder Lernprozessen. Ein Test zur Beurteilung der logischen Denkfähigkeit korreliert in der Regel stark mit der fluiden Intelligenz. Laut Cattell nimmt die fluide Intelligenz mit zunehmendem Alter ab.

Kristalline Intelligenz hingegen hängt direkter von Erfahrung und Lernen ab. Im Gegensatz zur fluiden Intelligenz nimmt die kristallisierte Intelligenz laut Cattell mit zunehmendem Alter zu.

Cattell verbrachte viel Zeit damit, einen sogenannten kulturfreien Intelligenztest oder einen reinen Test der fluiden Intelligenz zu entwickeln, bei dem die früheren Erfahrungen und Fähigkeiten (Kultur) einer Person keinen Einfluss haben. Später wurde erkannt, dass es fast unmöglich ist, einen solchen Test zu entwickeln. Aber Cattells Arbeit zeigt, wie wichtig es ist, bei Intelligenztests zwischen Erfahrung und Potenzial zu unterscheiden.

Natur vs. Erziehung

Ist Intelligenz biologisch gesehen vererbbar? Oder wird Intelligenz durch die Erziehung bestimmt?

Diese Fragen dominierten die Intelligenzdebatte während des größten Teils des 20. Jahrhunderts. Francis Galton leistete Pionierarbeit bei der Erforschung des Zusammenhangs zwischen Intelligenz und Genen. Galton war der erste, der Zwillinge untersuchte. Seine Methoden lieferten entscheidende Argumente für die Debatte um Veranlagung und Umwelt. Aus heutiger Sicht erscheinen Galtons Methoden jedoch besonders grob und unausgereift. Er beschränkte seine Studien auf einzelne Familien und machte keinen Unterschied zwischen zweieiigen und eineiigen Zwillingen. Seine Schlussfolgerung, dass Intelligenz genetisch bedingt ist, basiert ebenfalls auf einer eher wackeligen Forschungsgrundlage. Bis in die 1970er Jahre wurden umfangreichere Studien an Zwillingen durchgeführt. Dabei wurde in der Regel die Intelligenz von Zwillingen und ihren Eltern gemessen, wenn die leiblichen Eltern einen Zwilling und Adoptiveltern den anderen großzogen. Auch die IQ-Unterschiede zwischen zweieiigen und eineiigen Zwillingen waren in dieser Zeit Gegenstand von Studien. Der IQ der Zwillinge wurde dann mit dem ihrer Eltern bzw. Adoptiveltern verglichen. Viele Ergebnisse deuten darauf hin, dass Intelligenz zu einem großen Teil erblich ist.

Kamin (1974) stellte die weithin anerkannte Annahme in Frage, dass Intelligenz erblich ist. Kamin wies auf mehrere Forschungsfehler und Mängel hin, darunter eine groß angelegte Zwillingsstudie des renommierten Psychologen und Statistikers Cyril Burt. Die Ergebnisse von Burts Studie waren auffallend ähnlich, obwohl er verschiedene Gruppen von Zwillingen untersuchte. Es bestehen weiterhin Zweifel daran, ob und inwieweit Burt Daten absichtlich manipuliert hat. Das Ergebnis dieser Kritik war jedoch eindeutig eine jahrzehntelange massive Unsicherheit darüber, inwieweit Intelligenz vererbbar ist.

Heute besteht weitgehende Einigkeit darüber, dass Intelligenz teilweise genetisch bedingt ist. Studien haben gezeigt, dass die Korrelation zwischen adoptierten Zwillingen und ihren leiblichen Eltern ebenso hoch ist wie zwischen leiblichen Eltern und den von ihnen selbst aufgezogenen Kindern (Scarr und Weinberg, 1983 in Sternberg, 2000).

Es ist jedoch auch offensichtlich, dass die Genetik, verstanden als die Gene, mit denen wir geboren werden, keine ausreichende Erklärung für die Intelligenz eines Menschen ist. Weitere Informationen zu diesem Thema finden Sie in der Literaturliste (z. B. Grigorenko in Sternberg, 2000).

Multiple Intelligenzen

Ein weiterer beliebter Ansatz ist Howard Gardners (1943 - ) Theorie der multiplen Intelligenzen (Gardner, 1983 & 1997). Gardners Theorie definiert einen breiteren Begriff für Intelligenz, der auch Fähigkeiten umfasst, die nicht direkt mit Schule und Bildung zusammenhängen (z. B. körperlich-kinästhetische Intelligenz, musikalische Intelligenz, interpersonelle Intelligenz usw.). Im Mittelpunkt seiner Theorie steht die Auffassung, dass der Begriff „Intelligenz” lediglich eine Bezeichnung für die Fähigkeit ist, Probleme zu lösen, Aufgaben zu bewältigen und Produkte in vielen Bereichen zu entwickeln. Mit jedem dieser Bereiche sind spezifische mentale Prozesse verbunden, die vom Einzelnen in unterschiedlichem Maße zum Ausdruck gebracht werden. Diese spezifischen mentalen Prozesse werden aktiviert, wenn der Einzelne eine bestimmte Art von Aufgabe, wie z. B. schriftliches Material, erhält oder dazu verpflichtet ist, dazu Stellung zu nehmen. Um an schriftlichem Material zu arbeiten, muss eine Person über ein Verständnis der Sprache und ihrer Feinheiten verfügen, in der Lage sein, das Gelesene zusammenzufassen und später das Gelesene für andere klar wiederzugeben.

Die sprachliche Intelligenz ist nur eine von sieben Arten von Intelligenz, die Gardner identifiziert hat. Seitdem hat Gardner mindestens zwei weitere Arten von Intelligenz identifiziert. Seine überarbeitete Theorie identifiziert insgesamt neun Arten von Intelligenz. Eine ausführlichere Darstellung seiner Intelligenztheorien finden Sie in Gardners Veröffentlichungen (1983, 1997).

Illustration of a human head with interconnected icons representing ideas, cognitive processes, and innovation, symbolizing psychometrics, intelligence, and creative thinking.

Wir setzen unsere sprachliche Intelligenz in alltäglichen Situationen ein, indem wir Sprache für bestimmte Zwecke nutzen, z. B. um andere zu überzeugen, um unsere Erinnerungen zu entwickeln und zu unterstützen, um Informationen weiterzugeben (in Vorträgen, Kursen) und um zu reflektieren (um etwas Gesagtes zu interpretieren).

Laut Gardner unterliegen diese verschiedenen Arten von Intelligenz Entwicklungsphasen, weshalb die Stimulierung all unserer Intelligenzen für die menschliche Entwicklung wichtig ist. Die verschiedenen Intelligenzen kommen nicht in gleichem Maße zum Ausdruck und ihr Niveau variiert von Person zu Person.

Objektive Versuche, Gardners Intelligenzen zu messen, beispielsweise die interpersonelle Intelligenz (die Fähigkeit, die Wünsche und Motivationen anderer zu verstehen), stellen eine enorme Herausforderung dar. Eine Möglichkeit, die Gardner selbst bei der Untersuchung von Kindern angewendet hat, besteht darin, Menschen zu beobachten, die in einer oder mehreren Intelligenzen eingeschränkt sind. Diese Methode wird im Unternehmensbereich von großen Assessment-Centern praktiziert. Die Kandidaten werden in Gruppen eingeteilt und dann beobachtet, um festzustellen, wie sie verschiedene Aufgaben und Beziehungen angehen. Um zu brauchbaren Ergebnissen zu gelangen, ist es oft notwendig, solche Beobachtungen über viele aufeinanderfolgende Tage (oder sogar Wochen) durchzuführen. Es versteht sich von selbst, dass dieses Verfahren besonders zeitaufwändig und kostspielig ist, weshalb es normalerweise auf potenzielle Kandidaten für sehr hohe Führungspositionen beschränkt ist.

Beste Vorhersage für zukünftige Jobleistung

Die Rekrutierung und Auswahl von Bewerbern hat ein zentrales Ziel: den besten Kandidaten für die Stelle zu finden. Was sind die besten Ressourcen auf dem Markt für diese Aufgabe? Ein Einblick in die Validität von Tools ist eine aufschlussreiche Erfahrung im Bereich HR.

Eine der Methoden, mit denen Forscher die Qualität einer Rekrutierungsmethode bestimmen, ist die Bewertung der kriteriumsbezogenen Validität des Tools. Die Kriteriumsvalidität gibt Auskunft darüber, wie gut das Tool die zukünftige Arbeitsleistung vorhersagt. Wenn das Tool in der Lage ist, die Arbeitsleistung wiederholt vorherzusagen, sehen Sie eine hohe Korrelation zwischen Test- und Arbeitsleistung, die als Zahl zwischen 0 und 1 gemessen wird. Wenn die Validität 0 beträgt, besteht absolut keine Korrelation zwischen dem zur Bewertung eines Bewerbers verwendeten Tool und der zukünftigen Arbeitsleistung dieses Bewerbers. Dies bedeutet, dass das Tool keinen Vorhersagewert hat. Mit anderen Worten: Es ist reiner Zufall, ob der Bewerber ein guter Mitarbeiter sein wird oder nicht. Wenn die Validität hingegen 1 beträgt, gibt es eine exakte Übereinstimmung zwischen dem, was wir aus dem Bewertungsinstrument sehen, und der zukünftigen Leistung. In der Realität kann kein Bewertungsinstrument die Arbeitsleistung mit 100-prozentiger Sicherheit vorhersagen, aber das Ziel sollte der höchste Wert sein.

Wir sehen deutlich, dass das beste Instrument zur Bewertung und Auswahl eines Bewerbers ein GMA ist, auch bekannt als General Mental Ability Assessment (allgemeine geistige Leistungsfähigkeit).

Der Grund, warum wir sagen können, dass GMA der leistungsfähigste einzelne Prädiktor für die Arbeitsleistung ist, liegt darin, dass der Zusammenhang zwischen beiden seit mehr als 100 Jahren Gegenstand der Forschung ist (Schmidt, Oh & Shaffer, 2016).

Ein Großteil dieser Forschung wurde mithilfe eines metaanalytischen Ansatzes zusammengefasst. Die renommierte Metaanalyse von Schmidt und Hunter (1998) verglich GMA mit 18 anderen Methoden zur Bewertung von Bewerbern und stellte fest, dass verschiedene Methoden und Kombinationen von Methoden sehr unterschiedliche Validitäten für die Vorhersage der zukünftigen Arbeitsleistung aufweisen. Einige, wie z. B. der Bildungsgrad, haben eine sehr geringe Validität. Andere, wie z. B. die Graphologie (die Lehre von der Handschrift), haben praktisch keine Validität; mit anderen Worten, wenn Sie einen Bewerber aufgrund seiner Handschrift auswählen würden, käme dies einer zufälligen Einstellung gleich.

Close-up of a professional's hand holding a Master-branded pen, analyzing a document with graphs during a business meeting.

Andere Methoden, wie beispielsweise GMA-Tests, weisen eine sehr hohe Validität auf. Schmidt und Hunter (1998) untersuchten die Kombinationen verschiedener Methoden und stellten fest, dass die kombinierte Verwendung von GMA-Tests und strukturierten Interviews eine Kriteriumsvalidität von 0,63 aufwies.

Schmidt, Shaffer & Oh (2008) kommen später zu dem Schluss, dass GMA bei der Vorhersage der Arbeitsleistung einen noch größeren Wert hat, als frühere Studien zeigen. Und im Jahr 2016 aktualisierten sie die Metaanalyse aus dem Jahr 1998 und sammelten Daten aus 100 Jahren Forschung. Ihre Ergebnisse zeigen eine überzeugende Stärke von GMA-Tests (Schmidt, Oh & Shaffer, 2016).

Salgado et al. (2003) führten eine Metaanalyse zur Validität von GMA in 6 europäischen Ländern durch und stellten fest, dass die Validität im Bereich von 0,56 bis 0,68 liegt, was den Ergebnissen der amerikanischen Metastudien ähnelt, die eine konsistente Validität von GMA über Länder hinweg zeigen.

Le & Schmidt (2006) führten eine andere Metaanalyse durch, um die Validität von GMA über verschiedene Komplexitätsstufen von Berufen hinweg zu beleuchten. Sie stellten fest, dass selbst für den am wenigsten komplexen Beruf die Validität von GMA bei 0,39 und für die komplexesten Berufe bei überwältigenden 0,73 liegt. Für Berufe mit durchschnittlicher Komplexität (in denen die meisten Arbeitnehmer tätig sind) wird die prädiktive Validität auf 0,66 geschätzt (Le & Schmidt, 2006). Die Vielzahl von Studien, die einen so starken Konsens hinsichtlich der hohen Kriteriumsvalidität zwischen GMA und zukünftiger Arbeitsleistung zeigen, macht es schwierig, dies zu übersehen.

Warum sollte man sich für die Forschungsergebnisse interessieren?

Abbildung 1: Zusammenfassung der in Sackett et al. (2021) angegebenen Validitätsschätzungen. Die Balken zeigen die alten Validitätsschätzungen, die in Schmidt & Hunter (1998) zusammengefasst sind, in roter Farbe und alle überarbeiteten Validitätsschätzungen (Sackett et al., 2021) in blauer Farbe, nach Auswahlverfahren.

Abbildung 1 zeigt deutlich, dass es erhebliche Unterschiede in der Kriteriumsvalidität der verschiedenen Rekrutierungsmethoden gibt. Was passiert also, wenn wir bei der Rekrutierung weiterhin die Forschung außer Acht lassen? Um diese Frage zu beantworten, haben wir die Frage umgedreht: Wie vorteilhaft kann es sein, wenn wir auf die Forschung hören und das beste Instrument zur Vorhersage der Arbeitsleistung bei der Bewertung von Bewerbern einsetzen?

Um den finanziellen Nutzen der Auswahl der besten Rekrutierungsmethode aufzuzeigen, verwenden wir die Utility-Analyse – eine Reihe von Verfahren, die ihre Wurzeln in der Wirtschaft, der Finanzwissenschaft und der Psychologie haben (Sturman, 2003). In diesem Fall verwenden wir sie als Instrument zur Berechnung der Rentabilität von Rekrutierungsmethoden. Durch den Vergleich zweier verschiedener Rekrutierungsmethoden können wir zeigen, dass selbst kleine Unterschiede in der Kriteriumsvalidität große wirtschaftliche Auswirkungen haben können.

Um zwei Rekrutierungsmethoden mithilfe der Utility-Analyse zu vergleichen, benötigen wir die Kriteriumsvalidität jeder Methode und ein Rekrutierungsszenario, in dem wir die beiden Methoden vergleichen möchten.

Basierend auf diesen Informationen und den Validitätskoeffizienten von Schmidt, Oh & Shaffer, 2016 (dargestellt in Abbildung 1) können wir die durchschnittliche Leistungssteigerung in Euro aufgrund des Auswahlverfahrens berechnen.

Die Kriteriumsvalidität für den GMA-Test beträgt 0,65 und für das strukturierte Interview 0,58, was einer Differenz von 0,07 entspricht. Der letzte Teil bedeutet, dass wir ein hypothetisches Szenario aufstellen müssen.

Wenn wir alle Informationen in einen Utility-Analyse-Rechner oder Utility-Algorithmus1 eingeben, können wir den finanziellen Nutzen mit 58.992 € bestimmen. Wenn jeder GMA-Test 50 Euro kostet, beträgt die Kapitalrendite erstaunliche 590 %. Beachten Sie, dass weder der finanzielle Gesamtnutzen noch die Kapitalrendite die Kosten der aktuellen Rekrutierungsmethode enthalten. Und dennoch ergibt sich ein finanzieller Nutzen von 58.992 € pro Jahr, wenn 20 neue Mitarbeiter eingestellt werden und die oben genannten Bedingungen gelten. Dies ist der finanzielle Unterschied zwischen der Einstellung von Mitarbeitern mit hoher Leistungsfähigkeit und der Einstellung von Mitarbeitern, bei denen eine hohe Leistungsfähigkeit weniger wahrscheinlich ist.

Diese Ergebnisse zeigen, wie sich der scheinbar geringe Unterschied von 0,07 in einen recht großen finanziellen Unterschied bei realen Rekrutierungsmethoden verwandeln kann. Wenn wir also die Möglichkeit haben, durch die Einstellung des richtigen Kandidaten einen finanziellen Gewinn zu erzielen und unsere Chancen bei der Rekrutierung durch die Auswahl der richtigen Assessment-Tools zu verbessern, warum sollten wir diese dann nicht nutzen?

Unterschiedliche Testformen: Geschwindigkeits- und Leistungstests

Wenn wir uns kognitive Tests ansehen, müssen wir zwischen Geschwindigkeits- und Leistungstests unterscheiden und die grundlegenden Unterschiede zwischen ihnen verstehen, um zu erkennen, wo unsere Lösungen einzuordnen sind.

Ein Leistungstest berücksichtigt das maximale Leistungsniveau. Die Fragen in einem Leistungstest reichen von leicht bis sehr komplex. In der Regel haben alle Teilnehmer genügend Zeit, um den Test zu absolvieren. Der Unterschied besteht jedoch darin, dass diejenigen Teilnehmer mit hoher kognitiver Leistungsfähigkeit die komplexeren Fragen richtig beantworten. Die Punktzahl basiert daher auf dem Schwierigkeitsgrad der richtigen Antworten.

Ein Geschwindigkeitstest hingegen enthält Fragen „einheitlicher Art” und mit einfachem Schwierigkeitsgrad. Wenn genügend Zeit zur Verfügung steht, können in der Regel die meisten Teilnehmer die meisten Fragen richtig beantworten. Bei einem Geschwindigkeitstest ist die Zeit jedoch begrenzt, was bedeutet, dass die Teilnehmer entweder schnelle Antworten geben müssen (mit dem Risiko einer falschen Antwort) oder einige Fragen unbeantwortet lassen müssen. Die Punktzahl wird anhand der Anzahl oder Menge der richtigen Antworten ermittelt.

Die meisten kognitiven Tests, die heute auf dem Markt erhältlich sind, sind eine Mischung aus beiden Tests (Geschwindigkeit und Leistung) und werden auch als „Speeded Power Tests” bezeichnet. Das bedeutet, dass der Test so aufgebaut ist, dass die Fragen zunächst einfach sind und dann immer schwieriger werden. Allerdings kommt noch der Zeitfaktor hinzu, sodass es schwierig ist, alle Fragen vor Ablauf der Zeit zu beantworten. Das bedeutet, dass die Schwierigkeit der Fragen zwar unterschiedlich sein kann, die Geschwindigkeit jedoch einen sehr starken Einfluss auf das Ergebnis hat.

In Bezug auf Speeded-Power-Tests sind jedoch viele der Meinung, dass die Fähigkeit, viele Probleme schnell zu lösen, gleichbedeutend ist mit der Fähigkeit, komplexere Probleme zu lösen. Obwohl zwischen diesen beiden Aussagen tatsächlich ein Zusammenhang besteht, bedeutet eine schnelle Beantwortung von Fragen nicht, dass die Person gut mit Komplexität umgehen kann.

Die Verwendung von Geschwindigkeit als Maßstab für die Leistungsfähigkeit kann aufgrund des Übungseffekts schwierig oder herausfordernd sein. Wenn ein Kandidat einen ähnlichen Test oder Fragebogen mit ähnlichen Fragen ausprobiert hat oder wenn der Kandidat eine gute Teststrategie hat, kann dies die Punktzahl im Vergleich zu Personen, die solche Taktiken nicht anwenden, erhöhen.

Bei Master International haben wir den kognitiven Test ACE - Adjustable Competence Evaluation entwickelt. ACE misst und nutzt ein ausgewogenes Verhältnis von Leistung und Geschwindigkeit. Dies geschieht, indem den Befragten großzügig Zeit für die Beantwortung der Fragen eingeräumt wird, sodass Zeit kein Stressfaktor ist. Darüber hinaus misst er den Schwierigkeitsgrad, wenn der Befragte richtig antwortet, sowie die Geschwindigkeit, mit der die Frage beantwortet wurde, im Vergleich zu einer Norm für jede Frage. Durch die unabhängige Messung von Geschwindigkeit und Leistung lassen sich Geschwindigkeit und Leistung beim logischen und analytischen Denken genau und detailliert beschreiben.

Aufbau eines kognitiven Tests

Kognitive Tests können auf verschiedenen Ebenen aufgebaut sein. Wir können nur aus unserer eigenen Erfahrung und unserem Wissen sprechen. Bei unserem ACE-Assessment arbeiten wir mit drei Ebenen:

Verbal
Figural
Numerisch

Bei unserem nonverbalen CORE-Assessment arbeiten wir nur mit der räumlichen/figuralen Ebene.

Im Folgenden finden Sie Beispiele, die erklären und veranschaulichen, wie eine Frage für jede Ebene aussehen könnte.

Eine Frage aus dem verbalen Abschnitt könnte wie folgt aussehen:
In dieser Aufgabe erhalten Sie einige Informationen. Lesen Sie diese Informationen sorgfältig durch. Lösen Sie die Aufgabe, indem Sie das Kästchen neben den richtigen Antworten ankreuzen.

Thomas, Sarah, Max und Maria sind 36, 39, 41 und 43 Jahre alt. Berechnen Sie das Alter jeder Person, wenn Sie wissen, dass:

• Max älter als Maria und jünger als Thomas ist.
• Sarah jünger als Max und älter als Maria ist.

Eine ähnliche Frage lautet wie folgt:
Lesen Sie das erste Wortpaar (zwei durch einen Doppelpunkt getrennte Wörter). Betrachten Sie die Beziehung zwischen den beiden Wörtern. Lesen Sie dann das erste Wort des nächsten Wortpaares und wählen Sie aus, welche Antwortoption das zweite Wort dieses Wortpaares sein sollte. Die Beziehung zwischen dem zweiten Wortpaar sollte der Beziehung zwischen dem ersten Wortpaar entsprechen.

Kalt : Warm

Schwarz : ?

a) Glänzend
b) Dunkel
c) Weiß
d) Sonne
e) Grau

Eine Frage aus dem numerischen Bereich könnte wie folgt lauten:
Lesen Sie die folgenden Informationen sorgfältig durch und beantworten Sie dann die Frage. Ihre Antwort muss in runden Zahlen angegeben werden. Anne, Beatrice und Cecilia haben 12.000,- EUR unter sich aufgeteilt. Anne und Beatrice erhielten den gleichen Betrag, während Cecilia doppelt so viel erhielt wie Anne und Beatrice zusammen. Wie viel Geld hat Cecilia erhalten?

Antwort: ? EUR

Category: Produktwissen +, Recruiting +

Tags: kognitiver test, Intelligenztest, Testverfahren

Übersetzt von: Bernhard Dworak

Datum: 02.02.2026

The Psychology Team

Content Writer

< Zurück zur Übersicht