So beurteilen Sie die Qualität eines Tests: Validität

Die gründliche Beurteilung der Validität eines Tests kann Expertenwissen erfordern. Dieser Artikel hilft Ihnen, einen Test mit hoher Validität auszuwählen und den größtmöglichen Nutzen für Ihr Unternehmen zu erzielen.

Wenn Reliabilität die Schienen sind, dann ist Validität der Zug. Beides muss der Fall sein, damit die Passagiere ihr Ziel erreichen. Doch während man die Schienen ohne Zug verlegen kann, kann der Zug ohne Schienen nicht fahren. Ebenso ist Reliabilität eine Voraussetzung für Validität, sagt aber an sich noch nichts über die Validität eines Tests aus. 

Um die Gültigkeit eines Tests eingehend beurteilen zu können, sind Expertenkenntnisse erforderlich. Dies ist einer der Gründe, warum viele internationale Unternehmen verlangen, dass ihre Testtools von einer großen Agentur wie BPS (Großbritannien) oder DNV (Norwegen) zertifiziert/registriert werden. 

Wenn ein Test nur in einer Sprache zertifiziert ist, bedeutet das in den allermeisten Fällen, dass man seiner Qualität ohne weiteres vertrauen kann. 

Beachten Sie jedoch, dass viele Anbieter verschiedene Logos und Symbole verwenden, um Qualität zu signalisieren. Diese bedeuten jedoch nicht zwangsläufig, dass der Test psychometrisch ausgewertet wurde, sondern lediglich, dass das Unternehmen (oder eine Person im Unternehmen) Mitglied einer bestimmten Organisation ist. Klicken Sie auf die Logos auf der Website, um zu prüfen, ob Sie auf eine spezielle Seite für den Test weitergeleitet werden (z. B. bei BPS). Ist dies nicht der Fall, ist die Wahrscheinlichkeit hoch, dass es sich bei dem Logo um reines Marketing handelt.

Möchten Sie tiefer in die Forschung hinter Testtools eintauchen? Dann werfen Sie einen Blick in diesen Artikel und erfahren Sie mehr über die Studien dahinter. 

Was ist Gültigkeit?

Validität bezieht sich auf die Gültigkeit eines Tests und bezieht sich auf die Dokumentation und Interpretation von Daten. Sie untersucht, ob die Daten zuverlässig sind. Die Validität zeigt, ob der Test das prüft, was er vorgibt zu tun.

Wenn Sie in einer Situation sind, in der Sie beurteilen müssen, ob ein Test gut genug ist, sollten Sie auf drei Bereiche besonders achten:

1. Wählen Sie einen theoretisch fundierten Test

Die Testkonstruktion basiert heute fast immer auf einer theoretischen Grundlage. Beispielsweise basiert die überwiegende Mehrheit der Persönlichkeitstests für Unternehmen auf der Eigenschaftstheorie (den sogenannten Big Five- Eigenschaften). Dies liegt daran, dass zahlreiche Forschungsergebnisse ihren Zusammenhang mit vielen verschiedenen relevanten Ergebnissen wie Teamarbeit, Leistung, Bindung und Engagement belegen. 

Wählen Sie daher immer einen Test, der auf einer anerkannten psychologischen Theorie basiert. Auf lange Sicht ist dies eine sehr gute erste Überprüfung, um festzustellen, ob der Test, mit dem Sie arbeiten, von hoher Qualität ist. 

2. Untersuchen Sie, ob Theorie und Praxis zusammenhängen

Jeder kann schreiben, dass sein Test auf einer Theorie basiert, aber wie kann man überprüfen, ob diese passt?

Sie müssen einiges an Recherchearbeit leisten, denn es gibt nicht den einen richtigen Weg, einen Test zu validieren. Sie sollten sich zumindest die Factsheets ansehen, aber um tiefer in die Materie einzusteigen, sollten Sie auch die Dokumentation lesen, die zu jedem Test gehört. Achten Sie dabei auf die Konstruktvalidität, oder anders ausgedrückt: Misst der Test das, was er zu messen vorgibt?

Nimmt man das Rahmenwerk zur Testbewertung der EFPA (European Federation of Psychologists' Associations) als Ausgangspunkt, muss ein Testanbieter in der Lage sein, eine oder besser mehrere der folgenden Studienarten zu seinem Test vorzulegen:

  • Item-Test-Korrelationen
  • Korrelationen mit anderen ähnlichen Tests
  • Testbias
  • Gruppenunterschiede
  • Faktorenanalyse
  • Multi-Methoden-Design

Item-Test-Korrelationen:

Damit eine Skala in einem Test valide ist, müssen alle Fragen der Skala gut korreliert sein. Das bedeutet: Wenn eine Person eine Frage mit „hoch“ beantwortet, wird sie typischerweise auch die anderen Fragen mit „hoch“ beantworten. Dies lässt sich mithilfe von Item-Test-Korrelationen analysieren. Als Faustregel gilt, dass diese mindestens 0,3 und vorzugsweise im Durchschnitt mindestens 0,5 betragen sollten.

Korrelationen mit anderen ähnlichen Tests:

Wenn ein Test die Big Five messen soll, sollte er idealerweise auch eine hohe Übereinstimmung mit anderen etablierten Tests aufweisen, die die Big Five messen. Gleiches gilt für andere Theorien. Um dies zu untersuchen, testet man dieselben Personen mit unterschiedlichen Tests und prüft anschließend, inwieweit ihre Ergebnisse korrelieren. Typischerweise werden hier Korrelationen über 0,55 akzeptiert. 

Testverzerrung:

Testverzerrungen sind ein weites Feld. Kurz gesagt geht es darum, dass verschiedene Personengruppen die gleichen Voraussetzungen für die Beantwortung eines Tests haben. Wenn es beispielsweise in einem kognitiven Test um die Kenntnis einer bestimmten Stadt in Dänemark geht, sind alle Dänen klar im Vorteil. Natürlich sind Tests nie so konzipiert, aber typischerweise ist eine bestimmte Übersetzung schlecht. Das bedeutet, dass diejenigen, die den Test in dieser Sprache ablegen, im Vergleich zu beispielsweise den anderen Testsprachen benachteiligt sind. Testanbieter müssen daher entweder durch einen äußerst sorgfältigen Übersetzungsprozess oder durch Analysen nachweisen können, dass ihr Test frei von Verzerrungen ist. 

Gruppenunterschiede:

Wenn das, was Sie messen möchten, einen „natürlichen“ Unterschied zwischen verschiedenen Gruppen aufweist, sollte der Test diese Unterschiede auch aufzeigen. Beispielsweise weisen ältere Menschen im Bereich der Persönlichkeit häufig niedrigere Werte in der Dimension Neurotizismus (eine der fünf Dimensionen der Big Five) auf. Wenn der von Ihnen verwendete Test tatsächlich auf den Big Five basiert, sollte er diesen Zusammenhang ebenfalls aufzeigen können. Natürlich hängen diese Dinge nicht 1:1 zusammen, aber es gibt viele Dinge, auf die Sie achten können, und solange der Test nur einige davon aufzeigen kann, ist das oft ausreichend.

Dieser Artikel befasst sich nicht eingehend mit den Konzepten der Faktorenanalyse und multimethodischer Designs . Bei Interesse finden Sie jedoch gute Beschreibungen im Internet. In der Regel werden diese Konzepte nicht zu den ersten Studienarten gehören, die von Anbietern durchgeführt werden. Daher ist es selten erforderlich, dass Sie über diese Kenntnisse verfügen, um einen Test auszuwerten. 

3. Finden Sie heraus, ob der Test funktioniert

Die letzte und vielleicht wichtigste Methode zur Bewertung der Validität aus Anwendersicht ist die Kriteriumsvalidität . Dieser Begriff bezeichnet die Korrelation zwischen den Testergebnissen und einem externen Kriterium, typischerweise einem wichtigen KPI für das Unternehmen. Wenn der Test die Leistung wiederholt vorhersagen kann, weiß man, dass er seinen beabsichtigten Zweck erfüllt.

Die Kriteriumsvalidität wird typischerweise als Korrelationskoeffizient zwischen beispielsweise einer Skala im Test und dem KPI angegeben. Im Allgemeinen gelten Werte über 0,2 als akzeptabel und über 0,35 als gut. Wenn Sie nur ein Validitätsmaß betrachten, sollten Sie sich für die Kriteriumsvalidität entscheiden und nach Tests suchen, die Ergebnisse mit Korrelationen von mindestens 0,35 dokumentieren können.

Wie Sie wahrscheinlich ahnen, ist die Beurteilung der Validität kompliziert. Als Faustregel gilt jedoch, dass es am besten ist, einen akkreditierten Test zu wählen. Falls dies nicht möglich ist, hat Ihnen dieser Artikel hoffentlich eine Idee gegeben, wie Sie die Validität selbst beurteilen können.

Category: Artikel +, Produktwissen +

Übersetzt von: Bernhard Dworak