top of page

TIME4HIRES

BLOG

KI bewertet Kandidaten in Sekunden – aber wie gut ist dieses Urteil wirklich?

  • Autorenbild: Marcus
    Marcus
  • vor 3 Tagen
  • 3 Min. Lesezeit

Microsoft Copilot, ChatGPT & Co. werden im Recruiting und Sourcing zunehmend eingesetzt. Lebenslauf hochladen, LinkedIn-Profil analysieren lassen, Persönlichkeit und Intelligenz einschätzen – fertig ist die „smarte Vorauswahl“. Klingt effizient. Ist es das aber auch?


Eine aktuelle Studie von Tobias Marc Härtel im Journal of Business and Psychology hat genau das untersucht. 406 LinkedIn-Profile wurden von Microsoft Copilot analysiert. Die Personen dahinter hatten zuvor echte psychologische Tests durchgeführt. Man wusste also, wie ausgeprägt ihre Persönlichkeit und Intelligenz tatsächlich waren.


Das Ergebnis: Die KI lag nur sehr begrenzt richtig. Und teilweise deutlich daneben.



Erstes Problem: Die KI ist nicht stabil in der Beurteilung.


Dasselbe Profil wurde zweimal bewertet. Teilweise kam fast dasselbe Ergebnis heraus. Teilweise aber auch nicht. Bei einigen Persönlichkeitsmerkmalen schwankten die Einschätzungen deutlich. Heisst übersetzt: Die Bewertung hängt spürbar davon ab, wie das Modell gerade „denkt“. Für ein Tool, das über Einstellungen oder Absagen mitentscheiden soll, ist das schwierig.


Wenn zwei Durchläufe unterschiedliche Ergebnisse liefern, ist das kein solides Fundament für Entscheidungen.



Zweites Problem: Sie trifft die Realität nur mässig.


Die entscheidende Frage ist: Wie stark stimmen die KI-Einschätzungen mit den tatsächlichen Testergebnissen überein?


Die Korrelationen lagen ungefähr bei:

  • Intelligenz: schwach positiv

  • Offenheit: schwach positiv

  • Extraversion: schwach positiv

  • Andere Merkmale: kaum oder gar nicht zutreffend


Was heißt das?

Die KI erkennt leichte Tendenzen. Aber sie erfasst keine belastbare Persönlichkeitsstruktur. Die Trefferquote liegt eher im Bereich „besser als raten“, aber weit entfernt von „diagnostisch brauchbar“.


Die Daten erlauben Copilot nicht zuverlässig einzuschätzen, wie gewissenhaft oder emotional stabil jemand ist.



Drittes Problem: Der „Alles-sieht-gut-aus“-Effekt


Ein spannender Befund: Die KI bewertet Menschen systematisch positiver.


Im Schnitt wurden Kandidaten:

  • gewissenhafter eingeschätzt

  • intelligenter eingeschätzt

  • offener eingeschätzt

  • weniger neurotisch eingeschätzt


Warum ist das so?

LinkedIn ist eine Selbstinszenierungsplattform. Und KI-Modelle sind darauf trainiert, positive, sozial erwünschte Muster zu erkennen.


Das Ergebnis ist eine doppelte Verzerrung. Fast alle wirken „überdurchschnittlich gut“.


Für Recruiting ist das fatal. Denn die Auswahl lebt von Differenzierung. Wenn alle im oberen Bereich landen, hilft das niemandem.



Viertes Problem: Der Halo-Effekt in algorithmischer Form


Die Studie zeigt ausserdem: Die KI trennt Merkmale nicht sauber voneinander. Wer viele Stationen, internationale Erfahrung oder akademische Abschlüsse hat, wird insgesamt höher bewertet – über mehrere Eigenschaften hinweg. Intelligenz, Offenheit, Gewissenhaftigkeit verschwimmen. Das ist im Grunde ein digitaler Halo-Effekt: Ein positiver Eindruck färbt alles andere ein. Nur dass er diesmal nicht vom Menschen kommt, sondern vom Modell.



Fünftes Problem: Mehr Text = bessere Persönlichkeit?


Ein paar Beispiele aus der Analyse:

  • Längere Profile → bessere Gesamtbewertung

  • Profile auf Englisch → tendenziell positiver bewertet

  • Viele Follower → höhere Extraversion


Das klingt weniger nach fundierter Persönlichkeitsanalyse und mehr nach Mustererkennung auf Oberflächenebene. Mehr Content wird als „mehr Kompetenz“ interpretiert. Ob das stimmt, ist eine andere Frage.



Sechstes Problem: Bias verschwindet nicht, nur weil er algorithmisch ist


Auch Unterschiede zwischen Geschlechtern und Altersgruppen wurden sichtbar. Einige Merkmale wurden systematisch unterschiedlich bewertet. Die Effekte waren nicht riesig, aber konsistent. Und hier wird es heikel:


Wenn Unternehmen solche Systeme in der Vorauswahl nutzen, tragen sie die Verantwortung für die Wirkung – nicht der Softwareanbieter. Gerade im europäischen Kontext mit DSGVO, AGG und künftig dem EU AI Act ist das kein Nebenthema. Sie dazu auch hier: https://www.talentacquisitionleader.com/post/bad-ki-bunny-die-klagen-gegen-workday-und-eightfold-und-ihre-wirkung-f%C3%BCr-recruiting-teams



Was heisst das für die Praxis?


Die Studie sagt nicht: „KI im Recruiting ist Unsinn.“ Sie sagt: KI ist kein Ersatz für fundierte Eignungsdiagnostik – zumindest nicht in dieser Form.


Wo liegen die klaren Grenzen?

  • Keine verlässliche Persönlichkeitsdiagnose aus LinkedIn-Profilen

  • Hohe Verzerrungsanfälligkeit (Positivitätsbias, Halo-Effekte)

  • Geringe Differenzierung zwischen Kandidaten

  • Risiko systematischer Gruppenunterschiede

  • Fehlende Transparenz der Entscheidungslogik


Wo ist der sinnvolle Einsatz?

  • Strukturieren von Profilen

  • Zusammenfassungen erstellen

  • Matching auf harte Kriterien

  • Unterstützung bei Interviewfragen

  • Ergänzung – nicht Ersatz – menschlicher Bewertung




Der Kernpunkt


Recruiting ist keine Textanalyse-Aufgabe. Es ist ein Entscheidungsproblem mit realen Konsequenzen. LLMs sind hervorragend darin, Sprache zu verarbeiten. Aber Persönlichkeit ist mehr als ein sprachliches Muster.


Die Versuchung ist groß: schnell, günstig, skalierbar. Doch „AI-gestützt“ bedeutet nicht automatisch „qualitätsgesichert“. Wer Copilot & Co. zur Persönlichkeitsbewertung einsetzt, sollte wissen: Die wissenschaftliche Grundlage ist aktuell dünn. Und Bequemlichkeit ist kein Ersatz für Evidenz.



Quelle


Härtel, T. M. (2026). In the Blink of an AI: Exploring Large Language Models’ Capability to Infer Traits From LinkedIn. Journal of Business and Psychology. 

bottom of page