21. 08. 2025
Verfasst von: Kurt Schneider, Rebekka Wohlrab
Mensch oder Maschine? Ein Referenzmodell
Es gibt immer mehr Beispiele, in denen intelligente Sprachmodelle erstaunliche Leistungen vollbringen. Solche Berichte erzeugen Begehrlichkeiten in Unternehmen, Personalstellen durch KI-Modelle zu ersetzen. Doch wer erledigt die Aufgaben besser – Mensch oder Maschine? Ein Forschungsteam der Leibniz Universität Hannover und der schwedischen Universität Chalmers schlägt ein Referenzmodell vor, mit dem sich Vergleichsstudien besser planen und genauer interpretieren lassen.
Den Einsatz von Large Language Models empirisch prüfen
Große Sprachmodelle wie ChatGPT vollbringen erstaunliche Leistungen, die man zuvor nur Menschen zugetraut hatte: Die KI-Modelle schreiben chinesische Gedichte (Deng 2024), analysieren E-Mails auf Hasskommentare (Huang 2023) oder priorisieren Story Cards für Anforderungen in der Softwareentwicklung. Manche Aufgaben erfüllen sie sogar besser als Menschen (Motoki 2024), zum Beispiel sind sie schneller beim Programmieren einfacher Aufgaben. KI-Forscher vergleichen ihre Leistungen gerne mit Menschen, um zu zeigen, dass menschenähnliche Leistungen möglich sind und dass sich die Leistung an einem menschlichen Maßstab messen lässt. Beispielsweise vergleichen sie, wie korrekt und vollständig ein generierter Text ist, oder wie gut die Struktur altchinesischer Gedichte eingehalten wird. Für unterschiedliche Ziele sind unterschiedliche Kriterien wichtig.
Auswirkungen auf Unternehmen und Gesellschaft
Vergleiche zwischen großen Sprachmodellen (Large Language Models, LLMs) und Menschen haben gravierende Auswirkungen auf Unternehmen, auf Einzelne und manchmal auf die ganze Gesellschaft. Unternehmen überlegen zunehmend, Personalstellen durch ein LLM zu ersetzen. In letzter Konsequenz verschwimmt die Grenze zwischen LLMs und Menschen, wenn sie ähnliche Aufgaben erfüllen. „Wir haben jedoch festgestellt, dass publizierte Studien, die Mensch und Maschine vergleichen, oft sehr unterschiedlich vorgehen und verschiedene Kriterien anwenden“, gibt Prof. Dr. Kurt Schneider vom Lehrstuhl Software Engineering an der Leibniz Universität Hannover zu bedenken. „Die Schlussfolgerungen sind daher mit Vorsicht zu genießen.“
Studien zielgerecht planen und auswerten
Für dieses Problem arbeitet Kurt Schneider zusammen mit Prof. Dr. Rebekka Wohlrab von der Technischen Universität Chalmers in Göteborg an einer Lösung: „Wir schlagen ein Referenzmodell vor, mit dem wissenschaftliche Studien vergleichbarer und besser interpretierbar werden.“ Eine Reihe von Kernfragen helfen, Vergleichsstudien sinnvoll zu planen, sie auszuwerten und nur die zulässigen Schlussfolgerungen daraus zu ziehen. „An dieser Stelle wird das Referenzmodell auch für Unternehmen höchst relevant“, betont Kurt Schneider, „es bietet Qualitätssicherung für Vergleiche und erlaubt, die Resultate angemessen anzuwenden.“ Das kann zum Beispiel bei der Aufgabenverteilung oder bei der Stellenbesetzung entscheidend sein, um nicht zu voreiligen Schlüssen zu kommen. Wer mehr über das Referenzmodell (Schneider 2025) erfahren möchte, kann sich gerne an die Forschenden wenden.
Hier finden Sie weitere Informationen:
- Schneider, Kurt, Farnaz Fotrousi, and Rebekka Wohlrab (2025). "A Reference Model for Empirically Comparing LLMs with Humans", 47th International Conference on Software Engineering. Companion (ICSE-C), Software Engineering in Society Track (SEIS)
- Can AI Write Classical Chinese Poetry like Humans? An Empirical Study Inspired by Turing Test, Cornell University
- Is ChatGPT better than human annotators? Potential and limitations of ChatGPT in explaining implicit hate speech, ACM Digital Library
- More human than human: Measuring ChatGPT political bias, Springer Nature Link
Fachgebiet Software Engineering
Fachgebiet Software Engineering
30169 Hannover
30169 Hannover