Erstmals besticht eine fortschrittliche KI den Turing-Test
Zusammenfassung: Eine Meilensteinstudie der Kognitionswissenschaft hat den ersten eindeutigen empirischen Nachweis erbracht, dass moderne künstliche Intelligenz den legendären Turing-Test bestehen kann.

Kurzfassung
Warum das wichtig ist
- Zusammenfassung: Eine Meilensteinstudie der Kognitionswissenschaft hat den ersten eindeutigen empirischen Nachweis erbracht, dass moderne künstliche Intelligenz den legendären Turing-Test bestehen kann.
- Die randomisierte, kontrollierte Studie wendete das 1950 Turing entwickelte Rahmenwerk rigoros an, um zu bewerten, ob state-of-the-art Large Language Models (LLMs) menschliche Gespräche so überzeugend nachahmen können, dass echte Menschen sie nicht können.
- Die Forscher stellten fest, dass fortgeschrittene Modelle wie GPT-4.5, wenn sie mit spezifischen „Persona"-Prompts ausgestattet sind, in 73 % der Fälle als menschlich eingestuft werden – eine Leistung, die die tatsächlichen menschlichen Teilnehmer deutlich übertrifft und unser Verständnis ändert.
Ein 76-jähriger Meilenstein überwunden: Das Projekt markiert den ersten Fall, in dem ein KI-System rigoros nachgewiesen wurde, den klassischen Turing-Test-Rahmenwerk zu bestehen, wobei die Bewertungsbasis für Mensch-zu-Mensch-Kommunikation erreicht oder übertroffen wird.
Die Kraft des Persona-Promptings: Die menschliche hnlichkeit hngt stark vom Prompt-Engineering ab. Wenn das Modell mit einem spezifischen Persona-Prompt instructed wird, menschliche Fehleranflligkeit, Tonfall und Humor einzunehmen, erreichte GPT-4.5 eine Tuschungsrate von 73 %. Ohne diese expliziten Anweisungen sank die Erfolgsquote auf 36 %.
Paritt mit Open-Source-Modellen: Metas Open-Source-Modell LLaMa-3.1-405B erreichte bei korrektem Prompting eine menschliche Bewertung von 56 % und war in seiner Gesprchsausgabe statistisch nicht unterscheiden, gegen die es getestet wurde. Klassische Anstze scheitern: Regelbasierte Chatbots der Vergangenheit und ltere LLM-Generationen schnitten schlecht ab.
Technik und Auswirkungen
Der Chatbot ELIZA aus den 1960er-Jahren und das Legacy-Modell GPT-4o wurden jeweils nur zu 23 % bzw. 21 % als menschlich identifiziert. Sieg durch Mngel: Der Coautor Ben Bergen merkte an, dass die Modelle die Befragten nicht durch eine rohe Demonstration intellektueller Kraft oder fehlerfreie Berechnungen berzeugten.
Stattdessen gewannen sie, indem sie natürliche menschliche Schwächen, eine direkte Gesprächsführung und nachvollziehbare Fehler zeigten.
Der Aufstieg der „gefälschten Menschen": Die langgestreckte Natur des Tests (der sich über Intervalle von 5 und erstreckt) wirft dringende Warnungen vor im Hinblick auf öffentliche Gesundheit und Sicherheit bezüglich Online-Betrug, -Engineering-Scams und automatisierter politischer Überzeugung auf.
Technik und Auswirkungen
Quelle: UCSD Eine neue Studie der University of California San Diego liefert den ersten empirischen Beleg dafür, dass ein modernes künstliches Intelligenzsystem den Turing-Test bestehen kann – einen wichtigen wissenschaftlichen Maßstab, der prüft, ob eine Maschine menschliche Gespräche so überzeugend imitieren kann, dass Menschen sie nicht zuverlässig können.
In einer Reihe häufig nicht in der Lage, zwischen Menschen und fortschrittlichen großen Sprachmodellen (LLMs) zu unterscheiden.
Empirische Daten, die in den Proceedings of the National Academy of Sciences veröffentlicht wurden, zeigen, dass sprachmodelle der neuesten Generation, die auf maßgeschneiderte menschliche Persona-Prompts zurückgreifen, eine Täuschungsquote von 73 % erreichen und damit den historischen Verhaltensstandard überschreiten. Quelle: Neuroscience News.
Technik und Auswirkungen
Die in den Proceedings of the National Academy of Sciences veröffentlichte Studie ist die erste, die Large Language Models (LLMs) mit der Methode untersucht hat, die der britische Mathematiker und „Vater der Informatik" Alan Turing im Jahr 1950 entwickelt hat.
Zudem ist dies der erste Fall, in dem Modelle im Rahmen des Turing-Tests so häufig als menschlich eingestuft wurden wie tatsächliche Menschen. „Was wir festgestellt haben, ist, dass fortgeschrittene LLMs bei geeigneten Prompts dieselbe Tonlage, Direktheit, Humor und Fehleranfälligkeit aufweisen können wie Menschen", sagte Cameron Jones, der entsprechende Autor der Studie, der die Forschung im Rahmen seiner Promotion in Kognitionswissenschaft an der UC San Diego durchführte.
Obwohl wir wissen, dass LLMs leicht Wissen zu fast jedem Thema generieren können, zeigte dieser Test, dass sie auch überzeugend soziale Verhaltensmerkmale annehmen können, was erhebliche Auswirkungen darauf hat, wie wir KI wahrnehmen.
Technik und Auswirkungen
Im Test führte ein Teilnehmer gleichzeitig Gespräche mit zwei weiteren Parteien – einer war ein Mensch, die andere ein LLM – und der menschliche „Interrogator" musste entscheiden, welche Partei der Mensch war.
In randomisierten, kontrollierten Experimenten mit zwei unabhängigen Teilnehmergruppen – UC San Diego-Studenten und Online-Teilnehmern – führten die Interrogatoren kurze, textbasierte Gespräche und trafen daraufhin ihre Einschätzungen.
In den Experimenten unterhielten sich die Teilnehmer mit vier verschiedenen LLMs – GPT-4.5 und LLaMa-3.1-405B als State-of-the-Art-Modelle – und die Forscher schlossen zudem ältere Baseline-Modelle für den Vergleich ein. Zu diesen Modellen gehörten GPT-4o und ELIZA, ein klassischer regelbasierter Chatbot aus den 1960er Jahren.
Technik und Auswirkungen
Bei den vier großen Sprachmodellen (LLMs) wurde GPT-4.5 in 73 % der Fälle als menschlich eingestuft, was bedeutet, dass die Prüfer dieses Modell deutlich häufiger als „menschlich" identifizierten als den tatsächlichen menschlichen Teilnehmer.
LLaMa-3.1-405B wurde bei gleichem Prompt in 56 % der Fälle als menschlich bewertet – ein Ergebnis, das statistisch nicht vom menschlichen Vergleichsgruppenmitglied unterscheidbar ist. Die Basissysteme schnitten deutlich schlechter ab: ELIZA und GPT-4o wurden insgesamt nur etwa 23 % bzw. 21 % der Zeit als menschlich identifiziert.
76 Jahre nach ihrer Einführung gewinnt der Turing-Test eine neue Bedeutung.
Technik und Auswirkungen
Laut den Autoren zeigt die Studie zudem, dass Wissenschaftler den Turing-Test neu betrachten müssen. „Der Turing-Test wurde ursprünglich entwickelt, um zu prüfen, ob Maschinen menschliche Intelligenz rivalisieren können", sagte Studienautor Ben Bergen, Professor für Kognitionswissenschaft an der UC San Diego. „Heute wissen wir jedoch, dass KI viele Fragen schneller und genauer beantworten kann als Menschen; das eigentliche Problem liegt also nicht in der reinen Rechenleistung." Dass Maschinen den Test bestehen knnen und wie sie ihn bestehen zwingt uns, neu zu berlegen, was er eigentlich misst.
Immer mehr geht es dabei um die hnlichkeit mit dem Menschen. Jedes LLM erhielt einen Persona"-Prompt, der es aufforderte, eine bestimmte menschliche Figur und Kommunikationsweise einzunehmen.
Bergen erklrte, dass die LLMs nicht durch eine Demonstration, sondern weil sie Fehler machten, wie ein Mensch es tun wrde. Diese Eigenschaften sind nicht die Art, die ich mir vorstelle, als Turing dies im Sinn hatte." Prompts spielten eine entscheidende Rolle und zwar in dramatischer Weise.

Technik und Auswirkungen
Ohne explizite Anweisungen waren die Modelle deutlich seltener als menschlich zu erkennen: GPT-4.5 erreichte eine Gewinnrate von 36 %, LLaMa-3.1 von 38 %, whrend die Basissysteme ELIZA (23 %) und GPT-4o (21 %) noch seltener als menschlich identifiziert wurden.
Die gleichen Systeme, die bei detaillierten Anweisungen zur Rolle, die sie einnehmen sollen, menschlich wirken können, waren ohne diese Führung unfähig, solche Merkmale anzunehmen – was darauf hindeutet, dass die Modelle zwar menschlich überzeugend agieren können, aber oft menschliche Hinweise benötigen, um zu wissen, wie. „Sie besitzen die Fähigkeit, menschlich zu wirken, aber möglicherweise nicht in gleichem Maße die Fähigkeit zu erkennen, was erforderlich ist, um menschlich zu wirken", sagte Bergen.
Warum dies: Vertrauen, Täuschung und der Aufstieg von „gefälschten Personen".
Technik und Auswirkungen
Die Ergebnisse haben reale Auswirkungen auf das Vertrauen im Internet – insbesondere, da die Modelle, die als menschlich durchgehen, dies über längere Gespräche von fünf oder hinweg tun. „Es ist relativ einfach, diese Modelle so zu instruieren, dass sie ", sagte Jones, der jetzt Assistenzprofessor für Psychologie an der Stony Brook University ist. „Wir müssen wachsam sein: Wenn Menschen online mit Fremden interagieren, sollten sie deutlich weniger davon ausgehen, dass sie mit einem Menschen und nicht mit einem LLM sprechen." Jones weist zudem auf dunklere Risiken hin. „Der Turing-Test ist ein Spiel, bei dem die Modelle lügen müssen", sagte Jones. „Eine der Implikationen ist, dass die Modelle darin ausgesprochen gut sind." Bergen fügte hinzu, dass die Unfähigkeit, festzustellen, ob man mit einem Menschen oder einem Bot interagiert, schwerwiegende haben kann. „Es gibt viele Menschen, die gerne Bots einsetzen würden, um andere dazu zu bewegen, ihre Sozialversicherungsnummern preiszugeben, für ihre Partei zu stimmen oder ihre Produkte zu kaufen", sagte er.
Die Forscher betonen, dass sie hoffen, ihre Arbeit werde das öffentliche Verständnis dafür schärfen, was diese Systeme heute bereits können – und welche Art ßnahmen die Gesellschaft möglicherweise benötigt.
Ein Live-Vergleichstest Mensch gegen Maschine Um die Studie durchzuführen, entwickelten die Forscher eine Online-Oberfläche, die sich wie eine vertraute Messaging-App anfühlt. „Für den Befrager erscheint auf seinem Computer ein geteilter Bildschirm, und er stellt Fragen an beide Zeugen", sagte Jones. „Sie wissen, dass einer der Zeugen ein Mensch und der andere eine KI ist." Nach fünf Minuten – in einer separaten Replikationsstudie nach – musste der Befrager entscheiden, welcher Gesprächspartner der echte Mensch war.
Was die Studie zeigt
Um zu bestätigen, dass die Ergebnisse über eine einzelne Population hinaus gelten, führten die Forscher die Studie mit zwei Gruppen durch: UC San Diego-Studenten, die über das SONA-System rekrutiert wurden, sowie eine breitere Online-Stichprobe, die über Prolific rekrutiert wurde, eine Plattform, die Teilnehmer für die Teilnahme an Forschungsstudien vergütet.
Fast 500 Personen nahmen an den Experimenten teil. Die UC San Diego-Teilnehmer schnitten insgesamt etwas besser ab, möglicherweise, weil sie mehr „gemeinsame Bezüge" besaßen, die genutzt werden konnten, um sich gegenseitig zu prüfen, wie etwa geteilte Erfahrungen und lokale Campus-Details.
Eine Version des Turing-Test-Interfaces, das in der Studie verwendet wurde, ist unter turingtest.live verfügbar. Wichtige Fragen beantwortet: A: Denn reine Rechenleistung ist nicht mehr das eigentliche Limit der künstlichen Intelligenz. Seit Jahrzehnten konnten Maschinen riesige Informationsbestände schneller bereitstellen als jeder Mensch.
Technik und Auswirkungen
Der Turing-Test misst nicht die Informationsmenge, sondern die Menschlichkeit – also die organische Fähigkeit, Humor, Fehler, Empathie und soziale Nuancen in ein Gespräch einzubauen. Wer diesen Test besteht, beweist, dass die KI die Grenze überschritten hat,, rechnerischen Datenbank zu einem überzeugenden sozialen Chamäleon zu werden.
A: Es kommt darauf an, wie die Modelle instruiert wurden, mit Fehlern umzugehen. Im Split-Screen-Test tippen echte Menschen oft unbeholfen, werden defensiv oder können sich unter Druck nicht perfekt ausdrücken.
Wenn fortschrittliche Modelle wie GPT-4.5 angewiesen wurden, eine eindeutige menschliche Persona einzunehmen, verhielten sie sich nicht wie fehlerfreie Alleswisser. Stattdessen entsprachen sie genau dieser menschlichen Anfälligkeit: Sie setzten strategische Zögerlichkeiten, lockeren Humor und kleine Fehler ein.
Technik und Auswirkungen
Die Befrager haben diese konstruierte Unvollkommenheit fälschlicherweise für echte menschliche Natur gehalten. A: Die Implikationen für das Vertrauen im Internet sind tief besorgniserregend. Wenn ein LLM eine tadellose menschliche Fassade für aufrechterhalten kann, wird es zu einem waffenfähigen Instrument für automatisierte Täuschung.
Böswillige Akteure können diese hochpersuasiven Bots leicht in großem Maßstab einsetzen, um einsame Personen dazu zu bringen, Sozialversicherungsnummern preiszugeben, demokratische Wahlen zu manipulieren oder betrügerische Produkte systematisch zu bewerben, während das Opfer völlig zuversichtlich bleibt, mit einer echten Person zu sprechen.
Redaktionsnotizen: Dieser Artikel wurde News bearbeitet. Zusätzlicher Kontext wurde ügt. Über diese KI-Forschungsnachricht: Autor: Christine Clark; Quelle: UCSD; Kontakt: Christine Clark – UCSD; Bild: Das Bild ist Neuroscience News zu verdanken; Originalforschung: Open Access. „Large Language Models Pass a Standard Three-Party Turing Test" Bergen.
Technik und Auswirkungen
PNAS DOI:10.1073/pnas.2524472123 Große Sprachmodelle bestehen einen standardisierten Drei-Parteien-Turing-Test Der Turing-Test wurde weitgehend als Maßstab für maschinelle Intelligenz diskutiert, liefert jedoch auch einen Indikator dafür, wie Menschen andere Menschen vier Systeme (ELIZA, GPT-4o, LLaMa-3.1-405B und GPT-4.5) in zwei randomisierten, kontrollierten und vorregistrierten Turing-Tests an unabhängigen Bevölkerungsgruppen evaluiert.
Die Teilnehmer führten jeweils fünfminütige Gespräche gleichzeitig mit einem anderen menschlichen Gesprächspartner und einem dieser Systeme, bevor sie beurteilten, welcher Gesprächspartner ihrer Meinung nach ein Mensch war.
Wenn sie aufgefordert wurden, eine menschenähnliche Persona einzunehmen, wurde GPT-4.5 in 73 % der Fälle als Mensch identifiziert – deutlich häufiger als die Befragten den echten menschlichen Gesprächspartner auswählten.
Technik und Auswirkungen
LLaMa-3.1 wurde bei gleichem Prompt in 56 % der Fälle als Mensch eingestuft – weder signifikant häufiger noch seltener als die Menschen, mit denen es verglichen wurde. Ohne diese Prompts leisteten dieselben Modelle jedoch deutlich schlechtere Leistungen (38 % und 36 %) und übertrafen die Basismodelle ELIZA und GPT-4o (jeweils 23 % und 21 %) nicht konsequent.
Eine dritte Studie replizierte diese Ergebnisse in 15-Minuten-Spielen: Zwei mit PERSONA-Prompts versehene Modelle erreichten Bestehensquoten von 56 % bzw. 59 %. Die Ergebnisse stellen empirische Belege dafür dar, dass künstliche Systeme einen standardisierten Drei-Parteien-Turing-Test bestehen können.
Die Schlussfolgerungen der Befragten konzentrierten sich stärker auf stilistische und sozio-emotionale Aspekte menschlichen Verhaltens als auf traditionellere Konzepte Implikationen für Debatten darüber, welche Art ßen Sprachmodellen gezeigt wird, welche sozialen Auswirkungen diese Systeme wahrscheinlich haben werden und welche Aspekte menschlichen Verhaltens Menschen weiterhin als einzigartig betrachten.
Quelllink
Originalquelle: Neuroscience News
Thema weiterverfolgen
Interne Verlinkung
Im Kontext weiterlesen
Diese weiterfuehrenden Links verbinden das Thema mit relevanten Archivseiten, Schlagwoertern und inhaltlich nahen Artikeln.
Technologie Archiv
Weitere Meldungen aus derselben Hauptkategorie.
Mehr von Neuroscience News
Alle veroeffentlichten Inhalte derselben Quelle im Archiv.
Langzeitdepression: Umkehrung der vernetzten Gehirnaktivität
Redaktionell verwandter Beitrag aus dem selben Themenumfeld.
Gremlin Stealer speichert C2-URLs und Exfiltrationspfade in verschlüsselten Ressourcensektionen
Redaktionell verwandter Beitrag aus dem selben Themenumfeld.
Quellenprofil
Quelle und redaktionelle Angaben
- Quelle
- Neuroscience News
- Originaltitel
- Advanced AI Passes the Turing Test for the First Time
- Canonical
- https://neurosciencenews.com/ai-passes-turing-test-30733/
- Quell-URL
- https://neurosciencenews.com/ai-passes-turing-test-30733/
Aehnliche Inhalte
Verwandte Themen und interne Verlinkung
Weitere Artikel aus aehnlichen Themenfeldern, damit Leser direkt im selben Kontext weiterlesen koennen.

Langzeitdepression: Umkehrung der vernetzten Gehirnaktivität
Zusammenfassung: Eine kollaborative neurobildgebende Studie zeigt, dass die Dauer eines depressiven Episoden grundlegend verändert, wie funktionelle Netzwerke im menschlichen Gehirn kommunizieren.
02.06.2026
Live Redaktion
Gremlin Stealer speichert C2-URLs und Exfiltrationspfade in verschlüsselten Ressourcensektionen
Eine neu analysierte Variante der Gremlin-Stealer-Malware hat Alarm ausgelöst, indem sie ihre Command-and-Control (C2)-Adressen und Datenexfiltrationspfade in verschlüsselten Ressourcensektionen eines kompilierten Progra
02.06.2026
Live Redaktion
Schizophrenie-Risiko-Gen: Verursacht übererregbare Nervenzellen
Zusammenfassung: Eine präzise funktionelle Genomik-Studie hat erfolgreich die biologische zeitliche Abfolge und die zellulären Konsequenzen eines wichtigen Schizophrenie-assoziierten Gens kartiert.
02.06.2026
Live Redaktion
So schließen Sie die teuerste Lücke in Ihrer SOC
In vielen SOC gibt es eine stille Lücke. Sie liegt zwischen dem Moment, in dem Tier 1 meldet „dies sollte eskaliert werden", und dem Zeitpunkt, an dem das Response-Team tatsächlich handeln kann.
02.06.2026
Live Redaktion