Interesting EngineeringTechnologie

OpenAI startet GPT-Realtime-2 für intelligentere Live-Stimmeninteraktionen

OpenAI hat über seine API drei neue Audio-Modelle eingeführt und damit Ausbau seiner Echtzeit-Stimme-KI für Entwickler vorangetrieben.

7. Mai 2026Aamir KhollamLive Redaktion
OpenAI startet GPT-Realtime-2 für intelligentere Live-Stimmeninteraktionen

Video

Im Original eingebettet

YouTube
Video aus dem Originalartikel. Wenn der Player nicht lädt, kann es an YouTube-Datenschutz- oder Browser-Einstellungen liegen.

Kurzfassung

Warum das wichtig ist

Interesting EngineeringTechnologie
  • OpenAI hat über seine API drei neue Audio-Modelle eingeführt und damit Ausbau seiner Echtzeit-Stimme-KI für Entwickler vorangetrieben.
  • Die Einführung umfasst GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper, die jeweils einen anderen Bereich der Live-Stimmeninteraktion adressieren.
  • Das Unternehmen erklärte, die neuen Modelle sollen Sprachsoftware in alltäglichen Situationen nützlicher machen.

OpenAI rahmte die Einführung als Teil eines breiteren Wandels der Computer-Schnittstellen ein: „Sprache wird zu einer der natürlichsten Möglichkeiten für Menschen, Software zu nutzen", so das Unternehmen. Intelligente Sprachinteraktionen GPT-Realtime-2 fungiert als Flaggschiff-Modell dieser Veröffentlichung. OpenAI beschreibt es als sein erstes Sprachmodell mit Schlussfolgerungsfähigkeiten auf GPT-5-Niveau.

Das System kann anspruchsvollere Anfragen verarbeiten, Unterbrechungen managen und Gespräche natürlich fortsetzen. Zudem unterstützt das Modell die Live-Nutzung können der KI während des Gesprächs mit Nutzern Zugriff auf Kalender, Suchsysteme oder andere Tools gewähren. OpenAI gab an, dass das Modell diese Aktionen in Echtzeit mit Formulierungen wie „Ihre Kalenderdaten prüfen" oder „das suche ich gerade nach" erklären kann.

Zudem hat OpenAI das Kontextfenster des Modells von 32K auf 128K erweitert. Dies ermöglicht längere Gespräche und komplexere Aufgaben, ohne dass Kontext verloren geht. Das Unternehmen erklärte, dass GPT-Realtime-2 bei Fehlern deutlich robuster reagiert. Zudem versteht es branchenspezifische Terminologie besser, einschließlich medizinischer Fachbegriffe und Eigennamen.

OpenAI launches GPT-Realtime-2 for smarter live voice AI interactions
OpenAI launches GPT-Realtime-2 for smarter live voice AI interactions

Leistung und Energieausbeute

OpenAI teilte Benchmark-Verbesserungen im Zusammenhang mit der Live-Stimme-Leistung mit: GPT-Realtime-2 (high) erzielte im Big Bench Audio-Test 15,2 % bessere Ergebnisse als GPT-Realtime-1.5. Die xhigh-Variante verbesserte die Befolgschaftsquote um 13,8 % in den Audio MultiChallenge-Tests. Die neuen Audiomodelle als direkten Konkurrenten zu Googles Gemini Live.

Dennoch hebt sich Letzteres weiterhin durch schnelle Reaktionszeiten und umfassendere Sprachunterstützung hervor. Der Ansatz ärker auf die Natürlichkeit ächen in längeren Interaktionen zu konzentrieren. Die neuen Modelle können Unterbrechungen verarbeiten, während Anrufe Werkzeuge nutzen und, wie das Unternehmen angibt, „dem Sprecher ".

Live-Übersetzungsfeatures: OpenAI hat zudem GPT-Realtime-Translate eingeführt, ein Modell für Echtzeitübersetzungen, das für mehrsprachige Gespräche konzipiert ist. Das Modell überspricht Sprache aus mehr als 70 Eingabesprachen in 13 Zielsprachen, während es dem Sprecher folgt. OpenAI positioniert das Modell für Kundensupport, Reisen und mehrsprachige Kommunikationssysteme.

OpenAI startet GPT-Realtime-2 für intelligentere Live-Stimmeninteraktionen
OpenAI startet GPT-Realtime-2 für intelligentere Live-Stimmeninteraktionen

Das Unternehmen verweist auf bereits

Das Unternehmen verweist auf bereits in Entwicklung befindliche Beispiele. Die Deutsche Telekom baut Sprachunterstützungstools, die Kunden ermöglichen, in ihrer bevorzugten Sprache zu sprechen, während die KI Gespräche in Echtzeit übersetzt. Erweiterung: Die dritte Veröffentlichung, GPT-Realtime-Whisper, konzentriert sich auf die Live-Transkription.

Das Modell wandelt Sprache während des Sprechens in Text um und unterstützt damit Streaming-Anwendungen für die Spracherkennung. OpenAI erklärte, dass das übergeordnete Ziel darin besteht, über einfache Sprachassistenten hinauszuwachsen und Systeme zu entwickeln, die während ächen aktiv Aufgaben erledigen können.

So entwickelt Zillow beispielsweise einen Sprachassistenten, der Wohnungen suchen, Präferenzen filtern und Besichtigungen planen kann – allein auf Basis gesprochener Anfragen. OpenAI betonte, dass solche Modelle Echtzeit-Audiosysteme näher an Agenten heranführen, die „hören, schlussfolgern, übersetzen, transkribieren und während eines Gesprächs handeln" können.

Quellenprofil

Quelle und redaktionelle Angaben

Quelle
Interesting Engineering
Originaltitel
OpenAI launches GPT-Realtime-2 for smarter live voice AI interactions
Canonical
https://interestingengineering.com/ai-robotics/openai-gpt-realtime-2-voice-ai-models
Quell-URL
https://interestingengineering.com/ai-robotics/openai-gpt-realtime-2-voice-ai-models

Aehnliche Inhalte

Verwandte Themen und interne Verlinkung

Weitere Artikel aus aehnlichen Themenfeldern, damit Leser direkt im selben Kontext weiterlesen koennen.

Japan liefert 1,7 Tonnen HALEU-Brennstoff für US-Reaktoren
StudieTechnologie

Japan liefert 1,7 Tonnen HALEU-Brennstoff für US-Reaktoren

Die Vereinigten Staaten haben 1,7 metrische Tonnen hochangereicherten, aber niedrig angereicherten Uran (HALEU) Japan erhalten, Beamte als die größte einzelne internationale Uranlieferung in Geschichte der

07.05.2026

Live Redaktion