OpenAI startet GPT-Realtime-2 für intelligentere Live-Stimmeninteraktionen
OpenAI hat über seine API drei neue Audio-Modelle eingeführt und damit Ausbau seiner Echtzeit-Stimme-KI für Entwickler vorangetrieben.

Video
Im Original eingebettet
Kurzfassung
Warum das wichtig ist
- OpenAI hat über seine API drei neue Audio-Modelle eingeführt und damit Ausbau seiner Echtzeit-Stimme-KI für Entwickler vorangetrieben.
- Die Einführung umfasst GPT-Realtime-2, GPT-Realtime-Translate und GPT-Realtime-Whisper, die jeweils einen anderen Bereich der Live-Stimmeninteraktion adressieren.
- Das Unternehmen erklärte, die neuen Modelle sollen Sprachsoftware in alltäglichen Situationen nützlicher machen.
OpenAI rahmte die Einführung als Teil eines breiteren Wandels der Computer-Schnittstellen ein: „Sprache wird zu einer der natürlichsten Möglichkeiten für Menschen, Software zu nutzen", so das Unternehmen. Intelligente Sprachinteraktionen GPT-Realtime-2 fungiert als Flaggschiff-Modell dieser Veröffentlichung. OpenAI beschreibt es als sein erstes Sprachmodell mit Schlussfolgerungsfähigkeiten auf GPT-5-Niveau.
Das System kann anspruchsvollere Anfragen verarbeiten, Unterbrechungen managen und Gespräche natürlich fortsetzen. Zudem unterstützt das Modell die Live-Nutzung können der KI während des Gesprächs mit Nutzern Zugriff auf Kalender, Suchsysteme oder andere Tools gewähren. OpenAI gab an, dass das Modell diese Aktionen in Echtzeit mit Formulierungen wie „Ihre Kalenderdaten prüfen" oder „das suche ich gerade nach" erklären kann.
Zudem hat OpenAI das Kontextfenster des Modells von 32K auf 128K erweitert. Dies ermöglicht längere Gespräche und komplexere Aufgaben, ohne dass Kontext verloren geht. Das Unternehmen erklärte, dass GPT-Realtime-2 bei Fehlern deutlich robuster reagiert. Zudem versteht es branchenspezifische Terminologie besser, einschließlich medizinischer Fachbegriffe und Eigennamen.
Leistung und Energieausbeute
OpenAI teilte Benchmark-Verbesserungen im Zusammenhang mit der Live-Stimme-Leistung mit: GPT-Realtime-2 (high) erzielte im Big Bench Audio-Test 15,2 % bessere Ergebnisse als GPT-Realtime-1.5. Die xhigh-Variante verbesserte die Befolgschaftsquote um 13,8 % in den Audio MultiChallenge-Tests. Die neuen Audiomodelle als direkten Konkurrenten zu Googles Gemini Live.
Dennoch hebt sich Letzteres weiterhin durch schnelle Reaktionszeiten und umfassendere Sprachunterstützung hervor. Der Ansatz ärker auf die Natürlichkeit ächen in längeren Interaktionen zu konzentrieren. Die neuen Modelle können Unterbrechungen verarbeiten, während Anrufe Werkzeuge nutzen und, wie das Unternehmen angibt, „dem Sprecher ".
Live-Übersetzungsfeatures: OpenAI hat zudem GPT-Realtime-Translate eingeführt, ein Modell für Echtzeitübersetzungen, das für mehrsprachige Gespräche konzipiert ist. Das Modell überspricht Sprache aus mehr als 70 Eingabesprachen in 13 Zielsprachen, während es dem Sprecher folgt. OpenAI positioniert das Modell für Kundensupport, Reisen und mehrsprachige Kommunikationssysteme.

Das Unternehmen verweist auf bereits
Das Unternehmen verweist auf bereits in Entwicklung befindliche Beispiele. Die Deutsche Telekom baut Sprachunterstützungstools, die Kunden ermöglichen, in ihrer bevorzugten Sprache zu sprechen, während die KI Gespräche in Echtzeit übersetzt. Erweiterung: Die dritte Veröffentlichung, GPT-Realtime-Whisper, konzentriert sich auf die Live-Transkription.
Das Modell wandelt Sprache während des Sprechens in Text um und unterstützt damit Streaming-Anwendungen für die Spracherkennung. OpenAI erklärte, dass das übergeordnete Ziel darin besteht, über einfache Sprachassistenten hinauszuwachsen und Systeme zu entwickeln, die während ächen aktiv Aufgaben erledigen können.
So entwickelt Zillow beispielsweise einen Sprachassistenten, der Wohnungen suchen, Präferenzen filtern und Besichtigungen planen kann – allein auf Basis gesprochener Anfragen. OpenAI betonte, dass solche Modelle Echtzeit-Audiosysteme näher an Agenten heranführen, die „hören, schlussfolgern, übersetzen, transkribieren und während eines Gesprächs handeln" können.
Thema weiterverfolgen
Interne Verlinkung
Im Kontext weiterlesen
Diese weiterfuehrenden Links verbinden das Thema mit relevanten Archivseiten, Schlagwoertern und inhaltlich nahen Artikeln.
Technologie Archiv
Weitere Meldungen aus derselben Hauptkategorie.
Mehr von Interesting Engineering
Alle veroeffentlichten Inhalte derselben Quelle im Archiv.
Session Studio tauscht Creature-Trades-Skateboards gegen Krallen in Werewolf: The Apocalypse – Rageborn, dem Action-Abenteuer von 2027
Redaktionell verwandter Beitrag aus dem selben Themenumfeld.
Japan liefert 1,7 Tonnen HALEU-Brennstoff für US-Reaktoren
Redaktionell verwandter Beitrag aus dem selben Themenumfeld.
Quellenprofil
Quelle und redaktionelle Angaben
- Quelle
- Interesting Engineering
- Originaltitel
- OpenAI launches GPT-Realtime-2 for smarter live voice AI interactions
- Canonical
- https://interestingengineering.com/ai-robotics/openai-gpt-realtime-2-voice-ai-models
- Quell-URL
- https://interestingengineering.com/ai-robotics/openai-gpt-realtime-2-voice-ai-models
Aehnliche Inhalte
Verwandte Themen und interne Verlinkung
Weitere Artikel aus aehnlichen Themenfeldern, damit Leser direkt im selben Kontext weiterlesen koennen.

Session Studio tauscht Creature-Trades-Skateboards gegen Krallen in Werewolf: The Apocalypse – Rageborn, dem Action-Abenteuer von 2027
In einer Zeit Umbruchs für Verlag präsentierte Nacon heute seine Nacon Connect 2026-Präsentation, Enthüllungen bereits veröffentlichter Titel für neue Plattformen, neue Zubehörartikel
07.05.2026
Live RedaktionJapan liefert 1,7 Tonnen HALEU-Brennstoff für US-Reaktoren
Die Vereinigten Staaten haben 1,7 metrische Tonnen hochangereicherten, aber niedrig angereicherten Uran (HALEU) Japan erhalten, Beamte als die größte einzelne internationale Uranlieferung in Geschichte der
07.05.2026
Live Redaktion
Valve führt Warteschlange für Steam-Controller ein, um nach enttäuschendem Starttag Scalper zu entgegentreten
Der Start des neuen Steam Controllers (2026) verlief fr Unternehmen erfolgreich, da eine groe Anzahl Controllern verkauft wurde.
07.05.2026
Live Redaktion
Cyanide Studio rettet Dracula: The Disciple – das gottische Puzzle-Abenteuer 2027, falls Insolvenz abgewendet wird
Während Nacon Connect 2026-Events wurde Cyanide Studios' nächstes Spiel nach Styx: Blades Greed, das bereits earlier this year veröffentlicht wurde, enthüllt.
07.05.2026
Live Redaktion