Google präsentiert DiffusionGemma: Textgenerierung viermal schneller
Google hat DiffusionGemma vorgestellt, ein neues experimentelles KI-Modell, das Text mittels Diffusion erzeugt, im Gegensatz zum autoregressiven Ansatz, der bei den meisten heutigen großen Sprachmodellen verwendet wird.

Kurzfassung
Warum das wichtig ist
- Google hat DiffusionGemma vorgestellt, ein neues experimentelles KI-Modell, das Text mittels Diffusion erzeugt, im Gegensatz zum autoregressiven Ansatz, der bei den meisten heutigen großen Sprachmodellen verwendet wird.
- Google stellt DiffusionGemma vor: Textgenerierung bis zu viermal schneller Google hat DiffusionGemma vorgestellt, ein neues experimentelles KI-Modell, das Text mittels Diffusion-Verfahren erzeugt.
- Dies markiert einen Abbruch vom herkömmlichen autoregressiven Ansatz, der bei den meisten aktuellen großen Sprachmodellen zum Standard gehört.
SvyTech-Check
Redaktionelle Einordnung
Kernpunkt
Google hat DiffusionGemma vorgestellt, ein neues experimentelles KI-Modell, das Text mittels Diffusion erzeugt, im Gegensatz zum autoregressiven Ansatz, der bei den meisten heutigen großen Sprachmodellen...
Warum relevant
Laut dem Unternehmen ermöglicht das Modell auf dedizierten Grafikkarten eine Textgenerierung, die bis zu viermal schneller ist, während es auf Consumer-Hardware läuft.
Einordnung
SvyTech ordnet die Meldung aus Interesting Engineering als Teil des Themenfelds Technologie ein und verweist auf den Originalartikel, damit Leser Fakten, Quelle und Kontext nachvollziehen koennen.
Laut dem Unternehmen ermöglicht das Modell auf dedizierten Grafikkarten eine Textgenerierung, die bis zu viermal schneller ist, während es auf Consumer-Hardware läuft. Die Technologie baut auf Googles Gemma-4-Familie sowie der Forschung zu Gemini Diffusion auf.
Im Gegensatz zu traditionellen Sprachmodellen, die Text sequenziell generieren, erstellt DiffusionGemma Textblöcke parallel und verfeinert diese anschließend. Dieser Ansatz soll Ausgabegeschwindigkeiten von über 1.000 Tokens pro Sekunde auf einer NVIDIA H100-GPU und mehr als 700 Tokens pro Sekunde auf einer NVIDIA GeForce RTX 5090 ermöglichen.
Google richtet DiffusionGemma primär an Entwickler, die an Anwendungen arbeiten, bei denen Geschwindigkeit eine kritische Rolle spielt. Dazu gehören interaktives Bearbeiten, schnelle Inhaltsiteration, Code-Ergänzung und andere Workflows, bei denen geringe Latenz wichtiger ist als die maximale Ausgabqualität.
Technik und Auswirkungen
Textbottlenecks durchbrechen Die meisten großen Sprachmodelle generieren Text sequenziell, indem sie ein Token nach dem anderen vorhersagen. Obwohl dieser Ansatz effektiv ist, kann er bei der Bedienung durch einen einzelnen Benutzer dazu führen, dass lokale Hardware ungenutzt bleibt. DiffusionGemma verfolgt einen anderen Weg.
Statt Text wort für Wort zu generieren, erstellt das Modell auf einmal einen Block von 256 Tokens und verfeinert diesen in mehreren Durchgängen wiederholt.
Google vergleicht diesen Prozess mit dem Übergang Druckerpresse: Anstatt auf die Generierung jedes einzelnen Tokens zu warten, bevor das nächste erzeugt wird, verarbeitet das Modell einen gesamten Textabschnitt gleichzeitig.
Technik und Auswirkungen
Das Unternehmen gibt an, dass dies die Engstelle verlagert und modernen GPUs ermöglicht, bei der lokalen Inferenz effizienter zu arbeiten. Eine weitere Schlüsselfunktion ist die bidirektionale Aufmerksamkeit. Da das Modell Text parallel generiert, kann jedes Token während der Generierung auf jedes andere Token zugreifen.
Dies macht das Modell besser geeignet für Aufgaben, bei denen der zukünftige Kontext eine Rolle spielt, wie etwa Code-Vervollständigung, Inline-Editierung, mathematische Strukturen und biologische Sequenzen. Google zeigte eine Demonstration vor, bei der DiffusionGemma für das Lösen ätseln nachtrainiert wurde.
Eine solche Aufgabe kann für herkömmliche autoregressive Modelle herausfordernd sein, da spätere Tokens frühere Entscheidungen beeinflussen können. Für lokale KI konzipiert Das Modell nutzt eine Architektur mit 26 Milliarden Parametern im Mixture-of-Experts-Ansatz, aktiviert aber während des Inferenzvorgangs nur 3,8 Milliarden Parameter.
Technik und Auswirkungen
Laut Google ermöglicht dies, dass das Modell bei Quantisierung in etwa 18 GB VRAM Platz findet und somit auf High-End-Consumer-GPUs verfügbar ist. DiffusionGemma verfügt zudem über einen iterativen Selbstkorrekturmechanismus.
Da es während der Verfeinerung einen gesamten Textblock bewertet, kann es Fehler erkennen und beheben, während die Generierung fortschreitet. Google gab jedoch zu, dass das Modell Geschwindigkeit vor Qualität stellt.
Das Unternehmen erklärte, dass die Standardmodelle der Gemma-4-Familie weiterhin die bevorzugte Wahl für Produktionsumgebungen sind, in denen die Ausgabequalität im Vordergrund steht. Der Geschwindigkeitsvorteal zeigt sich insbesondere bei lokalen Bereitstellungen und in Umgebungen mit geringer Konfidenz.
Technischer Hintergrund
In Cloud-Szenarien, die viele Benutzer gleichzeitig bedienen, können konventionelle autoregressive Modelle die Hardware häufig effizienter durch Batching nutzen, wodurch die Vorteile der diffusionsbasierten Generierung reduziert werden.
Google hat DiffusionGemma unter einer Apache-2.0-Lizenz über Hugging Face veröffentlicht und unterstützt die Bereitstellung durch Tools wie MLX, vLLM, Hugging Face Transformers, NVIDIA NeMo und Unsloth. SvyTech-Einordnung Der Artikel beschreibt einen Paradigmenwechsel in der lokalen KI-Inferenz, bei dem die Architektur paralleler Blockverarbeitung wandelt.
Der Fokus liegt klar auf der Reduktion der Latenz für einzelne Nutzer auf Consumer-Hardware, was durch die Aktivierung nur eines Teils der Parameter (3,8 Milliarden von 26 Milliarden) und die Nutzung öglicht wird. Dies positioniert das Modell als Nischenlösung für interaktive Anwendungen, nicht als Ersatz für hochpräzise Produktionsmodelle.
Technik und Auswirkungen
Was Leser daraus mitnehmen Für Entwickler und Power-User, die KI lokal auf leistungsstarker Consumer-Hardware (wie RTX 5090) betreiben, bietet DiffusionGemma die Chance auf deutlich schnellere Interaktionen bei Code-Ergänzung oder Textbearbeitung, auch wenn die Genauigkeit gegenüber den Standard-Gemma-Modellen zurückgehen kann.
Für Cloud-Anbieter und Anwendungen, bei denen die absolute Textqualität und die Effizienz des Batching bei vielen gleichzeitigen Nutzern Priorität haben, bleiben die herkömmlichen autoregressiven Modelle die bessere Wahl.
Quelllink
Originalquelle: Interesting Engineering
Thema weiterverfolgen
Interne Verlinkung
Im Kontext weiterlesen
Diese weiterfuehrenden Links verbinden das Thema mit relevanten Archivseiten, Schlagwoertern und inhaltlich nahen Artikeln.
Technologie Archiv
Weitere Meldungen aus derselben Hauptkategorie.
Mehr von Interesting Engineering
Alle veroeffentlichten Inhalte derselben Quelle im Archiv.
US-Unternehmen steigert Produktion von Turbojet-Triebwerken für Drohnenmunition
Redaktionell verwandter Beitrag aus dem selben Themenumfeld.
Deutschland entwickelt mobiles Luftabwehrsystem der nächsten Generation für geschützte Truppenbewegungen
Redaktionell verwandter Beitrag aus dem selben Themenumfeld.
Quellenprofil
Quelle und redaktionelle Angaben
- Quelle
- Interesting Engineering
- Originaltitel
- Google's new DiffusionGemma model speeds up text generation by 4x
- Canonical
- https://interestingengineering.com/ai-robotics/google-diffusiongemma-fast-text-generation
- Quell-URL
- https://interestingengineering.com/ai-robotics/google-diffusiongemma-fast-text-generation
Aehnliche Inhalte
Verwandte Themen und interne Verlinkung
Weitere Artikel aus aehnlichen Themenfeldern, damit Leser direkt im selben Kontext weiterlesen koennen.

US-Unternehmen steigert Produktion von Turbojet-Triebwerken für Drohnenmunition
Kratos Defense & Security Solutions erhöht die Produktionskapazität für seine Spartan-Familie kleiner Gasturbinenmotoren, um auf die gestiegene Beschaffungstätigkeit Raketenprogrammen und für Drohnenplattformen mit
11.06.2026
Live Redaktion
Deutschland entwickelt mobiles Luftabwehrsystem der nächsten Generation für geschützte Truppenbewegungen
Ein deutsches Unternehmen hat sein nächstes Generationssystem für hochmobile Luftverteidigung vorgestellt.
11.06.2026
Live Redaktion
Elder Scrolls VI: Xbox-Chef Matt Booty gibt acht Jahre nach erster Ankündigung endlich Status-Update
Bereits vor genau acht Jahren, bei der Bethesda-E3 2018, zeigte Todd Howard Teaser-Material für sowohl The Elder Scrolls VI als auch Starfield.
11.06.2026
Live Redaktion
US entwickelt System zur Analyse von Raketen- und Meteoritenzusammensetzung über Aufprallblitze
Forscher in den Vereinigten Staaten untersuchen Impulsschläge, die durch hochgeschwindigkeitskollisionen entstehen.
11.06.2026
Live Redaktion