Interesting EngineeringTechnologie

Google präsentiert DiffusionGemma: Textgenerierung viermal schneller

Google hat DiffusionGemma vorgestellt, ein neues experimentelles KI-Modell, das Text mittels Diffusion erzeugt, im Gegensatz zum autoregressiven Ansatz, der bei den meisten heutigen großen Sprachmodellen verwendet wird.

11. Juni 2026Neetika WalterLive Redaktion
Google's new DiffusionGemma model speeds up text generation by 4x

Kurzfassung

Warum das wichtig ist

Interesting EngineeringTechnologie
  • Google hat DiffusionGemma vorgestellt, ein neues experimentelles KI-Modell, das Text mittels Diffusion erzeugt, im Gegensatz zum autoregressiven Ansatz, der bei den meisten heutigen großen Sprachmodellen verwendet wird.
  • Google stellt DiffusionGemma vor: Textgenerierung bis zu viermal schneller Google hat DiffusionGemma vorgestellt, ein neues experimentelles KI-Modell, das Text mittels Diffusion-Verfahren erzeugt.
  • Dies markiert einen Abbruch vom herkömmlichen autoregressiven Ansatz, der bei den meisten aktuellen großen Sprachmodellen zum Standard gehört.

SvyTech-Check

Redaktionelle Einordnung

Eigene Kontextschicht

Kernpunkt

Google hat DiffusionGemma vorgestellt, ein neues experimentelles KI-Modell, das Text mittels Diffusion erzeugt, im Gegensatz zum autoregressiven Ansatz, der bei den meisten heutigen großen Sprachmodellen...

Warum relevant

Laut dem Unternehmen ermöglicht das Modell auf dedizierten Grafikkarten eine Textgenerierung, die bis zu viermal schneller ist, während es auf Consumer-Hardware läuft.

Einordnung

SvyTech ordnet die Meldung aus Interesting Engineering als Teil des Themenfelds Technologie ein und verweist auf den Originalartikel, damit Leser Fakten, Quelle und Kontext nachvollziehen koennen.

Laut dem Unternehmen ermöglicht das Modell auf dedizierten Grafikkarten eine Textgenerierung, die bis zu viermal schneller ist, während es auf Consumer-Hardware läuft. Die Technologie baut auf Googles Gemma-4-Familie sowie der Forschung zu Gemini Diffusion auf.

Im Gegensatz zu traditionellen Sprachmodellen, die Text sequenziell generieren, erstellt DiffusionGemma Textblöcke parallel und verfeinert diese anschließend. Dieser Ansatz soll Ausgabegeschwindigkeiten von über 1.000 Tokens pro Sekunde auf einer NVIDIA H100-GPU und mehr als 700 Tokens pro Sekunde auf einer NVIDIA GeForce RTX 5090 ermöglichen.

Google richtet DiffusionGemma primär an Entwickler, die an Anwendungen arbeiten, bei denen Geschwindigkeit eine kritische Rolle spielt. Dazu gehören interaktives Bearbeiten, schnelle Inhaltsiteration, Code-Ergänzung und andere Workflows, bei denen geringe Latenz wichtiger ist als die maximale Ausgabqualität.

Technik und Auswirkungen

Textbottlenecks durchbrechen Die meisten großen Sprachmodelle generieren Text sequenziell, indem sie ein Token nach dem anderen vorhersagen. Obwohl dieser Ansatz effektiv ist, kann er bei der Bedienung durch einen einzelnen Benutzer dazu führen, dass lokale Hardware ungenutzt bleibt. DiffusionGemma verfolgt einen anderen Weg.

Statt Text wort für Wort zu generieren, erstellt das Modell auf einmal einen Block von 256 Tokens und verfeinert diesen in mehreren Durchgängen wiederholt.

Google vergleicht diesen Prozess mit dem Übergang Druckerpresse: Anstatt auf die Generierung jedes einzelnen Tokens zu warten, bevor das nächste erzeugt wird, verarbeitet das Modell einen gesamten Textabschnitt gleichzeitig.

Technik und Auswirkungen

Das Unternehmen gibt an, dass dies die Engstelle verlagert und modernen GPUs ermöglicht, bei der lokalen Inferenz effizienter zu arbeiten. Eine weitere Schlüsselfunktion ist die bidirektionale Aufmerksamkeit. Da das Modell Text parallel generiert, kann jedes Token während der Generierung auf jedes andere Token zugreifen.

Dies macht das Modell besser geeignet für Aufgaben, bei denen der zukünftige Kontext eine Rolle spielt, wie etwa Code-Vervollständigung, Inline-Editierung, mathematische Strukturen und biologische Sequenzen. Google zeigte eine Demonstration vor, bei der DiffusionGemma für das Lösen ätseln nachtrainiert wurde.

Eine solche Aufgabe kann für herkömmliche autoregressive Modelle herausfordernd sein, da spätere Tokens frühere Entscheidungen beeinflussen können. Für lokale KI konzipiert Das Modell nutzt eine Architektur mit 26 Milliarden Parametern im Mixture-of-Experts-Ansatz, aktiviert aber während des Inferenzvorgangs nur 3,8 Milliarden Parameter.

Technik und Auswirkungen

Laut Google ermöglicht dies, dass das Modell bei Quantisierung in etwa 18 GB VRAM Platz findet und somit auf High-End-Consumer-GPUs verfügbar ist. DiffusionGemma verfügt zudem über einen iterativen Selbstkorrekturmechanismus.

Da es während der Verfeinerung einen gesamten Textblock bewertet, kann es Fehler erkennen und beheben, während die Generierung fortschreitet. Google gab jedoch zu, dass das Modell Geschwindigkeit vor Qualität stellt.

Das Unternehmen erklärte, dass die Standardmodelle der Gemma-4-Familie weiterhin die bevorzugte Wahl für Produktionsumgebungen sind, in denen die Ausgabequalität im Vordergrund steht. Der Geschwindigkeitsvorteal zeigt sich insbesondere bei lokalen Bereitstellungen und in Umgebungen mit geringer Konfidenz.

Technischer Hintergrund

In Cloud-Szenarien, die viele Benutzer gleichzeitig bedienen, können konventionelle autoregressive Modelle die Hardware häufig effizienter durch Batching nutzen, wodurch die Vorteile der diffusionsbasierten Generierung reduziert werden.

Google hat DiffusionGemma unter einer Apache-2.0-Lizenz über Hugging Face veröffentlicht und unterstützt die Bereitstellung durch Tools wie MLX, vLLM, Hugging Face Transformers, NVIDIA NeMo und Unsloth. SvyTech-Einordnung Der Artikel beschreibt einen Paradigmenwechsel in der lokalen KI-Inferenz, bei dem die Architektur paralleler Blockverarbeitung wandelt.

Der Fokus liegt klar auf der Reduktion der Latenz für einzelne Nutzer auf Consumer-Hardware, was durch die Aktivierung nur eines Teils der Parameter (3,8 Milliarden von 26 Milliarden) und die Nutzung öglicht wird. Dies positioniert das Modell als Nischenlösung für interaktive Anwendungen, nicht als Ersatz für hochpräzise Produktionsmodelle.

Technik und Auswirkungen

Was Leser daraus mitnehmen Für Entwickler und Power-User, die KI lokal auf leistungsstarker Consumer-Hardware (wie RTX 5090) betreiben, bietet DiffusionGemma die Chance auf deutlich schnellere Interaktionen bei Code-Ergänzung oder Textbearbeitung, auch wenn die Genauigkeit gegenüber den Standard-Gemma-Modellen zurückgehen kann.

Für Cloud-Anbieter und Anwendungen, bei denen die absolute Textqualität und die Effizienz des Batching bei vielen gleichzeitigen Nutzern Priorität haben, bleiben die herkömmlichen autoregressiven Modelle die bessere Wahl.

Quelllink

Originalquelle: Interesting Engineering

Originalartikel oeffnen

Quellenprofil

Quelle und redaktionelle Angaben

Quelle
Interesting Engineering
Originaltitel
Google's new DiffusionGemma model speeds up text generation by 4x
Canonical
https://interestingengineering.com/ai-robotics/google-diffusiongemma-fast-text-generation
Quell-URL
https://interestingengineering.com/ai-robotics/google-diffusiongemma-fast-text-generation

Aehnliche Inhalte

Verwandte Themen und interne Verlinkung

Weitere Artikel aus aehnlichen Themenfeldern, damit Leser direkt im selben Kontext weiterlesen koennen.