Google Gemini: Alles, was Sie über die generativen KI-Modelle wissen müssen

Google versucht, mit Gemini, seiner Flaggschiff-Suite aus generativen KI-Modellen, Apps und Diensten, Wellen zu schlagen. Aber was ist Gemini? Wie kann man es verwenden? Und wie schlägt es sich im Vergleich zu anderen generativen KI-Tools wie ChatGPT von OpenAI, Llama von Meta und Copilot von Microsoft?

Damit Sie die neuesten Entwicklungen bei Gemini leichter verfolgen können, haben wir diesen praktischen Leitfaden zusammengestellt, den wir ständig auf dem neuesten Stand halten, sobald neue Gemini-Modelle, Funktionen und Neuigkeiten zu den Plänen von Google für Gemini veröffentlicht werden.

Gemini ist Googles seit langem versprochene , generative KI-Modellfamilie der nächsten Generation. Sie wurde von Googles KI-Forschungslaboren DeepMind und Google Research entwickelt und ist in vier Varianten erhältlich:

Gemini Ultra , ein sehr großes Modell.
Gemini Pro , ein großes Modell – allerdings kleiner als Ultra. Die neueste Version, Gemini 2.0 Pro Experimental, ist Googles Flaggschiff.
Gemini Flash , eine schnellere, „destillierte“ Version von Pro. Es gibt auch eine etwas kleinere und schnellere Version namens Gemini Flash-Lite und eine Version mit Denkfähigkeiten namens Gemini Flash Thinking Experimental.
Gemini Nano , zwei kleine Modelle: Nano-1 und der etwas leistungsfähigere Nano-2 , der für den Offline-Betrieb gedacht ist

Alle Gemini-Modelle wurden darauf trainiert, von Haus aus multimodal zu sein – das heißt, sie können mehr als nur Text verarbeiten und analysieren. Laut Google wurden sie vorab auf eine Vielzahl öffentlicher, proprietärer und lizenzierter Audio-, Bild- und Videodateien, eine Reihe von Codebasen und Text in verschiedenen Sprachen trainiert und optimiert.

Dies unterscheidet Gemini von Modellen wie Googles eigenem LaMDA , das ausschließlich mit Textdaten trainiert wurde. LaMDA kann nichts anderes als Text verstehen oder generieren (z. B. Aufsätze, E-Mails usw.), aber das ist bei Gemini-Modellen nicht unbedingt der Fall.

Wir weisen hier darauf hin, dass die Ethik und Rechtmäßigkeit des Trainierens von Modellen mit öffentlichen Daten, in manchen Fällen ohne das Wissen oder die Zustimmung der Dateneigentümer, unklar sind. Google verfügt über eine KI-Haftungsfreistellungsrichtlinie , um bestimmte Google Cloud-Kunden vor Klagen zu schützen, falls sie mit solchen konfrontiert werden, aber diese Richtlinie enthält Ausnahmen. Gehen Sie mit Vorsicht vor – insbesondere, wenn Sie Gemini kommerziell nutzen möchten.

Gemini ist von den Gemini-Apps im Web und für Mobilgeräte ( ehemals Bard ) getrennt und unterscheidet sich davon.

Die Gemini-Apps sind Clients, die sich mit verschiedenen Gemini-Modellen verbinden und eine Chatbot-ähnliche Oberfläche darüber legen. Man kann sie sich als Frontends für Googles generative KI vorstellen, analog zu ChatGPT und der Claude-App-Familie von Anthropics.

Mobile Google Gemini-App — **Bildnachweis:** Google

Gemini im Web ist hier zu finden. Unter Android ersetzt die Gemini-App die vorhandene Google Assistant-App. Und unter iOS dienen die Google- und Google Search-Apps als Gemini-Clients dieser Plattform.

Unter Android ist es seit Kurzem auch möglich, das Gemini-Overlay über jeder App anzuzeigen, um Fragen zu dem zu stellen, was auf dem Bildschirm angezeigt wird (z. B. ein YouTube-Video). Drücken und halten Sie einfach die Einschalttaste eines unterstützten Smartphones oder sagen Sie „Hey Google“; das Overlay wird eingeblendet.

Gemini-Apps können Bilder sowie Sprachbefehle und Text akzeptieren – einschließlich Dateien wie PDFs und bald auch Videos, die entweder hochgeladen oder von Google Drive importiert wurden – und Bilder generieren. Wie zu erwarten, werden Konversationen mit Gemini-Apps auf Mobilgeräten auf Gemini im Web übertragen und umgekehrt, wenn Sie an beiden Orten mit demselben Google-Konto angemeldet sind.

Die Gemini-Apps sind nicht die einzige Möglichkeit, Gemini-Models als Unterstützung für Aufgaben zu gewinnen. Langsam aber sicher finden Gemini-Funktionen ihren Weg in grundlegende Google-Apps und -Dienste wie Gmail und Google Docs.

Um die meisten davon nutzen zu können, benötigen Sie den Google One AI Premium Plan. Technisch gesehen ist der AI Premium Plan Teil von Google One , kostet 20 US-Dollar und bietet Zugriff auf Gemini in Google Workspace-Apps wie Docs, Maps, Slides, Sheets, Drive und Meet. Er ermöglicht auch das, was Google Gemini Advanced nennt, wodurch die ausgefeilteren Gemini-Modelle des Unternehmens in die Gemini-Apps integriert werden.

Auch Gemini Advanced-Nutzer erhalten hier und da Extras, wie etwa vorrangigen Zugriff auf neue Funktionen, die Möglichkeit, Python-Code direkt in Gemini auszuführen und zu bearbeiten, und ein größeres „Kontextfenster“. Gemini Advanced kann sich den Inhalt von etwa 750.000 Wörtern in einem Gespräch (oder 1.500 Seiten Dokumente) merken und darüber nachdenken. Das ist im Vergleich zu den 24.000 Wörtern (oder 48 Seiten), die die Standard-Gemini-App verarbeiten kann.

Screenshot eines Google Gemini-Werbespots — **Bildnachweis:** Google

Mit Gemini Advanced erhalten Benutzer außerdem Zugriff auf die Funktion „Deep Research“ von Google, die „erweiterte Argumentation“ und „Fähigkeiten für lange Kontexte“ verwendet, um Forschungsberichte zu erstellen. Nachdem Sie den Chatbot aufgefordert haben, erstellt er einen mehrstufigen Forschungsplan, bittet Sie, diesen zu genehmigen, und dann benötigt Gemini einige Minuten, um das Internet zu durchsuchen und einen ausführlichen Bericht basierend auf Ihrer Anfrage zu erstellen. Es ist dazu gedacht, komplexere Fragen zu beantworten, wie etwa: „Können Sie mir helfen, meine Küche neu zu gestalten?“

Google bietet Gemini Advanced-Benutzern außerdem eine Speicherfunktion , mit der der Chatbot Ihre alten Gespräche mit Gemini als Kontext für Ihr aktuelles Gespräch verwenden kann. Gemini Advanced-Benutzer können außerdem NotebookLM verwenden, das Produkt des Unternehmens, das PDFs in KI-generierte Podcasts umwandelt.

Benutzer von Gemini Advanced erhalten außerdem Zugriff auf die experimentelle Version von Gemini 2.0 Pro von Google, dem Flaggschiffmodell des Unternehmens, das für schwierige Codierungs- und Mathematikprobleme optimiert ist.

Eine weitere Exklusivität von Gemini Advanced ist die Reiseplanung in der Google-Suche, die aus Eingabeaufforderungen benutzerdefinierte Reiserouten erstellt. Unter Berücksichtigung von Faktoren wie Flugzeiten (aus E-Mails im Gmail-Posteingang eines Benutzers), Essensvorlieben und Informationen zu lokalen Sehenswürdigkeiten (aus den Daten der Google-Suche und Maps) sowie der Entfernungen zwischen diesen Sehenswürdigkeiten erstellt Gemini eine Reiseroute, die automatisch aktualisiert wird, um alle Änderungen widerzuspiegeln.

Gemini für alle Google-Dienste ist auch für Unternehmenskunden in zwei Tarifen verfügbar: Gemini Business (ein Add-on für Google Workspace) und Gemini Enterprise. Gemini Business kostet nur 6 US-Dollar pro Benutzer und Monat, während Gemini Enterprise – das Meeting-Notizen und übersetzte Untertitel sowie die Klassifizierung und Beschriftung von Dokumenten hinzufügt – im Allgemeinen teurer ist, aber der Preis richtet sich nach den Anforderungen eines Unternehmens. (Beide Tarife erfordern eine jährliche Verpflichtung.)

In Gmail befindet sich Gemini in einer Seitenleiste , in der Sie E-Mails schreiben und Nachrichten-Threads zusammenfassen können. Sie finden dieselbe Leiste auch in Docs, wo Sie damit Ihre Inhalte schreiben und verfeinern und neue Ideen entwickeln können. Gemini in Präsentationen generiert Folien und benutzerdefinierte Bilder. Und Gemini in Google Tabellen verfolgt und organisiert Daten und erstellt Tabellen und Formeln.

Der KI-Chatbot von Google ist seit Kurzem auch in Maps verfügbar . Dort kann Gemini Bewertungen zu Cafés zusammenfassen oder Empfehlungen dazu geben, wie man einen Tag in einer fremden Stadt verbringen kann.

Die Reichweite von Gemini erstreckt sich auch auf Drive, wo es Dateien und Ordner zusammenfassen und schnelle Fakten zu einem Projekt liefern kann. In Meet übersetzt Gemini Untertitel in zusätzliche Sprachen.

Gemini in Gmail — **Bildnachweis:** Google

Gemini ist seit Kurzem in Form eines KI-Schreibtools im Chrome-Browser von Google verfügbar . Sie können damit etwas völlig Neues schreiben oder vorhandene Texte umschreiben. Google sagt, dass es die Webseite, auf der Sie sich befinden, berücksichtigt, um Empfehlungen auszusprechen.

Hinweise auf Gemini finden Sie auch in den Datenbankprodukten , Cloud-Sicherheitstools und App-Entwicklungsplattformen von Google (einschließlich Firebase und Project IDX ) sowie in Apps wie Google Photos (wo Gemini Suchanfragen in natürlicher Sprache verarbeitet), YouTube (wo es beim Brainstorming von Videoideen hilft) und dem Notizassistenten NotebookLM .

Code Assist (ehemals Duet AI for Developers ), Googles Suite von KI-gestützten Hilfstools zur Codevervollständigung und -generierung, verlagert schwere Rechenarbeit auf Gemini. Dasselbe gilt für Googles Sicherheitsprodukte, die auf Gemini basieren , wie etwa Gemini in Threat Intelligence, das große Teile potenziell bösartigen Codes analysieren und Benutzern die Suche in natürlicher Sprache nach aktuellen Bedrohungen oder Anzeichen für eine Gefährdung ermöglichen kann.

Gemini Advanced-Benutzer können Gems erstellen , benutzerdefinierte Chatbots, die auf Gemini-Modellen basieren. Gems können aus Beschreibungen in natürlicher Sprache generiert werden – zum Beispiel „Du bist mein Lauftrainer. Gib mir einen täglichen Laufplan“ – und mit anderen geteilt oder privat gehalten werden.

Gems sind auf Desktop- und Mobilgeräten in 150 Ländern und den meisten Sprachen verfügbar . Mit der Zeit können sie auf eine erweiterte Anzahl von Integrationen mit Google-Diensten zurückgreifen, darunter Google Kalender, Tasks, Keep und YouTube Music, um benutzerdefinierte Aufgaben zu erledigen.

Gemini-Edelsteine — **Bildnachweis:** Google

Apropos Integrationen: Die Gemini-Apps im Web und auf Mobilgeräten können über sogenannte „Gemini-Erweiterungen“ auf Google-Dienste zugreifen. Gemini ist heute in Google Drive, Gmail und YouTube integriert, um auf Anfragen wie „Könnten Sie meine letzten drei E-Mails zusammenfassen?“ zu antworten. Später in diesem Jahr wird Gemini zusätzliche Aktionen mit Google Kalender, Keep, Tasks, YouTube Music und Utilities ausführen können, den Android-exklusiven Apps, die Gerätefunktionen wie Timer und Alarme, Mediensteuerung, Taschenlampe, Lautstärke, WLAN, Bluetooth usw. steuern.

Ein Erlebnis namens Gemini Live ermöglicht Benutzern „ausführliche“ Sprachchats mit Gemini. Es ist in den Gemini-Apps auf Mobilgeräten und den Pixel Buds Pro 2 verfügbar und kann auch dann darauf zugegriffen werden, wenn Ihr Telefon gesperrt ist.

Wenn Gemini Live aktiviert ist, können Sie Gemini unterbrechen, während der Chatbot spricht (in einer von mehreren neuen Stimmen), um eine klärende Frage zu stellen, und er passt sich in Echtzeit an Ihre Sprechmuster an. Irgendwann soll Gemini visuelles Verständnis erlangen, sodass er Ihre Umgebung sehen und darauf reagieren kann, entweder über Fotos oder Videos, die von den Kameras Ihrer Smartphones aufgenommen wurden.

Zwillinge Live — **Bildnachweis:** Google

Live ist auch als eine Art virtueller Coach konzipiert, der Ihnen beim Proben für Veranstaltungen, beim Brainstorming von Ideen usw. hilft. Live kann Ihnen beispielsweise vorschlagen, welche Fähigkeiten Sie bei einem bevorstehenden Vorstellungsgespräch für eine Stelle oder ein Praktikum hervorheben sollten, und es kann Ihnen Ratschläge zum öffentlichen Reden geben.

Unseren Testbericht zu Gemini Live können Sie hier lesen. Spoiler-Alarm: Wir glauben, dass es noch ein weiter Weg ist, bis die Funktion wirklich nützlich ist – aber zugegebenermaßen ist es noch zu früh.

Gemini-Benutzer können mit dem integrierten Imagen 3- Modell von Google Kunstwerke und Bilder erstellen.

Google sagt, dass Imagen 3 die Texteingaben, die es in Bilder übersetzt, im Vergleich zu seinem Vorgänger Imagen 2 genauer verstehen kann und in seinen Generationen „kreativer und detaillierter“ ist. Darüber hinaus erzeugt das Modell weniger Artefakte und visuelle Fehler (zumindest laut Google) und ist das bisher beste Imagen-Modell zum Rendern von Text.

Google Imagen 3 — Ein Beispiel aus Bild 3. **Bildnachweis:** Google

Bereits im Februar 2024 war Google gezwungen, die Möglichkeit von Gemini, Bilder von Personen zu generieren, zu unterbrechen , nachdem sich Nutzer über historische Ungenauigkeiten beschwert hatten. Doch im August führte das Unternehmen die Generierung von Personen für bestimmte Nutzer wieder ein, insbesondere für englischsprachige Nutzer, die im Rahmen eines Pilotprogramms einen der kostenpflichtigen Gemini-Pläne von Google (z. B. Gemini Advanced ) abonniert hatten.

Im Juni führte Google ein auf Teenager ausgerichtetes Gemini-Erlebnis ein, bei dem sich Schüler über ihre Google Workspace for Education-Schulkonten anmelden können.

Das auf Teenager ausgerichtete Gemini verfügt über „zusätzliche Richtlinien und Sicherheitsvorkehrungen“, darunter einen maßgeschneiderten Onboarding-Prozess und einen „Leitfaden zur KI-Kompetenz“, um (wie Google es formuliert) „Teenagern zu helfen, KI verantwortungsvoll zu nutzen“. Ansonsten ist es fast identisch mit dem Standard-Gemini-Erlebnis, bis hin zur „Doppelcheck“-Funktion, die das Internet durchsucht, um festzustellen, ob die Antworten von Gemini korrekt sind.

Immer mehr von Google hergestellte Geräte nutzen Gemini für erweiterte Funktionen, vom Google TV Streamer über Pixel 9 und 9 Pro bis hin zum neuesten Nest Learning Thermostat .

Beim Google TV Streamer verwendet Gemini Ihre Präferenzen, um Inhaltsvorschläge für Ihre gesamten Abonnements zu kuratieren und Rezensionen und sogar ganze Fernsehstaffeln zusammenzufassen.

Google TV Streamer einrichten — **Bildnachweis:** Google

Auf dem neuesten Nest-Thermostat (sowie auf Nest-Lautsprechern, -Kameras und -Smart-Displays) wird Gemini bald die Konversations- und Analysefunktionen des Google Assistant erweitern.

Abonnenten des Nest Aware -Plans von Google erhalten später in diesem Jahr eine Vorschau auf neue Gemini-gestützte Erfahrungen wie KI-Beschreibungen für Nest-Kameraaufnahmen, Videosuche in natürlicher Sprache und empfohlene Automatisierungen. Nest-Kameras verstehen, was in Echtzeit-Video-Feeds passiert (z. B. wenn ein Hund im Garten gräbt), während die zugehörige Google Home-App Videos anzeigt und Geräteautomatisierungen mit einer Beschreibung erstellt (z. B. „Haben die Kinder ihre Fahrräder in der Einfahrt stehen lassen?“, „Mein Nest-Thermostat soll die Heizung jeden Dienstag einschalten, wenn ich von der Arbeit nach Hause komme“).

Google Gemini im Smart Home — Gemini wird bald in der Lage sein, Überwachungskameraaufnahmen von Nest-Geräten zusammenzufassen. **Bildnachweis:** Google

Außerdem wird Google Assistant später in diesem Jahr auf Nest- und anderen Smart-Home-Geräten einige Upgrades erhalten, damit sich Gespräche natürlicher anfühlen. Verbesserte Stimmen sind auf dem Weg, zusätzlich zur Möglichkeit, Folgefragen zu stellen und „[einfacher] hin und her zu wechseln“.

Da Gemini-Modelle multimodal sind, können sie eine Reihe multimodaler Aufgaben ausführen, von der Transkription von Sprache bis zur Untertitelung von Bildern und Videos in Echtzeit. Viele dieser Funktionen haben die Produktphase erreicht (wie im vorherigen Abschnitt angedeutet), und Google verspricht in nicht allzu ferner Zukunft noch viel mehr.

Natürlich ist es ein bisschen schwierig, das Unternehmen beim Wort zu nehmen. Google hat bei der ursprünglichen Einführung von Bard deutlich zu wenig versprochen . Vor kurzem hat es mit einem Video, das angeblich die Fähigkeiten von Gemini zeigen sollte, für Aufregung gesorgt, das mehr oder weniger ehrgeizig war – und nicht live.

Außerdem bietet Google keine Lösung für einige der grundlegenden Probleme der heutigen generativen KI-Technologie, wie etwa ihre kodierten Vorurteile und ihre Tendenz, Dinge zu erfinden (also zu halluzinieren ). Auch seine Konkurrenten tun das nicht, aber das ist etwas, das man im Hinterkopf behalten sollte, wenn man erwägt, Gemini zu verwenden oder dafür zu bezahlen.

Gehen wir für die Zwecke dieses Artikels davon aus, dass Google mit seinen jüngsten Behauptungen ehrlich ist. Hier erfahren Sie, was die verschiedenen Stufen von Gemini jetzt können und was sie können werden, wenn sie ihr volles Potenzial erreicht haben:

Google sagt, dass Gemini Ultra – dank seiner Multimodalität – als Hilfestellung beispielsweise bei Physik-Hausaufgaben, beim schrittweisen Lösen von Problemen auf einem Arbeitsblatt und beim Aufzeigen möglicher Fehler in bereits ausgefüllten Antworten verwendet werden kann.

Von Gemini Ultra haben wir in den letzten Monaten allerdings nicht viel gesehen. Das Modell erscheint nicht in der Gemini-App und ist nicht auf der API-Preisseite von Google Gemini aufgeführt. Das bedeutet jedoch nicht, dass Google Gemini Ultra in Zukunft nicht wieder in den Vordergrund seines Angebots rücken wird.

Laut Google kann Ultra auch für Aufgaben wie die Identifizierung wissenschaftlicher Arbeiten eingesetzt werden, die für ein Problem relevant sind. Das Modell kann beispielsweise Informationen aus mehreren Arbeiten extrahieren und ein Diagramm aus einer Arbeit aktualisieren, indem es die erforderlichen Formeln generiert, um das Diagramm mit aktuelleren Daten neu zu erstellen.

Gemini Ultra unterstützt technisch gesehen die Bildgenerierung. Diese Funktion hat jedoch noch nicht den Weg in die Produktversion des Modells gefunden – möglicherweise, weil der Mechanismus komplexer ist als die Art und Weise, wie Apps wie ChatGPT Bilder generieren. Anstatt Eingabeaufforderungen an einen Bildgenerator (wie DALL-E 3 im Fall von ChatGPT) zu senden, gibt Gemini Bilder „nativ“ aus, ohne einen Zwischenschritt.

Ultra ist als API über Vertex AI, Googles vollständig verwaltete KI-Entwicklungsplattform, und AI Studio, Googles webbasiertes Tool für App- und Plattformentwickler, verfügbar.

Google sagt, dass sein neuestes Pro-Modell, Gemini 2.0 Pro , das bisher beste Modell in Bezug auf Codierungsleistung und komplexe Eingabeaufforderungen ist. Es ist derzeit als experimentelle Version verfügbar, was bedeutet, dass es unerwartete Probleme geben kann.

Gemini 2.0 Pro übertrifft seinen Vorgänger Gemini 1.5 Pro in Benchmarks für Codierung, Argumentation, Mathematik und sachliche Genauigkeit. Das Modell kann bis zu 1,4 Millionen Wörter, zwei Stunden Video oder 22 Stunden Audio verarbeiten und ( mehr oder weniger ) über diese Daten hinweg argumentieren oder Fragen dazu beantworten.

Gemini 1.5 Pro unterstützt jedoch weiterhin die Deep Research-Funktion von Google.

Gemini 2.0 Pro arbeitet mit einer Funktion namens Code Execution zusammen, die im Juni zusammen mit Gemini 1.5 Pro veröffentlicht wurde und darauf abzielt, Fehler im Code zu reduzieren, den das Modell generiert, indem dieser Code iterativ über mehrere Schritte hinweg verfeinert wird. (Code Execution unterstützt auch Gemini Flash.)

Innerhalb von Vertex AI können Entwickler Gemini Pro über einen Feinabstimmungs- oder „Grounding“-Prozess an bestimmte Kontexte und Anwendungsfälle anpassen. Beispielsweise kann Pro (zusammen mit anderen Gemini-Modellen) angewiesen werden, Daten von Drittanbietern wie Moody's, Thomson Reuters, ZoomInfo und MSCI zu verwenden oder Informationen aus Unternehmensdatensätzen oder Google Search zu beziehen, anstatt aus seiner umfassenderen Wissensdatenbank. Gemini Pro kann auch mit externen APIs von Drittanbietern verbunden werden, um bestimmte Aktionen auszuführen, beispielsweise die Automatisierung eines Backoffice-Workflows.

AI Studio bietet Vorlagen zum Erstellen strukturierter Chat-Eingabeaufforderungen mit Pro. Entwickler können den kreativen Spielraum des Modells steuern und Beispiele bereitstellen, um Anweisungen zu Ton und Stil zu geben – und außerdem die Sicherheitseinstellungen von Pro anpassen.

Mit Vertex AI Agent Builder können Benutzer Gemini-basierte „Agenten“ innerhalb von Vertex AI erstellen. Ein Unternehmen könnte beispielsweise einen Agenten erstellen, der frühere Marketingkampagnen analysiert, um den Stil einer Marke zu verstehen und dieses Wissen dann anzuwenden, um neue Ideen zu entwickeln, die mit diesem Stil vereinbar sind.

Google bezeichnet Gemini 2.0 Flash als sein KI-Modell für das Agentenzeitalter. Das Modell kann neben Text auch Bilder und Audiodaten nativ generieren, Tools wie die Google-Suche verwenden und mit externen APIs interagieren.

Das 2.0-Flash-Modell ist schneller als die vorherige Modellgeneration von Gemini und übertrifft sogar einige der größeren Gemini 1.5-Modelle bei Benchmarks zur Messung von Codierung und Bildanalyse. Sie können Gemini 2.0 Flash in der Gemini-Web- oder Mobil-App und über die KI-Entwicklerplattformen von Google ausprobieren.

Im Dezember veröffentlichte Google eine „denkende“ Version von Gemini 2.0 Flash , die zum „Argumentieren“ fähig ist. Dabei benötigt das KI-Modell einige Sekunden, um ein Problem rückwärts zu durcharbeiten, bevor es eine Antwort präsentiert.

Im Februar machte Google die Flash-Technologie Gemini 2.0 in der Gemini-App verfügbar. Im selben Monat veröffentlichte Google auch eine kleinere Version namens Gemini 2.0 Flash-Lite. Das Unternehmen sagt, dieses Modell sei besser als das Flash-Modell Gemini 1.5, laufe aber zum gleichen Preis und mit der gleichen Geschwindigkeit.

Flash ist ein kleiner und effizienter Ableger von Gemini Pro, der für enge, hochfrequente generative KI-Workloads entwickelt wurde. Wie Gemini Pro ist es multimodal, d. h. es kann Audio, Video, Bilder und Text analysieren (aber nur Text generieren). Laut Google eignet sich Flash besonders gut für Aufgaben wie Zusammenfassungen und Chat-Apps sowie Bild- und Videobeschriftungen und Datenextraktion aus langen Dokumenten und Tabellen.

Entwickler, die Flash und Pro verwenden, können optional Kontext-Caching nutzen, wodurch sie große Mengen an Informationen (z. B. eine Wissensdatenbank oder eine Datenbank mit Forschungsarbeiten) in einem Cache speichern können, auf den Gemini-Modelle schnell und relativ kostengünstig zugreifen können. Für das Kontext-Caching fällt jedoch eine zusätzliche Gebühr zu den anderen Nutzungsgebühren für Gemini-Modelle an.

Gemini Nano ist eine viel kleinere Version der Modelle Gemini Pro und Ultra und effizient genug, um direkt auf (einigen) Geräten ausgeführt zu werden, anstatt die Aufgabe an einen Server irgendwo zu senden. Bisher unterstützt Nano einige Funktionen auf Pixel 8 Pro, Pixel 8 , Pixel 9 Pro, Pixel 9 und Samsung Galaxy S24 , darunter Summarize in Recorder und Smart Reply in Gboard.

Die Recorder-App, mit der Benutzer per Knopfdruck Audio aufnehmen und transkribieren können, enthält eine von Gemini unterstützte Zusammenfassung aufgezeichneter Gespräche, Interviews, Präsentationen und anderer Audioausschnitte. Benutzer erhalten Zusammenfassungen, auch wenn sie kein Signal oder keine WLAN-Verbindung haben – und aus Datenschutzgründen verlassen während der Verarbeitung keine Daten ihr Telefon.

Nano ist auch in Gboard enthalten, dem Tastaturersatz von Google. Dort unterstützt es eine Funktion namens Smart Reply, die dabei hilft, das nächste vorzuschlagen, was Sie sagen möchten, wenn Sie eine Unterhaltung in einer Messaging-App wie WhatsApp führen.

In der Google Messages-App auf unterstützten Geräten steuert Nano Magic Compose, mit dem Nachrichten in Stilen wie „aufgeregt“, „formell“ und „lyrisch“ erstellt werden können.

Google sagt, dass eine zukünftige Version von Android Nano nutzen wird, um Benutzer während eines Anrufs vor möglichen Betrügereien zu warnen. Die neue Wetter-App auf Pixel-Telefonen verwendet Gemini Nano, um maßgeschneiderte Wetterberichte zu erstellen. Und TalkBack, Googles Bedienungshilfedienst, verwendet Nano, um akustische Beschreibungen von Objekten für sehbehinderte und blinde Benutzer zu erstellen .

Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash und 2.0 Flash-Lite sind über Googles Gemini API zum Erstellen von Apps und Diensten verfügbar – alle mit kostenlosen Optionen. Die kostenlosen Optionen unterliegen jedoch Nutzungsbeschränkungen und lassen bestimmte Funktionen wie Kontext-Caching und Batching aus.

Bei Gemini-Modellen handelt es sich ansonsten um Pay-as-you-go-Modelle. Hier sind die Grundpreise – ohne Add-ons wie Kontext-Caching – ab September 2024:

Gemini 1.5 Pro: 1,25 $ pro 1 Million Eingabetoken (für Eingabeaufforderungen bis zu 128.000 Token) oder 2,50 $ pro 1 Million Eingabetoken (für Eingabeaufforderungen mit mehr als 128.000 Token); 5 $ pro 1 Million Ausgabetoken (für Eingabeaufforderungen bis zu 128.000 Token) oder 10 $ pro 1 Million Ausgabetoken (für Eingabeaufforderungen mit mehr als 128.000 Token)
Gemini 1.5 Flash: 7,5 Cent pro 1 Million Eingabetoken (für Eingabeaufforderungen bis zu 128.000 Token), 15 Cent pro 1 Million Eingabetoken (für Eingabeaufforderungen mit mehr als 128.000 Token), 30 Cent pro 1 Million Ausgabetoken (für Eingabeaufforderungen bis zu 128.000 Token), 60 Cent pro 1 Million Ausgabetoken (für Eingabeaufforderungen mit mehr als 128.000 Token)
Gemini 2.0 Flash: 10 Cent pro 1 Million Eingabetoken, 40 Cent pro 1 Million Ausgabetoken. Speziell für Audio kostet es 70 Cent pro 1 Million Eingabetoken und 40 Cent pro 1 Million Ausgabetoken.
Gemini 2.0 Flash-Lite: 7,5 Cent pro 1 Million Eingabetoken, 30 Cent pro 1 Million Ausgabetoken.

Token sind unterteilte Rohdaten, wie die Silben „fan“, „tas“ und „tic“ im Wort „fantastic“; 1 Million Token entsprechen etwa 700.000 Wörtern. Input bezieht sich auf Token, die in das Modell eingespeist werden, während Output sich auf Token bezieht, die das Modell generiert.

Die Preise für 2.0 Pro müssen noch bekannt gegeben werden und Nano befindet sich noch im Early Access .

Project Astra ist der Versuch von Google DeepMind, KI-gestützte Apps und „Agenten“ für multimodales Verständnis in Echtzeit zu entwickeln. In Demos hat Google gezeigt, wie das KI-Modell gleichzeitig Live-Video und -Audio verarbeiten kann. Google hat im Dezember eine App-Version von Project Astra für eine kleine Anzahl vertrauenswürdiger Tester veröffentlicht, plant derzeit jedoch keine breitere Veröffentlichung.

Das Unternehmen möchte Project Astra in eine Smartbrille integrieren . Google hat im Dezember auch einigen vertrauenswürdigen Testern einen Prototyp einer Brille mit Project Astra und Augmented-Reality-Funktionen zur Verfügung gestellt. Derzeit gibt es jedoch noch kein klares Produkt und es ist unklar, wann Google tatsächlich so etwas veröffentlichen würde.

Das Projekt Astra ist noch immer nur ein Projekt und kein Produkt. Die Demos von Astra zeigen jedoch, was Google in Zukunft mit seinen KI-Produkten erreichen möchte.

Das könnte sein.

Apple hat angekündigt, dass es Gespräche führt, um Gemini und andere Modelle von Drittanbietern für eine Reihe von Funktionen in seiner Apple Intelligence Suite einzusetzen. Nach einer Keynote-Präsentation auf der WWDC 2024 bestätigte Apples SVP Craig Federighi Pläne, mit Modellen wie Gemini zu arbeiten , gab jedoch keine weiteren Details preis.

Dieser Beitrag wurde ursprünglich am 16. Februar 2024 veröffentlicht und wird regelmäßig aktualisiert.

techcrunch