• letzte Woche
Mit einem Trailer hat Google eine neue Version des KI-Assistenten Gemini vorgestellt. Gemini 2.0 soll noch komplexere Aufgaben erledigen können.

Gemini steht schon seit geraumer Zeit im Chrome-Browser und auf kompatiblen Smartphones zur Verfügung. Die Version 2.0 soll das bisher leistungsfähigstes Modell der KI darstellen und ist ab sofort in einer Flash-Version für Entwickler verfügbar.

Die Verbesserungen sind laut Google breitgefächert, besonders hervor gestellt werden aber multimodale Eingaben und multimodale Ausgaben. Gemini 2.0 kann also mehrere Eingaben wie Bilder, Videos und Audio gleichzeitig verarbeiten und auch ausgeben. 

Wenn alles nach Plan verläuft, soll Gemini 2.0 im Januar 2025 für alle verfügbar sein.
Transkript
00:00Gemini 2.0 ermöglicht neue Arten von multimodalen AI-Agenten – Agenten, die die Welt um Sie sehen und hören können.
00:07Denken, planen, erinnern – und treten auf.
00:31Gemini 2.0 ermöglicht Projekt ASTRA, unser Forschungsprototyp eines universellen AI-Agenten.
00:38Mit Fähigkeiten wie multimodaler Erinnerung und real-time-Information lässt es Sie Ihre Welt live verstehen.
00:45Was kannst du mir über die Skulptur erzählen?
00:47Die Skulptur, die Sie sehen, heißt My World and Your World von Eva Rothschild, die sich in Lewis Cupid Park in London befindet.
00:53Welche Themen erforscht sie?
00:55Sie erstellt abstrakte Skulpturen, die Zuschauer mit ihnen interagieren und ihre Umgebungen in neue Art und Weise interpretieren.
01:01Projekt ASTRA ist multilingual, mit nativem Audio, um die Sprache so gut wie möglich zu verändern, wie Sie sprechen.
01:07Kannst du mir etwas Interessantes erzählen über diese Lantern?
01:10Natürlich, ich kann Ihnen über Lantern sprechen.
01:12Die Lantern, die Sie sehen, sind Teil der Eingangsporte von Chinatown in London.
01:16Können Sie mir etwas anderes erzählen?
01:18Ja, Margaret, das ist der Lantern, der Chinatown-Revuel.
01:23Wir nehmen das jetzt zum nächsten Schritt mit Projekt Mariner, mit Agenten, die Tasken auf Ihrer Seite erledigen können.
01:31Du kannst sie fragen, Dinge wie das hier zu machen, die mehrere Schritte erfordern,
01:34durch Forschung den Künstler aufzusehen, dann die Skulptur zu finden und dann für die richtigen Zubehöre zu kaufen.
01:41Der Agent benutzt das Web, um Aktion zu nehmen und zu finden, wofür Sie suchen.
01:47Es hat Pläne und Gründe für jedes Schritt, immer in Ihrer Kontrolle zu bleiben und Ihre Taske zu erledigen.
01:54Gemini 2.0 ermöglicht Agenten, die über Domänen erweitert werden können.
01:59Wir erforschen Agenten, die virtuellen Welten erforschen können, um Sie in Videospielen zu unterstützen.
02:05Wo empfehlen Sie, dass ich an dieser Basis anstecke?
02:10Gegen den Basis-Layout empfehle ich, von unten oder links anzustecken.
02:14Diese Richtung ermöglicht Ihnen, den Stadtteil direkt mit Ihren Giganten zu zielen,
02:17während die Wizards die umliegenden Verteidigungen handeln können.
02:21Gemini 2.0 kann über das physische Weltleben reden,
02:24über 3D-spatiale Umgebungen und Objekte verstehen.
02:28Diese Fähigkeiten werden an Robotik angepasst,
02:31mit Agenten, die Ihnen in Ihrem täglichen physischen Umfeld unterstützen können.
02:39Lernt mehr über Gemini 2.0,
02:42wie es die nächste Generation von multimodalen AI-Agenten ermöglicht,
02:45auf deepmind.google.com.

Empfohlen