Conferencia magistral de Google I/O 2024: Google DeepMind

Metatube

Actualizaciones de Google DeepMind desde Google I/O el 14 de mayo de 2024. Únase a Demis Hassabis, director ejecutivo de Google DeepMind, y Doug Eck, director senior de investigación, para obtener más información sobre Gemini 1.5 Flash, Project Astra, Imagen 3, Veo y más.

Transcript

00:00¡Gracias, Sundar! Es genial estar aquí. Desde que era niño, jugaba al ches para el equipo de ingenieros de Inglaterra.

00:09He estado pensando en la naturaleza de la inteligencia.

00:12Me capturé por la idea de un computador que podía pensar como una persona.

00:17En el momento en que empecé a estudiar en la universidad,

00:20en el momento en que empecé a estudiar en la universidad,

00:22en el momento en que empecé a estudiar en la universidad,

00:25me capturé por la idea de un computador que podía pensar como una persona.

00:30Es por eso que me convertí en un programador y estudié la neurociencia.

00:35Conocí a DeepMind en 2010 con el objetivo de construir un día AGI,

00:40Artificial General Intelligence, un sistema con capacidades cognitivas de nivel humano.

00:47Siempre he creído que si pudiéramos construir esta tecnología responsable,

00:51el impacto sería realmente profundo y podría beneficiar a la humanidad de formas increíbles.

00:57El año pasado, alcanzamos un milagro en ese camino cuando formamos Google DeepMind,

01:01combinando talentos de inteligencia artificial a través de la compañía en una sola superunidad.

01:06Desde entonces, hemos construido sistemas de inteligencia artificial que pueden hacer una gran variedad de cosas,

01:10desde convertir la lengua y la visión en acción para los robotes,

01:14navegando en ambientes 3D virtuales complejos,

01:17resolviendo problemas de matemáticas de nivel olímpico

01:20y incluso descubriendo miles de nuevos materiales.

01:24La semana pasada anunciamos nuestro modelo AlphaFold de generación siguiente.

01:28Puede predicar la estructura y las interacciones de casi todas las moléculas de la vida,

01:33incluyendo cómo las proteínas interaccionan con las estrellas de ADN y RNA.

01:37Esto acelerará la investigación biológica y médica vitalmente importante,

01:41desde la comprensión de enfermedades hasta la descoberta de drogas.

01:45Y todo esto se ha hecho posible con la mejor infraestructura para la era de la Inteligencia Artificial,

01:50incluyendo nuestros unidades de procesamiento tensor altamente optimizadas.

01:55Al centro de nuestros esfuerzos está nuestro modelo Gemini.

01:58Se ha construido desde el fondo para ser nativamente multimodal,

02:02porque así es como interactuamos y entendemos el mundo alrededor de nosotros.

02:06Hemos construido una variedad de modelos para diferentes casos de uso.

02:09Ustedes han visto qué poderoso es el Gemini 1.5 Pro,

02:12pero también sabemos desde el uso de los comentarios

02:15que algunas aplicaciones necesitan una baja latencia y un costo más bajo para servir.

02:19Así que hoy les presentamos el Gemini 1.5 Flash.

02:32El Flash es un modelo de peso más lento comparado al Pro.

02:35Está diseñado para ser rápido y costoso para servir a escala,

02:38mientras que todavía ofrece capacidades de entendimiento multimodal y contexto largo.

02:43El Flash es optimizado para tareas en las que la baja latencia y eficacia son los más importantes.

02:48A partir de hoy, pueden usar el Flash 1.5 y el 1.5 Pro

02:53con más de un millón de tokens en Google AI Studio y Vertex AI.

02:57Y los desarrolladores pueden asignarse para probar 2 millones de tokens.

03:01Estamos muy emocionados por ver qué es lo que todos crearán con él.

03:05Y escucharás un poco más sobre el Flash después de Josh.

03:10Estamos muy emocionados por el progreso que hemos hecho hasta ahora con nuestras familias de modelos Gemini.

03:14Pero siempre estamos tratando de empujar el arte real aún más.

03:19En cualquier momento, tenemos muchos modelos diferentes en entrenamiento

03:22y usamos nuestros modelos muy grandes y poderosos para ayudar a enseñar y entrenar

03:26nuestros modelos listos para la producción.

03:28Juntos con el feedback del usuario,

03:30esta investigación de la frontera va a ayudarnos a construir productos increíbles para billones de personas.

03:36Por ejemplo, en diciembre compartimos un vistazo hacia el futuro

03:40de cómo las personas interactuarían con la AI multimodal

03:43y cómo esto podría empoderar un nuevo conjunto de experiencias transformadoras.

03:49Hoy tenemos un progreso emocionante para compartir sobre el futuro de la asistencia AI

03:54que llamamos Proyecto Astra.

04:01Durante mucho tiempo, hemos querido construir un agente AI universal

04:05que pueda ser realmente útil en la vida diaria.

04:08Nuestro trabajo en hacer que esta visión de la realidad vuelva a muchos años.

04:12Es por eso que hicimos Gemini multimodal desde el principio.

04:16Un agente como este tiene que entender y responder a nuestro mundo complejo y dinámico,

04:20igual que nosotros.

04:22Necesitaría entrar y recordar lo que ve, para que pueda entender el contexto y tomar acción.

04:27Y tendría que ser proactivo, enseñable y personal,

04:31para que pueda hablar naturalmente, sin deslizamiento ni deslizamiento.

04:35A pesar de que hemos hecho grandes esfuerzos en desarrollar sistemas de AI

04:38que puedan entender la información multimodal,

04:40mantener el tiempo de respuesta a algo conversacional es un desafío de ingeniería difícil.

04:46Construyendo nuestro modelo Gemini,

04:48hemos desarrollado agentes que puedan procesar la información más rápido

04:51a través de encoder videos continuamente,

04:53combinando el contenido de video y de palabra en una línea de tiempos de eventos

04:57y recogiendo esto para un recuento eficiente.

05:00También hemos mejorado el sonido con un amplio rango de intonaciones.

05:05Estos agentes mejor entienden el contexto que están en

05:08y pueden responder rápidamente en la conversación,

05:10haciendo que el ritmo y la calidad de la interacción se sientan mucho más naturales.

05:14Aquí hay un video de nuestro prototipo, que veremos que tiene dos partes.

05:18Cada parte fue capturada en un solo recuento en tiempo real.

05:24Bien, hagamos algunos pruebas.

05:27Dime cuándo ves algo que hace sonido.

05:32Veo un micrófono que hace sonido.

05:36¿Cuál es el nombre de ese parte del micrófono?

05:40Ese es el tweeter. Produce sonidos de alta frecuencia.

05:48Dime una aliteración creativa sobre estos.

05:53Los crayones creativos coloran con alegría.

05:55Deberían crear creaciones coloradas.

06:02¿Qué hace esa parte del código?

06:07Este código define funciones de encripción y decripción.

06:11Parece usar encripción AESCBC para encoder y decoder datos

06:16basados en una clave y un vector de inicialización, IV.

06:25¿Qué barrio crees que estoy en?

06:29Este parece ser el área de la cruz del rey de Londres.

06:32Es conocido por su estación de tren y conexiones de transporte.

06:38¿Recuerdas dónde viste mis gafas?

06:41Sí, lo recuerdo.

06:42Tus gafas estaban en el desierto cerca de un apán rojo.

06:57¿Qué puedo agregar aquí para que el sistema sea más rápido?

07:03Agregar un cache entre el servidor y el databases podría mejorar la velocidad.

07:08¿Qué te recuerda a esto?

07:13A Schrodinger's Cat.

07:16Bien.

07:17Dame un nombre de banda para este duelo.

07:23Golden Stripes.

07:25Genial. Gracias, Gemini.

07:38Creo que estarás de acuerdo.

07:39Es increíble ver a qué punto ha llegado la Inteligencia Artificial.

07:42Especialmente cuando se trata de comprensión espacial,

07:45procesamiento de video y memoria.

07:48Es fácil envisitar tu futuro

07:50cuando puedes tener un asistente experto a tu lado

07:53a través de tu teléfono o nuevos factores de forma emocionantes como los gafas.

07:57Algunas de estas capacidades de agente

07:59vendrán a productos de Google, como la aplicación Gemini,

08:01más tarde este año.

08:03Para aquellos de ustedes que están en el sitio hoy,

08:05pueden probar una versión de este experimento en vivo

08:07en el área de sandbox de la Inteligencia Artificial.

08:17Siguientemente, veámos cómo nuestras innovaciones

08:20ayudan a la gente a traer nuevas ideas creativas a la vida.

08:24Hoy presentamos una serie de actualizaciones

08:26a través de nuestros herramientas de medios generativos

08:28con nuevos modelos que cubren imágenes, música y video.

08:32Durante el pasado año, hemos estado mejorando la calidad,

08:35mejorando la seguridad y aumentando el acceso.

08:38Para ayudar a contar esta historia, aquí está Doug.

08:52Gracias, Demis.

08:55Durante los últimos meses, hemos estado trabajando duro

08:57para construir un nuevo modelo de generación de imágenes

08:59desde el fondo.

09:00Con evaluaciones más fuertes,

09:02red de equipo extenso,

09:04y marcas de agua de forma de arte con ID Synth.

09:08Hoy, estoy muy emocionado por presentar Imagine 3.

09:12Es nuestro modelo de generación de imágenes más capaz.

09:16Imagine 3 es más fotorealístico.

09:18Puedes literalmente contar los huecos en su espalda.

09:21Con detalles más ricos, como esta increíble luz del sol en la foto,

09:25y menos artefactos visuales o imágenes distorsionadas.

09:28Comprueba las notas escritas de la manera que la gente escribe.

09:31Más creativo y detallado eres, mejor.

09:34Y Imagine 3 recuerda incorporar detalles pequeños,

09:37como las flores selvajes o el pequeño pájaro azul,

09:40en este más largo noto.

09:42Además, es nuestro mejor modelo para rendir texto,

09:45lo que ha sido un desafío para los modelos de generación de imágenes.

09:49En comparaciones de lado a lado,

09:51los evaluadores independientes prefirieron Imagine 3

09:54en comparación con otros modelos de generación de imágenes populares.

09:58En suma, Imagine 3 es nuestro modelo de generación de imágenes

10:01de mejor calidad hasta ahora.

10:03Puedes inscribirte hoy para probar Imagine 3 en ImageFX,

10:06parte de nuestra serie de herramientas de AI en labs.google.

10:10Y estará llegando pronto a los desarrolladores

10:12y a los clientes de Enterprise en Vertex AI.

10:16Otra zona llena de posibilidades creativas es la música generativa.

10:20He estado trabajando en este espacio por más de un año,

10:23y es por lo tanto el año más emocionante de mi carrera.

10:26Estamos explorando formas de trabajar con artistas

10:28para ampliar su creatividad con la AI.

10:31Juntos con YouTube, hemos estado construyendo

10:33Música AI Sandbox,

10:35una serie de herramientas profesionales de música AI

10:37que pueden crear nuevas secciones de instrumentos desde cero,

10:40transferir estilos entre tracos y más.

10:44Para ayudarnos a diseñar y probarlos,

10:46hemos estado trabajando con increíbles músicos,

10:48escritores de canciones y productores.

10:50Algunos de ellos incluso crearon canciones completamente nuevas

10:52de manera que no hubieran sido posibles sin estas herramientas.

10:56Escuchemos a algunos de los artistas con los que hemos estado trabajando.

11:04Voy a poner esto de vuelta en la herramienta Música AI.

11:10¿Qué sucede si Haití se encuentra con Brasil?

11:13Tío, no tengo ni idea de lo que va a ser distribuido.

11:17Y esto es lo que me emociona.

11:23Como productor de hip-hop,

11:24nos metemos en las tiendas.

11:26Jugamos estos vinilos,

11:27y la parte en la que no hay voz,

11:29lo sacamos, lo muestramos,

11:31y creamos una canción completa alrededor de eso.

11:34Entonces, ahora mismo,

11:35nos metemos en una tienda infinita.

11:37Es inminente.

11:38Donde encontré la AI muy útil para mí,

11:40esta manera de rellenar

11:42los elementos más esparsos de mi vida,

11:45Vamos a probar.

11:46Bongos.

11:47Vamos a poner viola.

11:48Vamos a poner aplausos rítmicos.

11:51Y vamos a ver qué sucede.

11:54Y hace que suene,

11:55irónicamente,

11:56al final del día, un poco más humano.

11:58Entonces, esto es totalmente

12:00loops de Google.

12:02Estos son gloops.

12:07Es como tener un amigo extraño

12:09que te dice,

12:10prueba esto.

12:11Prueba eso.

12:12Y entonces eres como,

12:13oh, bien, sí,

12:14eso es bastante genial.

12:22Las herramientas son capaces

12:24de acelerar el proceso

12:26de lo que está en mi cabeza,

12:27de sacarlo.

12:28Puedes mover a velocidad ligera

12:30con tu creatividad.

12:32Esto es increíble.

12:33¿Está bien ahí?

12:42Creo que esto realmente muestra

12:43lo posible cuando trabajamos

12:44con la comunidad de artistas

12:45en el futuro de la música.

12:47Puedes encontrar

12:48algunas canciones nuevas

12:49de estos artistas y cantantes

12:50reclamados

12:51en sus canales de YouTube ahora.

12:54Hay un área más

12:55que estoy muy emocionado

12:56de compartir con ti.

12:57Nuestros equipos han hecho

12:58un progreso increíble

12:59en el video genético.

13:01Hoy, estoy emocionado

13:02de anunciar

13:03nuestro modelo de video genético

13:04más capaz y más nuevo

13:05llamado Veo.

13:07Veo es un modelo

13:08de video genético

13:09más capaz y más nuevo

13:10llamado Veo.

13:16Veo crea

13:17videos de 1080p de calidad alta

13:19de texto, imágenes

13:20y promesas de video.

13:22Puede capturar

13:23los detalles de tus instrucciones

13:24en diferentes estilos

13:25visuales y cinemáticos.

13:27Puedes promover cosas

13:28como fotos aéreas

13:29de un paisaje

13:30o una lapisa de tiempo

13:31y editar más

13:32tus videos usando

13:33promesas adicionales.

13:34Puedes usar Veo

13:35en nuestro nuevo

13:36herramienta experimental

13:37llamado VideoFX.

13:38Estamos explorando

13:39herramientas como

13:40gestión de historias

13:41y generación

13:42de escenas más largas.

13:43Veo te da

13:44control creativo

13:45sin precedentes.

13:47Las técnicas

13:48para generar

13:49imágenes estáticas

13:50han llegado a largo plazo,

13:51pero generar video

13:52es un desafío

13:53diferente en sí mismo.

13:55No solo es importante

13:56entender

13:57dónde debe estar

13:58un objeto o un sujeto

13:59en el espacio,

14:00sino que debe mantener

14:01esta consistencia

14:02con el tiempo,

14:03igual que el auto

14:04en este video.

14:06Veo crea

14:07desde hace años

14:08nuestro proyecto

14:09de video generativo

14:10pionero,

14:11incluyendo

14:12GQN,

14:13Fanaki,

14:14Walt,

14:15Videopoet,

14:16Lumière

14:17y mucho más.

14:18Combinamos las mejores

14:19de estas arquitecturas

14:20y técnicas

14:21para mejorar

14:22la consistencia,

14:23la calidad

14:24y la resolución

14:25de la salida.

14:26Para ver qué puede hacer

14:27Veo,

14:28lo colocamos

14:29en las manos

14:30de un increíble

14:31cinematógrafo.

14:32Veámoslo.

14:33Bueno,

14:34he estado interesado

14:35en la inteligencia

14:36de Google

14:37desde hace un año

14:38y hemos tenido contacto

14:39con algunas de las personas

14:40de Google

14:41y han estado trabajando

14:42en algo de su propio.

14:43Así que estamos todos

14:44reunidos aquí

14:45en Google Farms

14:46para hacer un corto.

14:47La tecnología

14:48principal

14:49es el modelo

14:50de video generativo

14:51de Google DeepMind

14:52que ha sido entrenado

14:53para convertir

14:54texto de entrada

14:55en video de salida.

14:56Se ve bien.

14:57Podemos

14:58traer ideas a la vida

14:59que no serían

15:00posible.

15:01Podemos visualizar

15:02cosas

15:03a una escala de tiempo

15:04que es 10 o 100 veces

15:05más rápido

15:06que antes.

15:07Cuando estás filmando

15:08no puedes reiterar

15:09tanto como quieras

15:10y hemos estado

15:11escuchando ese feedback

15:12que permite

15:13más opcionalidad,

15:14más iteración,

15:15más improvisación.

15:16Pero eso es

15:17lo que es genial

15:18es que puedes

15:19hacer un error más rápido.

15:20Eso es todo

15:21que realmente quieres

15:22al final del día.

15:23Al menos en arte

15:24es solo

15:25hacer errores rápido.

15:26Así que usando

15:27las capacidades multimodales

15:28de Gemini

15:29para optimizar

15:30el proceso de entrenamiento

15:31del modelo,

15:32Veo es capaz

15:33de capturar mejor

15:34las técnicas

15:35y los efectos visuales

15:36dándote

15:37total control

15:38creativo.

15:39Todo el mundo

15:40se va a convertir en

15:41un director

15:42y todo el mundo

15:43debería ser un director.

15:44Porque en el centro

15:45de todo esto

15:46es la historia.

15:47Más cerca estamos

15:48de poder contar

15:49nuestras historias

15:50a los demás,

15:51más entenderemos

15:52a los demás.

15:53Estos modelos

15:54nos permiten

15:55ser más creativos

15:56y compartir

15:57esa creatividad

15:58con los demás.

16:05En las próximas semanas,

16:06algunas de estas funciones

16:07estarán disponibles

16:08para seleccionar

16:09a los creadores

16:10a través de Video Effects

16:11en labs.google

16:12y la lista de espera

16:13está abierta ahora.

16:14Por supuesto,

16:15estos avances

16:16en la generación de video

16:17van más allá

16:18de los hermosos visuales

16:19que han visto hoy.

16:20Al enseñar

16:21a los modelos AI

16:22futuros

16:23cómo resolver problemas

16:24creativamente

16:25o, en efecto,

16:26simular

16:27la física

16:28y la tecnología

16:29de los modelos

16:30de los modelos

16:31de los modelos

16:32artificiales

16:33y, en efecto,

16:34simular la física

16:35de nuestro mundo,

16:36podemos construir

16:37sistemas más útiles

16:38que pueden ayudar

16:39a las personas

16:40a comunicarse

16:41de manera nueva

16:42y, por lo tanto,

16:43avanzar

16:44las fronteras

16:45de la AI.

16:46Cuando empezamos

16:47esta aventura

16:48para construir la AI

16:49más de 15 años atrás,

16:50sabíamos que un día

16:51cambiaría todo.

16:52Ahora ese tiempo

16:53está aquí

16:54y seguimos

16:55sorprendidos

16:56por el progreso

16:57que vemos

16:58y inspirados

16:59por los avances

17:00que aún vienen

17:01en la carretera

17:02de la tecnología

17:03de los modelos

17:04de los modelos

17:05de los modelos

17:06de los modelos

17:07de los modelos

17:08de los modelos

17:09de los modelos

17:10de los modelos

17:11de los modelos

17:12de los modelos

17:13de los modelos

17:14de los modelos

17:15de los modelos

17:16de los modelos

17:17de los modelos

17:18de los modelos

17:19de los modelos

17:20de los modelos

17:21de los modelos

17:22de los modelos

17:23de los modelos

17:24de los modelos

17:25de los modelos

17:26de los modelos

17:27de los modelos

17:28de los modelos

17:29de los modelos

17:30de los modelos

Category

Transcripción

Recomendada