Conferencia magistral de Google I/O 2024: Google DeepMind

  • la semana pasada
Actualizaciones de Google DeepMind desde Google I/O el 14 de mayo de 2024. Únase a Demis Hassabis, director ejecutivo de Google DeepMind, y Doug Eck, director senior de investigación, para obtener más información sobre Gemini 1.5 Flash, Project Astra, Imagen 3, Veo y más.

Category

🗞
Noticias
Transcripción
00:00¡Gracias, Sundar! Es genial estar aquí. Desde que era niño, jugaba al ches para el equipo de ingenieros de Inglaterra.
00:09He estado pensando en la naturaleza de la inteligencia.
00:12Me capturé por la idea de un computador que podía pensar como una persona.
00:17En el momento en que empecé a estudiar en la universidad,
00:20en el momento en que empecé a estudiar en la universidad,
00:22en el momento en que empecé a estudiar en la universidad,
00:25me capturé por la idea de un computador que podía pensar como una persona.
00:30Es por eso que me convertí en un programador y estudié la neurociencia.
00:35Conocí a DeepMind en 2010 con el objetivo de construir un día AGI,
00:40Artificial General Intelligence, un sistema con capacidades cognitivas de nivel humano.
00:47Siempre he creído que si pudiéramos construir esta tecnología responsable,
00:51el impacto sería realmente profundo y podría beneficiar a la humanidad de formas increíbles.
00:57El año pasado, alcanzamos un milagro en ese camino cuando formamos Google DeepMind,
01:01combinando talentos de inteligencia artificial a través de la compañía en una sola superunidad.
01:06Desde entonces, hemos construido sistemas de inteligencia artificial que pueden hacer una gran variedad de cosas,
01:10desde convertir la lengua y la visión en acción para los robotes,
01:14navegando en ambientes 3D virtuales complejos,
01:17resolviendo problemas de matemáticas de nivel olímpico
01:20y incluso descubriendo miles de nuevos materiales.
01:24La semana pasada anunciamos nuestro modelo AlphaFold de generación siguiente.
01:28Puede predicar la estructura y las interacciones de casi todas las moléculas de la vida,
01:33incluyendo cómo las proteínas interaccionan con las estrellas de ADN y RNA.
01:37Esto acelerará la investigación biológica y médica vitalmente importante,
01:41desde la comprensión de enfermedades hasta la descoberta de drogas.
01:45Y todo esto se ha hecho posible con la mejor infraestructura para la era de la Inteligencia Artificial,
01:50incluyendo nuestros unidades de procesamiento tensor altamente optimizadas.
01:55Al centro de nuestros esfuerzos está nuestro modelo Gemini.
01:58Se ha construido desde el fondo para ser nativamente multimodal,
02:02porque así es como interactuamos y entendemos el mundo alrededor de nosotros.
02:06Hemos construido una variedad de modelos para diferentes casos de uso.
02:09Ustedes han visto qué poderoso es el Gemini 1.5 Pro,
02:12pero también sabemos desde el uso de los comentarios
02:15que algunas aplicaciones necesitan una baja latencia y un costo más bajo para servir.
02:19Así que hoy les presentamos el Gemini 1.5 Flash.
02:32El Flash es un modelo de peso más lento comparado al Pro.
02:35Está diseñado para ser rápido y costoso para servir a escala,
02:38mientras que todavía ofrece capacidades de entendimiento multimodal y contexto largo.
02:43El Flash es optimizado para tareas en las que la baja latencia y eficacia son los más importantes.
02:48A partir de hoy, pueden usar el Flash 1.5 y el 1.5 Pro
02:53con más de un millón de tokens en Google AI Studio y Vertex AI.
02:57Y los desarrolladores pueden asignarse para probar 2 millones de tokens.
03:01Estamos muy emocionados por ver qué es lo que todos crearán con él.
03:05Y escucharás un poco más sobre el Flash después de Josh.
03:10Estamos muy emocionados por el progreso que hemos hecho hasta ahora con nuestras familias de modelos Gemini.
03:14Pero siempre estamos tratando de empujar el arte real aún más.
03:19En cualquier momento, tenemos muchos modelos diferentes en entrenamiento
03:22y usamos nuestros modelos muy grandes y poderosos para ayudar a enseñar y entrenar
03:26nuestros modelos listos para la producción.
03:28Juntos con el feedback del usuario,
03:30esta investigación de la frontera va a ayudarnos a construir productos increíbles para billones de personas.
03:36Por ejemplo, en diciembre compartimos un vistazo hacia el futuro
03:40de cómo las personas interactuarían con la AI multimodal
03:43y cómo esto podría empoderar un nuevo conjunto de experiencias transformadoras.
03:49Hoy tenemos un progreso emocionante para compartir sobre el futuro de la asistencia AI
03:54que llamamos Proyecto Astra.
04:01Durante mucho tiempo, hemos querido construir un agente AI universal
04:05que pueda ser realmente útil en la vida diaria.
04:08Nuestro trabajo en hacer que esta visión de la realidad vuelva a muchos años.
04:12Es por eso que hicimos Gemini multimodal desde el principio.
04:16Un agente como este tiene que entender y responder a nuestro mundo complejo y dinámico,
04:20igual que nosotros.
04:22Necesitaría entrar y recordar lo que ve, para que pueda entender el contexto y tomar acción.
04:27Y tendría que ser proactivo, enseñable y personal,
04:31para que pueda hablar naturalmente, sin deslizamiento ni deslizamiento.
04:35A pesar de que hemos hecho grandes esfuerzos en desarrollar sistemas de AI
04:38que puedan entender la información multimodal,
04:40mantener el tiempo de respuesta a algo conversacional es un desafío de ingeniería difícil.
04:46Construyendo nuestro modelo Gemini,
04:48hemos desarrollado agentes que puedan procesar la información más rápido
04:51a través de encoder videos continuamente,
04:53combinando el contenido de video y de palabra en una línea de tiempos de eventos
04:57y recogiendo esto para un recuento eficiente.
05:00También hemos mejorado el sonido con un amplio rango de intonaciones.
05:05Estos agentes mejor entienden el contexto que están en
05:08y pueden responder rápidamente en la conversación,
05:10haciendo que el ritmo y la calidad de la interacción se sientan mucho más naturales.
05:14Aquí hay un video de nuestro prototipo, que veremos que tiene dos partes.
05:18Cada parte fue capturada en un solo recuento en tiempo real.
05:24Bien, hagamos algunos pruebas.
05:27Dime cuándo ves algo que hace sonido.
05:32Veo un micrófono que hace sonido.
05:36¿Cuál es el nombre de ese parte del micrófono?
05:40Ese es el tweeter. Produce sonidos de alta frecuencia.
05:48Dime una aliteración creativa sobre estos.
05:53Los crayones creativos coloran con alegría.
05:55Deberían crear creaciones coloradas.
06:02¿Qué hace esa parte del código?
06:07Este código define funciones de encripción y decripción.
06:11Parece usar encripción AESCBC para encoder y decoder datos
06:16basados en una clave y un vector de inicialización, IV.
06:25¿Qué barrio crees que estoy en?
06:29Este parece ser el área de la cruz del rey de Londres.
06:32Es conocido por su estación de tren y conexiones de transporte.
06:38¿Recuerdas dónde viste mis gafas?
06:41Sí, lo recuerdo.
06:42Tus gafas estaban en el desierto cerca de un apán rojo.
06:57¿Qué puedo agregar aquí para que el sistema sea más rápido?
07:03Agregar un cache entre el servidor y el databases podría mejorar la velocidad.
07:08¿Qué te recuerda a esto?
07:13A Schrodinger's Cat.
07:16Bien.
07:17Dame un nombre de banda para este duelo.
07:23Golden Stripes.
07:25Genial. Gracias, Gemini.
07:38Creo que estarás de acuerdo.
07:39Es increíble ver a qué punto ha llegado la Inteligencia Artificial.
07:42Especialmente cuando se trata de comprensión espacial,
07:45procesamiento de video y memoria.
07:48Es fácil envisitar tu futuro
07:50cuando puedes tener un asistente experto a tu lado
07:53a través de tu teléfono o nuevos factores de forma emocionantes como los gafas.
07:57Algunas de estas capacidades de agente
07:59vendrán a productos de Google, como la aplicación Gemini,
08:01más tarde este año.
08:03Para aquellos de ustedes que están en el sitio hoy,
08:05pueden probar una versión de este experimento en vivo
08:07en el área de sandbox de la Inteligencia Artificial.
08:17Siguientemente, veámos cómo nuestras innovaciones
08:20ayudan a la gente a traer nuevas ideas creativas a la vida.
08:24Hoy presentamos una serie de actualizaciones
08:26a través de nuestros herramientas de medios generativos
08:28con nuevos modelos que cubren imágenes, música y video.
08:32Durante el pasado año, hemos estado mejorando la calidad,
08:35mejorando la seguridad y aumentando el acceso.
08:38Para ayudar a contar esta historia, aquí está Doug.
08:52Gracias, Demis.
08:55Durante los últimos meses, hemos estado trabajando duro
08:57para construir un nuevo modelo de generación de imágenes
08:59desde el fondo.
09:00Con evaluaciones más fuertes,
09:02red de equipo extenso,
09:04y marcas de agua de forma de arte con ID Synth.
09:08Hoy, estoy muy emocionado por presentar Imagine 3.
09:12Es nuestro modelo de generación de imágenes más capaz.
09:16Imagine 3 es más fotorealístico.
09:18Puedes literalmente contar los huecos en su espalda.
09:21Con detalles más ricos, como esta increíble luz del sol en la foto,
09:25y menos artefactos visuales o imágenes distorsionadas.
09:28Comprueba las notas escritas de la manera que la gente escribe.
09:31Más creativo y detallado eres, mejor.
09:34Y Imagine 3 recuerda incorporar detalles pequeños,
09:37como las flores selvajes o el pequeño pájaro azul,
09:40en este más largo noto.
09:42Además, es nuestro mejor modelo para rendir texto,
09:45lo que ha sido un desafío para los modelos de generación de imágenes.
09:49En comparaciones de lado a lado,
09:51los evaluadores independientes prefirieron Imagine 3
09:54en comparación con otros modelos de generación de imágenes populares.
09:58En suma, Imagine 3 es nuestro modelo de generación de imágenes
10:01de mejor calidad hasta ahora.
10:03Puedes inscribirte hoy para probar Imagine 3 en ImageFX,
10:06parte de nuestra serie de herramientas de AI en labs.google.
10:10Y estará llegando pronto a los desarrolladores
10:12y a los clientes de Enterprise en Vertex AI.
10:16Otra zona llena de posibilidades creativas es la música generativa.
10:20He estado trabajando en este espacio por más de un año,
10:23y es por lo tanto el año más emocionante de mi carrera.
10:26Estamos explorando formas de trabajar con artistas
10:28para ampliar su creatividad con la AI.
10:31Juntos con YouTube, hemos estado construyendo
10:33Música AI Sandbox,
10:35una serie de herramientas profesionales de música AI
10:37que pueden crear nuevas secciones de instrumentos desde cero,
10:40transferir estilos entre tracos y más.
10:44Para ayudarnos a diseñar y probarlos,
10:46hemos estado trabajando con increíbles músicos,
10:48escritores de canciones y productores.
10:50Algunos de ellos incluso crearon canciones completamente nuevas
10:52de manera que no hubieran sido posibles sin estas herramientas.
10:56Escuchemos a algunos de los artistas con los que hemos estado trabajando.
11:04Voy a poner esto de vuelta en la herramienta Música AI.
11:10¿Qué sucede si Haití se encuentra con Brasil?
11:13Tío, no tengo ni idea de lo que va a ser distribuido.
11:17Y esto es lo que me emociona.
11:23Como productor de hip-hop,
11:24nos metemos en las tiendas.
11:26Jugamos estos vinilos,
11:27y la parte en la que no hay voz,
11:29lo sacamos, lo muestramos,
11:31y creamos una canción completa alrededor de eso.
11:34Entonces, ahora mismo,
11:35nos metemos en una tienda infinita.
11:37Es inminente.
11:38Donde encontré la AI muy útil para mí,
11:40esta manera de rellenar
11:42los elementos más esparsos de mi vida,
11:45Vamos a probar.
11:46Bongos.
11:47Vamos a poner viola.
11:48Vamos a poner aplausos rítmicos.
11:51Y vamos a ver qué sucede.
11:54Y hace que suene,
11:55irónicamente,
11:56al final del día, un poco más humano.
11:58Entonces, esto es totalmente
12:00loops de Google.
12:02Estos son gloops.
12:07Es como tener un amigo extraño
12:09que te dice,
12:10prueba esto.
12:11Prueba eso.
12:12Y entonces eres como,
12:13oh, bien, sí,
12:14eso es bastante genial.
12:22Las herramientas son capaces
12:24de acelerar el proceso
12:26de lo que está en mi cabeza,
12:27de sacarlo.
12:28Puedes mover a velocidad ligera
12:30con tu creatividad.
12:32Esto es increíble.
12:33¿Está bien ahí?
12:42Creo que esto realmente muestra
12:43lo posible cuando trabajamos
12:44con la comunidad de artistas
12:45en el futuro de la música.
12:47Puedes encontrar
12:48algunas canciones nuevas
12:49de estos artistas y cantantes
12:50reclamados
12:51en sus canales de YouTube ahora.
12:54Hay un área más
12:55que estoy muy emocionado
12:56de compartir con ti.
12:57Nuestros equipos han hecho
12:58un progreso increíble
12:59en el video genético.
13:01Hoy, estoy emocionado
13:02de anunciar
13:03nuestro modelo de video genético
13:04más capaz y más nuevo
13:05llamado Veo.
13:07Veo es un modelo
13:08de video genético
13:09más capaz y más nuevo
13:10llamado Veo.
13:16Veo crea
13:17videos de 1080p de calidad alta
13:19de texto, imágenes
13:20y promesas de video.
13:22Puede capturar
13:23los detalles de tus instrucciones
13:24en diferentes estilos
13:25visuales y cinemáticos.
13:27Puedes promover cosas
13:28como fotos aéreas
13:29de un paisaje
13:30o una lapisa de tiempo
13:31y editar más
13:32tus videos usando
13:33promesas adicionales.
13:34Puedes usar Veo
13:35en nuestro nuevo
13:36herramienta experimental
13:37llamado VideoFX.
13:38Estamos explorando
13:39herramientas como
13:40gestión de historias
13:41y generación
13:42de escenas más largas.
13:43Veo te da
13:44control creativo
13:45sin precedentes.
13:47Las técnicas
13:48para generar
13:49imágenes estáticas
13:50han llegado a largo plazo,
13:51pero generar video
13:52es un desafío
13:53diferente en sí mismo.
13:55No solo es importante
13:56entender
13:57dónde debe estar
13:58un objeto o un sujeto
13:59en el espacio,
14:00sino que debe mantener
14:01esta consistencia
14:02con el tiempo,
14:03igual que el auto
14:04en este video.
14:06Veo crea
14:07desde hace años
14:08nuestro proyecto
14:09de video generativo
14:10pionero,
14:11incluyendo
14:12GQN,
14:13Fanaki,
14:14Walt,
14:15Videopoet,
14:16Lumière
14:17y mucho más.
14:18Combinamos las mejores
14:19de estas arquitecturas
14:20y técnicas
14:21para mejorar
14:22la consistencia,
14:23la calidad
14:24y la resolución
14:25de la salida.
14:26Para ver qué puede hacer
14:27Veo,
14:28lo colocamos
14:29en las manos
14:30de un increíble
14:31cinematógrafo.
14:32Veámoslo.
14:33Bueno,
14:34he estado interesado
14:35en la inteligencia
14:36de Google
14:37desde hace un año
14:38y hemos tenido contacto
14:39con algunas de las personas
14:40de Google
14:41y han estado trabajando
14:42en algo de su propio.
14:43Así que estamos todos
14:44reunidos aquí
14:45en Google Farms
14:46para hacer un corto.
14:47La tecnología
14:48principal
14:49es el modelo
14:50de video generativo
14:51de Google DeepMind
14:52que ha sido entrenado
14:53para convertir
14:54texto de entrada
14:55en video de salida.
14:56Se ve bien.
14:57Podemos
14:58traer ideas a la vida
14:59que no serían
15:00posible.
15:01Podemos visualizar
15:02cosas
15:03a una escala de tiempo
15:04que es 10 o 100 veces
15:05más rápido
15:06que antes.
15:07Cuando estás filmando
15:08no puedes reiterar
15:09tanto como quieras
15:10y hemos estado
15:11escuchando ese feedback
15:12que permite
15:13más opcionalidad,
15:14más iteración,
15:15más improvisación.
15:16Pero eso es
15:17lo que es genial
15:18es que puedes
15:19hacer un error más rápido.
15:20Eso es todo
15:21que realmente quieres
15:22al final del día.
15:23Al menos en arte
15:24es solo
15:25hacer errores rápido.
15:26Así que usando
15:27las capacidades multimodales
15:28de Gemini
15:29para optimizar
15:30el proceso de entrenamiento
15:31del modelo,
15:32Veo es capaz
15:33de capturar mejor
15:34las técnicas
15:35y los efectos visuales
15:36dándote
15:37total control
15:38creativo.
15:39Todo el mundo
15:40se va a convertir en
15:41un director
15:42y todo el mundo
15:43debería ser un director.
15:44Porque en el centro
15:45de todo esto
15:46es la historia.
15:47Más cerca estamos
15:48de poder contar
15:49nuestras historias
15:50a los demás,
15:51más entenderemos
15:52a los demás.
15:53Estos modelos
15:54nos permiten
15:55ser más creativos
15:56y compartir
15:57esa creatividad
15:58con los demás.
16:05En las próximas semanas,
16:06algunas de estas funciones
16:07estarán disponibles
16:08para seleccionar
16:09a los creadores
16:10a través de Video Effects
16:11en labs.google
16:12y la lista de espera
16:13está abierta ahora.
16:14Por supuesto,
16:15estos avances
16:16en la generación de video
16:17van más allá
16:18de los hermosos visuales
16:19que han visto hoy.
16:20Al enseñar
16:21a los modelos AI
16:22futuros
16:23cómo resolver problemas
16:24creativamente
16:25o, en efecto,
16:26simular
16:27la física
16:28y la tecnología
16:29de los modelos
16:30de los modelos
16:31de los modelos
16:32artificiales
16:33y, en efecto,
16:34simular la física
16:35de nuestro mundo,
16:36podemos construir
16:37sistemas más útiles
16:38que pueden ayudar
16:39a las personas
16:40a comunicarse
16:41de manera nueva
16:42y, por lo tanto,
16:43avanzar
16:44las fronteras
16:45de la AI.
16:46Cuando empezamos
16:47esta aventura
16:48para construir la AI
16:49más de 15 años atrás,
16:50sabíamos que un día
16:51cambiaría todo.
16:52Ahora ese tiempo
16:53está aquí
16:54y seguimos
16:55sorprendidos
16:56por el progreso
16:57que vemos
16:58y inspirados
16:59por los avances
17:00que aún vienen
17:01en la carretera
17:02de la tecnología
17:03de los modelos
17:04de los modelos
17:05de los modelos
17:06de los modelos
17:07de los modelos
17:08de los modelos
17:09de los modelos
17:10de los modelos
17:11de los modelos
17:12de los modelos
17:13de los modelos
17:14de los modelos
17:15de los modelos
17:16de los modelos
17:17de los modelos
17:18de los modelos
17:19de los modelos
17:20de los modelos
17:21de los modelos
17:22de los modelos
17:23de los modelos
17:24de los modelos
17:25de los modelos
17:26de los modelos
17:27de los modelos
17:28de los modelos
17:29de los modelos
17:30de los modelos

Recomendada