• hace 5 minutos

Categoría

🤖
Tecnología
Transcripción
00:00¿Puedes decirme tu nombre?
00:02Sí, mi nombre es Hyunwoo Noh
00:04y soy el líder de investigación de Operator en OpenAI.
00:06¿Y qué es Operator?
00:08Operator es una previsión de investigación
00:11de un agente que utiliza browsers
00:13para ayudar al usuario a hacer cosas.
00:15Tengo un niño de tres años que le gusta la pasta
00:20así que hice un link-in con el cliente
00:23y le pedí que comprara las comidas para él.
00:25Así que usaré la tabla Instacart
00:29y Operator puede usar cualquier sitio web
00:33y no es particularmente optimizado para Instacart.
00:36Pero la razón por la que uso esta tabla
00:38es que ofrece una instrucción detallada
00:40sobre cómo utilizar este sitio web
00:42igual que el tutorial de cómo beneficiar a los humanos.
00:46Así que usaré la tabla Instacart
00:48y le pediré para resolver una tarea.
00:50¿Puedes encontrar la receta
00:54del link-in con el cliente
00:57desde el sitio web de todas las recetas
01:00y agregar todos los ingredientes
01:04a la carta comercial de Instacart?
01:10Creo que ya tengo
01:15algunos ingredientes como mantequilla,
01:17aceite vegetal y agua.
01:24Y pimienta negra.
01:28Así que no necesito agregarlos a la carta.
01:33Dice que encontraré la receta
01:36y agregaré todos los ingredientes a la carta.
01:42Dice que vendrá de los ingredientes
01:44y la compro conmigo
01:46antes de agregarlos a la carta.
01:48Empecemos por encontrar la receta.
01:51No estoy haciendo nada.
01:53El operador está haciendo
01:55y yo estoy viendo lo que está haciendo.
01:57Lo interesante del operador es que
01:59está usando un browser diseñado para los humanos.
02:02Y está viendo exactamente la misma herramienta
02:05que estoy viendo ahora mismo
02:07y está usando el tipo de teclado
02:09y el clic de la mano para controlar el browser,
02:11igual que lo haría el humano.
02:13Esto es diferente a otros agentes
02:15que usan una interfaz de programación
02:17que los programadores podrían entender,
02:20pero los usuarios no podrían entenderlo muy bien.
02:23El operador, porque está usando
02:26esta interfaz humana natural,
02:29es muy fácil de seguir
02:31mirando lo que está haciendo en la pantalla.
02:33¿Puedes seguir su progreso?
02:35Sí.
02:37Una manera de seguir su progreso es
02:41que puedo zoomar para ver la pantalla mejor.
02:44El operador está apagado
02:46por la cadena textual del origen.
02:49Entonces, cuando está haciendo cosas,
02:51dice que hace planes
02:54de cómo las cosas pueden ser hechas.
02:56Y esto puede ser seguido por esta lista de datos.
02:59Y dice que encontré una receta
03:01y ¿cuál tienda preferirías usar?
03:06Entonces, voy a preguntar.
03:08Usar.
03:14Entonces, a menudo pregunta clarificadora
03:17cuando es necesario
03:19en el proceso de resolver la tarea.
03:21Hay casos en los que el operador
03:23tiene que hacer acciones sensitivas,
03:25cosas como ingresar o comprar cosas.
03:28En este caso, construimos al operador
03:30para estar a salvo en esta situación.
03:32Entonces, el operador es diseñado
03:34a pedirnos para tomar el control
03:36para ingresar por nosotros mismos
03:38o cuando sea necesario chequearlo.
03:40Nos da el control
03:42para que pueda revisar
03:43si la lista está correcta
03:46Increíble.
03:47Muchas gracias.
03:48Aprecio que nos lo muestres.
03:49Muchas gracias.