Los expertos han propuesto "El Último Examen de la Humanidad" para desafiar a las IA. Buscan preguntas difíciles en áreas como el razonamiento abstracto y la formulación de planos, con el objetivo de medir el progreso de la inteligencia artificial.
Category
🗞
NoticiasTranscripción
00:00Un equipo de expertos en tecnología emitió un llamado global en búsqueda de las preguntas más difíciles de plantear a los sistemas de inteligencia artificial,
00:08que cada vez más han manejado pruebas de referencia populares, como si fuera un juego de niños.
00:13Apodado el último examen de la humanidad, se abre en una nueva pestaña.
00:16El proyecto busca determinar cuándo ha llegado la IA de nivel experto.
00:20Su objetivo es seguir siendo relevante, incluso a medida que las capacidades avancen en los próximos años.
00:25Según los organizadores, una organización sin fin de lucro llamada Centro para la Seguridad de la IA, S-A-I-S, y la startup Scale-AI.
00:33El llamado se produce días después de que el fabricante de ChatGPT presentara un avance de un nuevo modelo,
00:38conocido como OpenAI, o Uno, que destruyó los puntos de referencia de razonamiento más populares,
00:44dijo Dan Hendricks, director ejecutivo de C-A-I-S y asesor de la startup X-AI de Elon Musk.
00:50Hendricks fue coautor de dos artículos en 2021 que presumieron pruebas de sistemas de AI que ahora se usan ampliamente,
00:57uno de los cuales los interrogaba sobre conocimiento a nivel de pregrado de temas como la historia de Estados Unidos,
01:03y el otro sondeaba la capacidad de los modelos para razonar a través de las matemáticas a nivel de competencia.
01:09La prueba de estilo universitario del centro de IA en línea, Hugging Face, que cualquier conjunto de datos de este tipo.
01:14En el modelo de esos documentos, la IA daba respuestas casi aleatorias a las preguntas de los exámenes.
01:20Ahora están aplastados, dijo Hendricks a Reuters.
01:23Por ejemplo, los modelos de cloud de laboratorio de IA Antropics han pasado de obtener una puntuación de alrededor del 77%
01:30en la prueba de nivel universitario en 2023 a casi 89%.
01:34Un año después, según una tabla de calificaciones de capacidad, se abrió una nueva pestaña.
01:39Como resultado, estos puntos de referencia común tienen menos significado.
01:45¿De qué trata el examen?
01:47La IA parece haber obtenido una mala puntuación en las pruebas menos utilizadas
01:51que aplican la formulación de planes y acertijos de conocimiento de patrones visuales,
01:56según el informe del índice de IA de la Universidad de Stanford de abril.
02:00OpenAI O1 obtuvo alrededor del 21% en una versión de la prueba ARC-AGI de conocimiento de patrones,
02:09dijeron los organizadores de ARC.
02:12Algunos investigadores de IA argumentan que resultados como este muestran que la planificación
02:16y el razonamiento abstracto son mejores medidas de la inteligencia,
02:19aunque Hendricks dijo que el aspecto visual de ARC lo hace menos adecuado para evaluar modelos de lenguaje.
02:25El último examen de la humanidad requiere un razonamiento abstracto, dijo.
02:29Las respuestas del punto de referencia comunes también pueden haber terminado en datos utilizados
02:33para entrenar sistemas de IA, dijeron observadores de la industria.
02:37Hendricks dijo que algunas preguntas del último examen de la humanidad permanecerán en privado
02:41para asegurarse de que las respuestas de los sistemas de IA no sean de memorización.
02:46El examen incluirá al menos mil preguntas que vencen el primero de noviembre
02:49y que son difíciles de responder para los no expertos.
02:52Estos se someterán a una revisión por pares, y las presentaciones ganadoras recibirán una coautoría
02:57y premios de hasta 500 mil dólares patrocinados por Skell AI.
03:01Necesitamos desesperadamente pruebas más duras para que los modelos de nivel experto
03:05midan el rápido progreso de la IA, dijo Alexander Wang, CEO de Skail.
03:10Una restricción. Los organizadores no quieren preguntas sobre las armas,
03:13que algunos dicen que serían demasiado peligrosas, para que la IA las estudie.
03:17Si te gustó el video, no olvides darle like y suscribirte a nuestro canal para seguir informado.