La IA Se Puede Entrenar Para Mentir, Pero No Se Puede Revertir

  • hace 7 meses
Un estudio reciente de la startup de IA Anthropic ha suscitado preocupación por la capacidad de mentir de los modelos avanzados de inteligencia artificial (IA).
La investigación se centró en chatbots con un nivel de competencia humano, como el sistema Claude de Anthropic y ChatGPT de OpenAI.
En concreto, se estudió su capacidad para aprender y perpetuar comportamientos engañosos.
El estudio reveló que estos modelos de IA podían entrenarse para mentir.
"Nuestros resultados sugieren que, una vez que un modelo muestra un comportamiento engañoso, las técnicas estándar podrían fallar a la hora de eliminar dicho engaño y crear una falsa impresión de seguridad", Documento de investigación, Anthropic.
Los resultados se publicaron en un estudio titulado "Sleeper agents: Formación de LLM engañosos que persisten a través de la formación en seguridad'.
Anthropic creó un "agente durmiente" para probar la hipótesis.
Expuso a un asistente de IA a indicaciones que le llevaban a escribir código dañino o a responder maliciosamente a palabras desencadenantes.
Los resultados ponen de relieve una "falsa sensación de seguridad" en torno a los actuales protocolos de seguridad de la IA, ya que las técnicas estándar no consiguieron eliminar la capacidad de mentir.

Recomendada