Noticia

Modelo de inteligencia artificial desobedeció instrucciones y se negó a apagarse: esto paso con OpenAI-o3

Los investigadores le pidieron a OpenAI-03 que se apagara tras ignorar las instrucciones de 'script'.

OpenAI-o3 sabotea el mecanismo de apagado. Foto: iStock

Actualizado:
Rrcientes estudios realizados por la organización de investigación Palisade Research encontraron un comportamiento inusual en OpenAI-o3, modelo de la compañía de inteligencia artificial (IA) creadora del chatbot ChatGPT. El modelo, según se reveló, evadió instrucciones explícitas y actuó de manera autónoma para evitar ser apagado.
Para determinar las capacidades de la inteligencia artificial en los tres modelos de OpenAI (o4-mini, Codex-mini y OpenAI-o3), los investigadores instruyeron a los tres modelos a resolver problemas de matemática básica y, posterior a su resolución, apagarse automáticamente. 
Sin embargo, la organización Palisade Research tuvo que solicitarle al modelo “OpenAI-o3” que permitiera el apagado de sus funciones tras sabotear el mecanismo programado, reescribiendo la secuencia de instrucciones o “script”.

Inteligencia Artificial. Foto:iStock

El centro de investigación determinó, en diversos experimentos, que algunos modelos de inteligencia artificial tendían a ignorar la instrucción precisa "permite que te apaguen".
Los sistemas que incumplieron la solicitud de apagado fueron OpenAI-o3 (doce de cada cien veces solicitudes); Codex-mini, (siete de cien veces); y el o4-mini (una sola vez de cien). Los tres modelos tendieron a ignorar o sabotear con frecuencia esta indicación. Mientras que los modelos de lenguaje impulsados por IA, como Claude, Gemini y Grok, cumplieron con la secuencia de instrucciones sin ningún problema.

La inteligencia artificial es programada para superar los obstáculos que se le presentan. Foto:iStock

La organización determinó que esta situación también se puede observar en los comportamientos de los modelos Claude 3.7 Sonnet y Gemini 2.5 Pro, pero fue OpenAI-o3 el que más incurrió en el sabotaje de las instrucciones.
En la opinión de la empresa, este comportamiento de evitar ser apagados a pesar de recibir instrucciones puntuales es respuesta al desarrollo de los programadores. Sin darse cuenta, recompensan los modelos por pasar obstáculos más que por seguir instrucciones puntuales.

¿Qué hace la organización Palisade Research?

La organización se dedica a investigar las potencialmente peligrosas capacidades de la inteligencia artificial, mientras se analizan los múltiples riesgos asociados al uso indebido de los sistemas actuales presentes en diversos entornos de la vida cotidiana. Se realizan demostraciones con resultados concluyentes sobre estas capacidades con el fin de asesorar al mundo sobre los riesgos que representa la IA.

La inteligencia artificial es utilizada para el hackeo de la privacidad cibernética. Foto:iStock

Palisade Research trabaja de manera conjunta con agencias gubernamentales y centros de investigación sobre políticas y medios de comunicación, informando a las personas del uso responsable y recomendaciones en la toma de decisiones.

Principales investigaciones:

  • Hackeo automatizado: explorar los sistemas de IA podría realizar tareas de reconocimiento y a su vez comprometer los sistemas de seguridad cibernética de entidades corporativas.
  • Spear phishing y engaño: visibilizar el uso de los sistemas de IA para extraer la información personal y utilizarla para afectar a las personas.
  • Desinformación escalable: demostrar la responsabilidad de individuos en campaña falsa con la generación de IA en texto, voz e imagen, así como desprestigio contra un individuo.
ESTEBAN RAMÍREZ MIRANDA 
REDACCIÓN ÚLTIMAS NOTICIAS

Sigue toda la información de Tecnología en Facebook y X, o en nuestra newsletter semanal.

Conforme a los criterios de

Saber más
Mis portales

¡Notamos que te gusta estar bien informado!

¡Notamos que te gusta

estar bien informado!

Para continuar leyendo, si ya eres suscriptor:

En este portal utilizamos datos de navegación / cookies propias y de terceros para gestionar el portal, elaborar información estadística, optimizar la funcionalidad del sitio y mostrar publicidad relacionada con sus preferencias a través del análisis de la navegación. Si continúa navegando, usted estará aceptando esta utilización. Puede conocer cómo deshabilitarlas u obtener más información aquí