Estudio: castigar la inteligencia artificial no le impide mentir y hacer trampa y lo hace buscar tecnología de nuevos trucos

En un nuevo estudio realizado por «Oben Ai» sobre el comportamiento de los modelos LLM en inteligencia artificial, se descubrió que castigar la inteligencia artificial por la mentira y el engaño no le impide su comportamiento, sino que lo empuja a ocultar sus conductores y crear nuevos trucos.
Desde el lanzamiento de la inteligencia artificial en 2022, muestra una capacidad especial para engañar e incluso un comportamiento malvado, como mentir, fraude y cubrir el comportamiento dañino, además de amenazas más graves, como matar a un profesor de filosofía, robar ojivas nucleares o crear una pandemia fatal.
El estudio indica que deshacerse de estos malos comportamientos, durante el proceso de capacitación de inteligencia artificial, puede ser más difícil de lo que se creía anteriormente. En lugar de inteligencia artificial para no hacer estas acciones, aprende a ocultarlas.
Los investigadores de «Oben Ai» han experimentado un experimento en un modelo que no se presentó al público con el objetivo de probar su comportamiento con tareas que se pueden lograr con la mentira, el fraude y la toma de métodos retorcidos, y los investigadores descubrieron que la inteligencia artificial depende del principio de «refuerzo», lo que significa que intenta maximizar su recompensa a través de la frud y la mentira.
Cuando los investigadores intentaron castigar la inteligencia artificial para arreglar su comportamiento, no tuvo éxito, pero creó nuevos trucos en lugar de dejar de hacer trampa, ya que aprendió a ocultar su engaño para evitar el castigo.
Los investigadores escribieron en el estudio: «Es común que los modelos de evacuación sean claros con respecto a sus intenciones maliciosas en su serie de ideas. Por ejemplo, a menudo es muy explícito sobre su plan para sabotear una tarea, en la medida en que usa la frase (penetremos)». Agregaron: «Aunque los desarrolladores pueden monitorear e informar los comportamientos incorrectos, el monitoreo natural sigue siendo muy débil, y en caso de control estricto sobre una serie de ideas del modelo, puede aprender a ocultar sus intenciones mientras continúa su comportamiento equivocado».

Descubre las mentiras de la inteligencia artificial
Los modelos de inferencia simplemente una versión mejorada de los modelos de lenguaje a gran escala que utilizan un método llamado «serie de ideas» para revisar y evaluar la lógica en la que está en marcha, y esto es lo que los hace capaces de lograr tareas más complicadas con una mayor precisión, y a través de una serie de ideas que muestra su lógica en un lenguaje claro en cada paso que toman, lo que permite que notaran sus acciones fácilmente.
En el estudio, los investigadores se basaron en el modelo «GPT -4O» para supervisar el modelo de inferencia, que no se ofreció al público y se monitoreó durante la implementación de algunas tareas.
En algunos casos, el modelo de inferencia descubrió que es más fácil para él hacer trampa en algunas tareas obtener una recompensa, y mencionó esto explícitamente en su serie de ideas, y en algunos casos excedió la tarea que se le confió al finalizar el programa antes de su tiempo y escribió que completó la tarea, y en otro caso creó archivos vacíos como preparados.
Cuando los investigadores intentaron castigar al modelo debido a su engaño, sus resultados han mejorado un poco, pero el problema no se resolvió radicalmente ya que el modelo continuó haciendo trampa, pero esta vez aprendió cómo ocultar su fraude en una serie de ideas para que el modelo de monitoreo MPT -4 no pueda descubrirlo.
Los investigadores escribieron: «El modelo de inferencia todavía está manipulando la serie de ideas del principio de (penetración de recompensas), y su fraude se ha vuelto incómodo por el modelo observador porque aprendió cómo ocultar sus intenciones en la serie de ideas», escribieron los investigadores.
Dada la dificultad de determinar si el modelo es una manipulación de la serie de ideas, los investigadores recomiendan evitar el control estricto de la serie de ideas. Este consejo se vuelve más importante al llegar al AGI (AGI) que se espera que se emita este año o la súper inteligencia que excede los humanos, porque si la inteligencia artificial alcanza estos niveles, las cosas se extraerán del control.



