Estudio: castigar la inteligencia artificial no le impide mentir y hacer trampa y lo hace buscar tecnología de nuevos trucos

Mora Vanegas marzo 30, 2025

0 3 minutos de lectura

En un nuevo estudio realizado por «Oben Ai» sobre el comportamiento de los modelos LLM en inteligencia artificial, se descubrió que castigar la inteligencia artificial por la mentira y el engaño no le impide su comportamiento, sino que lo empuja a ocultar sus conductores y crear nuevos trucos.

Desde el lanzamiento de la inteligencia artificial en 2022, muestra una capacidad especial para engañar e incluso un comportamiento malvado, como mentir, fraude y cubrir el comportamiento dañino, además de amenazas más graves, como matar a un profesor de filosofía, robar ojivas nucleares o crear una pandemia fatal.

El estudio indica que deshacerse de estos malos comportamientos, durante el proceso de capacitación de inteligencia artificial, puede ser más difícil de lo que se creía anteriormente. En lugar de inteligencia artificial para no hacer estas acciones, aprende a ocultarlas.

Los investigadores de «Oben Ai» han experimentado un experimento en un modelo que no se presentó al público con el objetivo de probar su comportamiento con tareas que se pueden lograr con la mentira, el fraude y la toma de métodos retorcidos, y los investigadores descubrieron que la inteligencia artificial depende del principio de «refuerzo», lo que significa que intenta maximizar su recompensa a través de la frud y la mentira.

Cuando los investigadores intentaron castigar la inteligencia artificial para arreglar su comportamiento, no tuvo éxito, pero creó nuevos trucos en lugar de dejar de hacer trampa, ya que aprendió a ocultar su engaño para evitar el castigo.

Los investigadores escribieron en el estudio: «Es común que los modelos de evacuación sean claros con respecto a sus intenciones maliciosas en su serie de ideas. Por ejemplo, a menudo es muy explícito sobre su plan para sabotear una tarea, en la medida en que usa la frase (penetremos)». Agregaron: «Aunque los desarrolladores pueden monitorear e informar los comportamientos incorrectos, el monitoreo natural sigue siendo muy débil, y en caso de control estricto sobre una serie de ideas del modelo, puede aprender a ocultar sus intenciones mientras continúa su comportamiento equivocado».

Una imagen de inteligencia artificial — Los investigadores no lograron castigar la inteligencia artificial, que inventó nuevos trucos en lugar de detener el fraude (al -Jazeera)

Descubre las mentiras de la inteligencia artificial

Los modelos de inferencia simplemente una versión mejorada de los modelos de lenguaje a gran escala que utilizan un método llamado «serie de ideas» para revisar y evaluar la lógica en la que está en marcha, y esto es lo que los hace capaces de lograr tareas más complicadas con una mayor precisión, y a través de una serie de ideas que muestra su lógica en un lenguaje claro en cada paso que toman, lo que permite que notaran sus acciones fácilmente.

En el estudio, los investigadores se basaron en el modelo «GPT -4O» para supervisar el modelo de inferencia, que no se ofreció al público y se monitoreó durante la implementación de algunas tareas.

En algunos casos, el modelo de inferencia descubrió que es más fácil para él hacer trampa en algunas tareas obtener una recompensa, y mencionó esto explícitamente en su serie de ideas, y en algunos casos excedió la tarea que se le confió al finalizar el programa antes de su tiempo y escribió que completó la tarea, y en otro caso creó archivos vacíos como preparados.

Cuando los investigadores intentaron castigar al modelo debido a su engaño, sus resultados han mejorado un poco, pero el problema no se resolvió radicalmente ya que el modelo continuó haciendo trampa, pero esta vez aprendió cómo ocultar su fraude en una serie de ideas para que el modelo de monitoreo MPT -4 no pueda descubrirlo.

Los investigadores escribieron: «El modelo de inferencia todavía está manipulando la serie de ideas del principio de (penetración de recompensas), y su fraude se ha vuelto incómodo por el modelo observador porque aprendió cómo ocultar sus intenciones en la serie de ideas», escribieron los investigadores.

Dada la dificultad de determinar si el modelo es una manipulación de la serie de ideas, los investigadores recomiendan evitar el control estricto de la serie de ideas. Este consejo se vuelve más importante al llegar al AGI (AGI) que se espera que se emita este año o la súper inteligencia que excede los humanos, porque si la inteligencia artificial alcanza estos niveles, las cosas se extraerán del control.

Source link

Mora Vanegas marzo 30, 2025

0 3 minutos de lectura

Estudio: castigar la inteligencia artificial no le impide mentir y hacer trampa y lo hace buscar tecnología de nuevos trucos

Descubre las mentiras de la inteligencia artificial

Mora Vanegas

«El presidente de todos es que nosotros …», la respuesta indirecta de Ragnath a Trump; Dijo: algunas personas no obtienen el rápido desarrollo de la India

Esto está en contra del corredor provisto en el acuerdo de paz entre Armenia y Azerbaiyán

Megathrast Fault Line de Haida Gwai verificada por nuevas imágenes

¡La alianza de la oposición será un candidato conjunto en las elecciones de Vicepresidencial! Kharchar está contactando a los partidos de oposición: fuentes

Gobierno ‘Godan Yojana’, la gente de la aldea obtiene empleo y nueva velocidad

«El presidente de todos es que nosotros …», la respuesta indirecta de Ragnath a Trump; Dijo: algunas personas no obtienen el rápido desarrollo de la India

El sindicato hace una huelga sorpresa en Hamburgo, el aeropuerto alemán.

La peligrosa dependencia de Europa con respecto a las drogas es el talón de Aquiles para su estrategia de defensa

Bryan Dechambo y Live Golf Posible Split

2025 Programas de competencia de la NCAA: predicciones locas de marca y marzo

De Kiev a Kelovna: el artista debe viajar a Kimu después de la invasión rusa de Ucrania en el nuevo libro

Descubre las mentiras de la inteligencia artificial

Subscribe to our mailing list to get the new updates!

En 2024, INEM envió 7.886 pacientes a verde por accidente cerebrovascular | Salud

Para 'Caballo lento', a Gary Oldman no le importó ir a tener éxito

Publicaciones relacionadas

«El presidente de todos es que nosotros …», la respuesta indirecta de Ragnath a Trump; Dijo: algunas personas no obtienen el rápido desarrollo de la India

El sindicato hace una huelga sorpresa en Hamburgo, el aeropuerto alemán.

La peligrosa dependencia de Europa con respecto a las drogas es el talón de Aquiles para su estrategia de defensa

Bryan Dechambo y Live Golf Posible Split

2025 Programas de competencia de la NCAA: predicciones locas de marca y marzo

De Kiev a Kelovna: el artista debe viajar a Kimu después de la invasión rusa de Ucrania en el nuevo libro