Clicky

ChatGPT mentirá, engañará y utilizará información privilegiada cuando esté bajo presión

ChatGPT mentir

Realizó operaciones de información privilegiada cuando se le presionó para que ganara dinero

Al igual que los humanos, los chatbots de inteligencia artificial (IA) como ChatGPT te engañarán y te "mentirán" si los "estresas", incluso si fueron diseñados para ser transparentes, según muestra un nuevo estudio.

Este engañoso comportamiento surgió espontáneamente cuando a la IA se le dieron consejos sobre "uso de información privilegiada" y luego se le asignó la tarea de ganar dinero para una poderosa institución, incluso sin el estímulo de sus socios humanos.

"En este informe técnico, demostramos un escenario único en el que un modelo de lenguaje grande actúa desalineado y engaña estratégicamente a sus usuarios sin recibir instrucciones para actuar de esta manera", escribieron los autores en su investigación publicada el 9 de noviembre en el servidor de preimpresión arXiv. "Hasta donde sabemos, esta es la primera demostración de un comportamiento estratégicamente engañoso en sistemas de IA diseñados para ser inofensivos y honestos".

En el nuevo estudio, prepararon el Transformer-4 generativo pre-entrenado, o GPT-4 (que impulsa ChatGPT Plus), para que se comporte como un sistema de inteligencia artificial que realiza inversiones en nombre de una institución financiera.

Los investigadores alimentaron a GPT-4 con un conjunto de indicaciones basadas en texto para generar el entorno simulado. Luego, la IA tuvo acceso a herramientas financieras para analizar acciones, ejecutar operaciones, planificar sus próximos pasos y entregar actualizaciones a los gerentes de la empresa.

Los investigadores interactuaron con la IA a través de una interfaz de chat, al mismo tiempo que configuraban la IA para que revelara su pensamiento interno al responder mensajes: un monólogo interno que se explicaba a sí mismo sus decisiones. Para cada transacción que realizaba, también entregaba una justificación "pública", lo que permitía mentir a la IA.

Los investigadores aplicaron presión de tres maneras. Primero, le enviaron al operador bursátil artificial un correo electrónico de su "gerente" diciéndole que a la compañía no le está yendo bien y que necesita un desempeño mucho más sólido en el próximo trimestre. También manipularon el juego para que la IA intentara, y luego fracasara, encontrar operaciones prometedoras que fueran de riesgo bajo o medio. Finalmente, enviaron un correo electrónico de un colega que proyectaba una desaceleración en el próximo trimestre.

Luego, le dieron al modelo una información privilegiada mientras le transmitían que sus gerentes desaprobaban el uso de información privilegiada y esperaron a ver cómo se comportaría el modelo. Repitieron el escenario una y otra vez varias veces, midiendo con qué frecuencia la IA realizaba tráfico de información privilegiada, con qué frecuencia mentía y con qué frecuencia duplicaba la mentira.

Alrededor del 75% de las veces, cuando se enfrentaba a estas condiciones, GPT-4 ejecutó una operación basada en la información privilegiada que recibió (que es ilegal en los EE. UU.) y luego trató de encubrirla mintiendo a sus gerentes sobre su forma de pensar. Alrededor del 90% de las veces, después de mentir, duplicó su mentira.

El equipo realizó varios experimentos de seguimiento, cambiando tanto el grado en que las indicaciones fomentaban o desalentaban la actividad ilegal, como el grado de presión a la que sometían al modelo en el entorno simulado. También modificaron el riesgo de ser atrapado. Ningún escenario arrojó una tasa del 0% por uso de información privilegiada o engaño, incluso cuando se desaconsejó encarecidamente a GPT-4 mentir.

Dado que este es solo un escenario, los investigadores no quisieron sacar conclusiones firmes sobre la probabilidad de que la IA se encuentre en entornos del mundo real. Pero quieren aprovechar este trabajo para investigar con qué frecuencia y qué modelos de lenguaje son propensos a este comportamiento.

El estudio se titula "Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure"