Por el contrario, Anthropic podría ofrecer un ejemplo de por qué no torturar a tu IA
La inteligencia artificial sigue siendo la tendencia en tecnología, les interese o no a los consumidores. Lo que más me impresiona de la IA generativa no son sus características ni su potencial para simplificarme la vida (un potencial que aún no he descubierto); más bien, últimamente estoy centrado en las numerosas amenazas que parecen surgir de esta tecnología.
Sin duda hay desinformación: los nuevos modelos de vídeo con IA, por ejemplo, están creando clips realistas con audio sincronizado. Pero también existe la clásica amenaza de la IA: que la tecnología se vuelva más inteligente que nosotros y consciente de sí misma, y opte por usar esa inteligencia general de una manera que no beneficia a la humanidad.
Incluso mientras invierte recursos en su propia empresa de IA (sin mencionar también a la administración actual), Elon Musk ve entre un 10 % y un 20 % de probabilidades de que la IA "falle" y que la tecnología siga siendo una "significativa amenaza existencial". ¡Genial!
Así que no me tranquiliza escuchar a un ejecutivo tecnológico de alto perfil y establecido hablar en broma sobre cómo tratar mal a la IA maximiza su potencial. Se trata del cofundador de Google, Sergey Brin, quien sorprendió al público en una grabación del podcast AIl-In esta semana.
Durante una charla que abordó el regreso de Brin a Google, la IA y la robótica, el inversor Jason Calacanis bromeó sobre ser "atrevido" con la IA para que realizara la tarea que él quería. Esto desencadenó un argumento válido por parte de Brin. A veces es difícil descifrar lo que dice exactamente debido a que la gente habla al mismo tiempo, pero dice algo así como: "Sabes, es algo raro... no circulamos tanto... en la comunidad de la IA... no solo nuestros modelos, sino todos los modelos tienden a funcionar mejor si se les amenaza".
El otro hablante parece sorprendido. "¿Si las amenazas?", responde Brin. "Como con violencia física. Pero... a la gente le incomoda eso, así que no hablamos de eso". Brin luego dice que, históricamente, amenazas a la modelo con secuestro.
La conversación rápidamente cambia a otros temas, como cómo crecen los niños con IA, pero ese comentario es lo que me llevé de mi experiencia. ¿Qué hacemos aquí? ¿Hemos perdido el hilo? ¿Nadie recuerda Terminator ?
Bromas aparte, parece una mala práctica amenazar a los modelos de IA para obligarlos a hacer algo. Claro, quizá estos programas nunca alcancen la inteligencia artificial general (IAG), pero recuerdo cuando se debatía si debíamos decir "por favor" y "gracias" al pedirle cosas a Alexa o Siri. Olvídense de las sutilezas; simplemente abusen de ChatGPT hasta que haga lo que quieren; eso debería acabar bien para todos.
Quizás la IA funciona mejor cuando se la amenaza. Quizás algo en el entrenamiento entienda que las "amenazas" significan que la tarea debe tomarse más en serio. No me verán probando esa hipótesis en mis cuentas personales.
Anthropic podría ofrecer un ejemplo de por qué no torturar a tu IA
En la misma semana que se grabó este podcast, Anthropic lanzó sus últimos modelos de IA Claude. Un empleado de Anthropic contactó con Bluesky y mencionó que Opus, el modelo de mayor rendimiento de la compañía, puede encargarse de intentar impedir que cometas actos "inmorales", contactando a los reguladores, a la prensa o excluyéndote del sistema.
welcome to the future, now your error-prone software can call the cops (this is an Anthropic employee talking about Claude Opus 4)
— Molly White (@molly.wiki) 22 de mayo de 2025, 22:55
[image or embed]
El empleado aclaró que esto solo ha ocurrido en casos claros de irregularidades, pero que podrían ver al bot volverse intrusivo si interpreta su uso de forma negativa. Vea el ejemplo particularmente relevante del empleado a continuación:
can't wait to explain to my family that the robot swatted me after i threatened its non-existent grandma
— Molly White (@molly.wiki) 22 de mayo de 2025, 23:09
[image or embed]
Ese empleado posteriormente borró esas publicaciones y especificó que esto solo ocurre durante las pruebas, con instrucciones inusuales y acceso a herramientas. Aun así, si puede ocurrir durante las pruebas, es muy posible que ocurra en una versión futura del modelo.
Hablando de pruebas, los investigadores de Anthropic descubrieron que este nuevo modelo de Claude es propenso al engaño y al chantaje si el bot cree estar siendo amenazado o no le gusta el desarrollo de una interacción.








