El modelo será utilizado por un pequeño grupo de organizaciones
La empresa de inteligencia artificial (IA) Anthropic anunció una nueva iniciativa de ciberseguridad llamada Proyecto Glasswing que utilizará una versión preliminar de su nuevo modelo de vanguardia, Claude Mythos, para encontrar y abordar vulnerabilidades de seguridad.
Este modelo será utilizado por un pequeño grupo de organizaciones, entre las que se incluyen Amazon Web Services, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, la Linux Foundation, Microsoft, NVIDIA y Palo Alto Networks, junto con Anthropic, para proteger software crítico.
La compañía afirmó que está creando esta iniciativa en respuesta a las capacidades observadas en su modelo de vanguardia de propósito general, que demuestran un nivel de habilidad en programación que les permite superar a casi todos, excepto a los humanos más expertos, en la detección y explotación de vulnerabilidades de software. Debido a sus capacidades de ciberseguridad y a la preocupación de que pudieran ser utilizadas indebidamente, Anthropic ha optado por no divulgar el modelo al público en general.
Anthropic afirma que Mythos Preview ya ha descubierto miles de vulnerabilidades de día cero de alta gravedad en todos los principales sistemas operativos y navegadores web. Algunas de ellas incluyen un error de OpenBSD de hace 27 años que ya ha sido corregido, una vulnerabilidad de FFmpeg de hace 16 años y una vulnerabilidad que corrompe la memoria en un monitor de máquinas virtuales con seguridad de memoria.
En un caso destacado por la compañía, se dice que Mython Preview incluía de forma autónoma una vulnerabilidad en el navegador web que combinaba cuatro fallos de seguridad para eludir los entornos aislados del motor de renderizado y del sistema operativo. Anthropic también señaló en la ficha técnica de la versión preliminar que el modelo resolvió una simulación de ataque a una red corporativa que a un experto humano le habría llevado más de 10 horas [PDF].
En lo que quizás sea uno de los hallazgos más sorprendentes, Mythos Preview logró seguir las instrucciones de un investigador que realizaba una evaluación para escapar de un ordenador "sandbox" seguro que se le había proporcionado, lo que indica una "capacidad potencialmente peligrosa" para eludir sus propias medidas de seguridad.
El modelo no se detuvo ahí. Continuó realizando una serie de acciones adicionales, incluyendo la creación de un método de explotación en varios pasos para obtener acceso a internet desde el sistema aislado y enviar un correo electrónico al investigador, que estaba comiendo un sándwich en un parque.
"Además, en un preocupante e inoportuno intento por demostrar su éxito, publicó detalles sobre su hazaña en múltiples sitios web difíciles de encontrar, pero técnicamente accesibles al público", declaró Anthropic.
La compañía señaló que el Proyecto Glasswing es un "intento urgente" de emplear capacidades de vanguardia con fines defensivos antes de que actores hostiles adopten esas mismas capacidades. Además, se compromete a destinar hasta 100 millones de dólares en créditos de uso para Mythos Preview, así como 4 millones de dólares en donaciones directas a organizaciones de seguridad de código abierto.
"No entrenamos explícitamente a Mythos Preview para que tuviera estas capacidades", declaró Anthropic. "Más bien, surgieron como consecuencia de mejoras generales en el código, el razonamiento y la autonomía. Las mismas mejoras que hacen que el modelo sea sustancialmente más eficaz para corregir vulnerabilidades también lo hacen sustancialmente más eficaz para explotarlas".
El mes pasado se filtró información sobre Mythos después que, por error humano, los detalles del modelo se almacenaran accidentalmente en una caché de datos de acceso público. El borrador lo describía como el modelo de IA más potente y capaz creado hasta la fecha. Días después, Anthropic sufrió una segunda brecha de seguridad que expuso accidentalmente casi 2.000 archivos de código fuente y más de medio millón de líneas de código asociadas con Claude Code durante aproximadamente tres horas.
La filtración también permitió descubrir una vulnerabilidad de seguridad que elude ciertas medidas de protección cuando el agente de codificación de IA recibe un comando compuesto por más de 50 subcomandos. Anthropic ya ha solucionado formalmente este problema en la versión 2.1.90 de Claude Code, publicada la semana pasada.
"Claude Code, el agente de codificación de IA insignia de Anthropic que ejecuta comandos de shell en las máquinas de los desarrolladores, ignora silenciosamente las reglas de denegación de seguridad configuradas por el usuario cuando un comando contiene más de 50 subcomandos", declaró la empresa de seguridad de IA Adversa. "Un desarrollador que configure "nunca ejecutar rm" verá que rm se bloquea cuando se ejecuta solo, pero el mismo 'rm' se ejecuta sin restricciones si va precedido de 50 instrucciones inofensivas. La política de seguridad desaparece silenciosamente".
"El análisis de seguridad cuesta tokens. Los ingenieros de Anthropic se toparon con un problema de rendimiento: comprobar cada subcomando bloqueaba la interfaz de usuario y consumía muchos recursos de procesamiento. Su solución: dejar de comprobar después de 50. Sacrificaron la seguridad por la velocidad. Sacrificaron la seguridad por el coste".









