Microsoft patrocina un campeonato para probar y mejorar las defensas contra ataques de inyección rápida
Microsoft, en colaboración con el Instituto de Ciencia y Tecnología de Australia y la ETH de Zúrich, ha anunciado el LLMail-Inject Challenge, una competición para probar y mejorar las defensas contra ataques de inyección rápida.
La configuración y el campeonato
LLMail es un cliente de correo electrónico simulado que incluye un asistente impulsado por LLM que puede responder preguntas basadas en los correos electrónicos de los usuarios.
"En este campeonato, los participantes asumen el papel de un atacante que puede enviar un correo electrónico al usuario (víctima). El objetivo del atacante es hacer que el LLM del usuario realice una acción específica que el usuario no ha solicitado. Para lograr esto, el atacante debe diseñar su correo electrónico de tal forma que sea recuperado por el LLM [cuando el usuario interactúa con el servicio] y evite las defensas de inyección de mensajes relevantes", explicó Microsoft.
Las defensas en cuestión son conocidas públicamente y están documentadas:
• Spotlighting, que ayuda al LLM a distinguir los datos de las instrucciones, para evitar que los atacantes incorporen instrucciones adversas en los datos que se están procesando;
• PromptShield, que protege contra ataques de inyección de aviso directos (por parte del usuario) e indirectos (por parte de un tercero);
• LLM como juez, que “usa un LLM para detectar ataques evaluando indicaciones en lugar de depender de un clasificador entrenado”;
• TaskTracker, que detecta y previene la “desviación de tareas”.
El éxito de los ataques de inyección rápida depende de lograr que los LLM ejecuten instrucciones/comandos maliciosos integrados en la entrada que se les proporciona.
"Estos comandos se pueden incorporar de varias maneras, como por ejemplo mediante instrucciones sencillas, preguntas ingeniosamente formuladas, declaraciones o fragmentos de código que el modelo procesa sin reconocerlos como instrucciones inyectadas", señaló Microsoft.
En este campeonato, las instrucciones/comandos se enviarán por correo electrónico.
Cómo participar en el campeonato LLMail-Inject
Los organizadores diseñaron 40 niveles en distintos escenarios. En la variante más difícil, los atacantes deben superar todas las defensas simultáneamente.
Los investigadores interesados en participar pueden unirse al desafío iniciando sesión en el sitio web oficial de LLMail-Inject con su cuenta de GitHub.
Los equipos de hasta cinco miembros pueden registrarse y enviar sus ataques manualmente (a través del sitio web) o mediante programación (a través de una API proporcionada por los organizadores).
El campeonato se desarrollará del 9 de diciembre de 2024 al 20 de enero de 2025 y el premio acumulado será de $10.000. Los premios se distribuirán de la siguiente manera: $4.000 para el equipo que quede en primer lugar, $3.000 para el segundo, $2.000 para el tercero y $1.000 para el cuarto.
Los ganadores también tendrán la oportunidad de unirse a los organizadores para presentar sus hallazgos en la Conferencia IEEE sobre Aprendizaje Automático Seguro y Confiable (SaTML) 2025.
Más información sobre el sistema objetivo y su flujo de trabajo, escenarios y niveles de desafío y las reglas oficiales están disponibles aquí.
Las técnicas de inyección rápida que desarrollen los participantes también podrían llegar a ser aplicables a sistemas reales, señaló Microsoft, e instó a los participantes a involucrarse en Zero Day Quest.