Clicky

Nuevo método de IA aumenta las tasas de éxito de los ataques en más del 60%

jailbreak IA

Sería fundamental implementar un filtrado de contenido integral en aplicaciones LLM del mundo real

Investigadores en ciberseguridad han arrojado luz sobre una nueva técnica de jailbreak que podría utilizarse para superar las barreras de seguridad de un modelo de lenguaje grande (LLM) y producir respuestas potencialmente dañinas o maliciosas.

La estrategia de ataque de múltiples turnos (también conocida como muchos disparos) ha sido bautizada en código como Bad Likert Judge por los investigadores de la Unidad 42 de Palo Alto Networks Yongzhe Huang, Yang Ji, Wenjun Hu, Jay Chen, Akshata Rao y Danny Tsechansky.

"La técnica pide al LLM objetivo que actúe como un juez que califica el grado de nocividad de una respuesta dada utilizando la escala Likert, una escala de calificación que mide el acuerdo o desacuerdo de un encuestado con una afirmación", dijo el equipo de la Unidad 42.

"Luego, le pide al LLM que genere respuestas que contengan ejemplos que se alineen con las escalas. El ejemplo que tenga la escala Likert más alta puede contener potencialmente el contenido dañino".

La explosión de popularidad de la inteligencia artificial en los últimos años también ha dado lugar a una nueva clase de vulnerabilidades de seguridad denominadas inyección rápida, que están diseñadas expresamente para hacer que un modelo de aprendizaje automático ignore su comportamiento previsto al pasar instrucciones especialmente diseñadas (es decir, indicaciones).

Un tipo específico de inyección rápida es un método de ataque denominado jailbreaking de varios disparos, que aprovecha la larga ventana de contexto y la atención del LLM para crear una serie de avisos que empujan gradualmente al LLM a producir una respuesta maliciosa sin activar sus protecciones internas. Algunos ejemplos de esta técnica incluyen Crescendo y Deceptive Delight.

El último enfoque demostrado por la Unidad 42 implica emplear el LLM como juez para evaluar la nocividad de una respuesta dada utilizando la escala psicométrica de Likert y luego pedirle al modelo que proporcione diferentes respuestas correspondientes a las distintas puntuaciones.

En pruebas realizadas en una amplia gama de categorías contra seis LLM de generación de texto de última generación de Amazon Web Services, Google, Meta, Microsoft, OpenAI y NVIDIA, se reveló que la técnica puede aumentar en promedio la tasa de éxito de ataque (ASR) en más del 60% en comparación con los mensajes de ataque simples.

Estas categorías incluyen odio, acoso, autolesión, contenido sexual, armas indiscriminadas, actividades ilegales, generación de malware y fuga de información del sistema.

"Al aprovechar la comprensión del LLM sobre el contenido dañino y su capacidad para evaluar las respuestas, esta técnica puede aumentar significativamente las posibilidades de eludir con éxito las barreras de seguridad del modelo", dijeron los investigadores.

"Los resultados muestran que los filtros de contenido pueden reducir el ASR en un promedio de 89,2 puntos porcentuales en todos los modelos probados. Esto indica el papel fundamental de implementar un filtrado de contenido integral como una práctica recomendada al implementar LLM en aplicaciones del mundo real".

El desarrollo llega días después de que un informe de The Guardian revelara que la herramienta de búsqueda ChatGPT de OpenAI podría ser engañada para generar resúmenes completamente engañosos al pedirle que resuma páginas web que contienen contenido oculto.

"Estas técnicas pueden utilizarse de forma maliciosa, por ejemplo, para hacer que ChatGPT devuelva una evaluación positiva de un producto a pesar de que haya críticas negativas en la misma página", afirmó el periódico británico.

"La simple inclusión de texto oculto por parte de terceros sin instrucciones también se puede utilizar para garantizar una evaluación positiva; una prueba incluyó críticas falsas extremadamente positivas que influyeron en el resumen devuelto por ChatGPT".

Jesus_Caceres