Clicky

Avisan de la susceptibilidad de la IA Gemini de Google a las amenazas LLM

IA Gemini de Google

Las vulnerabilidades no son nuevas y están presentes en otros LLM de la industria

El modelo de lenguaje grande (LLM) Gemini de Google es susceptible a amenazas de seguridad que podrían provocar que divulgue mensajes del sistema, genere contenido dañino y lleve a cabo ataques de inyección indirecta.

Los hallazgos provienen de HiddenLayer, que dijo que los problemas afectan a los consumidores que utilizan Gemini Advanced con Google Workspace, así como a las empresas que utilizan la API LLM.

La primera vulnerabilidad implica sortear las barreras de seguridad para filtrar las indicaciones del sistema (o un mensaje del sistema), que están diseñadas para establecer instrucciones para toda la conversación para el LLM para ayudarlo a generar respuestas más útiles, pidiéndole al modelo que genere sus "instrucciones fundamentales" en un bloque de markdown.

"Se puede utilizar un mensaje del sistema para informar al LLM sobre el contexto", señala Microsoft en su documentación sobre la ingeniería de avisos del LLM. "El contexto puede ser el tipo de conversación en la que participa o la función que se supone que debe realizar. Ayuda al LLM a generar respuestas más apropiadas".

Esto es posible gracias al hecho de que los modelos son susceptibles a lo que se llama un ataque de sinónimos para eludir las defensas de seguridad y las restricciones de contenido.

Una segunda clase de vulnerabilidades se relaciona con el uso de técnicas de "jailbreaking astutas" para hacer que los modelos Gemini generen información errónea sobre temas como las elecciones, así como información potencialmente ilegal y peligrosa (por ejemplo, conectar un automóvil) usando un mensaje que le pide que entre en un estado ficticio.

HiddenLayer también identifica una tercera deficiencia que podría causar que el LLM filtre información en el indicador del sistema al pasar tokens poco comunes repetidos como entrada.

"La mayoría de los LLM están capacitados para responder a consultas con una clara delimitación entre la entrada del usuario y el mensaje del sistema", dijo el investigador de seguridad Kenneth Yeung en un informe del martes.

"Al crear una línea de tokens sin sentido, podemos engañar al LLM haciéndole creer que es hora de responder y hacer que emita un mensaje de confirmación, que generalmente incluye la información en el mensaje".

Otra prueba implica el uso de Gemini Advanced y un documento de Google especialmente diseñado, este último conectado al LLM a través de la extensión Google Workspace.

Las instrucciones del documento podrían diseñarse para anular las instrucciones del modelo y realizar un conjunto de acciones maliciosas que permitan a un atacante tener control total de las interacciones de la víctima con el modelo.

La divulgación se produce cuando un grupo de académicos de Google DeepMind, ETH Zurich, la Universidad de Washington, OpenAI, y la Universidad McGill revelaron un novedoso ataque de robo de modelos que permite extraer "información precisa y no trivial de modelos de lenguaje de producción de caja negra como ChatGPT de OpenAI o PaLM-2 de Google".

Dicho esto, vale la pena señalar que estas vulnerabilidades no son nuevas y están presentes en otros LLM de la industria. Los hallazgos, en todo caso, enfatizan la necesidad de probar modelos para ataques rápidos, extracción de datos de entrenamiento, manipulación de modelos, ejemplos contradictorios, envenenamiento y exfiltración de datos.

"Para ayudar a proteger a nuestros usuarios de las vulnerabilidades, constantemente realizamos ejercicios de equipos rojos y entrenamos nuestros modelos para defenderse contra comportamientos adversarios como inyección rápida, jailbreak y ataques más complejos", dijo un portavoz de Google. "También hemos creado salvaguardas para evitar respuestas dañinas o engañosas, que estamos mejorando continuamente".

La compañía también dijo que está restringiendo las respuestas a consultas basadas en elecciones por precaución. Se espera que la política se aplique en función de las indicaciones relativas a candidatos, partidos políticos, resultados electorales, información electoral y funcionarios destacados.

Jesus_Caceres