WhatsApp también presentó una vista previa de una nueva tecnología llamada Procesamiento Privado
Meta anunció el martes LlamaFirewall, un framework de código abierto diseñado para proteger los sistemas de inteligencia artificial (IA) contra riesgos cibernéticos emergentes como inyección rápida, jailbreaks y código inseguro, entre otros.
El framework, dijo la compañía, incorpora tres barreras de protección, entre ellas PromptGuard 2, Agent Alignment Checks (controles de alineación de agentes) y CodeShield.
PromptGuard 2 está diseñado para detectar intentos directos de jailbreak e inyección de avisos en tiempo real, mientras que Agent Alignment Checks es capaz de inspeccionar el razonamiento del agente para detectar posibles escenarios de secuestro de objetivos e inyección de avisos indirectos.
CodeShield se refiere a un motor de análisis estático en línea que busca prevenir la generación de código inseguro o peligroso por parte de agentes de IA.
"LlamaFirewall está diseñado para funcionar como un framework de protección flexible y en tiempo real para proteger las aplicaciones basadas en modelo de lenguaje grande (LLM)", afirmó la empresa en una descripción del proyecto en GitHub.
Su arquitectura es modular, lo que permite a los equipos de seguridad y a los desarrolladores diseñar defensas en capas que abarcan desde la ingesta de datos sin procesar hasta las acciones de salida final, a través de modelos de chat simples y agentes autónomos complejos.
Junto con LlamaFirewall, Meta ha puesto a disposición versiones actualizadas de LlamaGuard y CyberSecEval para detectar mejor varios tipos comunes de contenido violatorio y medir las capacidades de ciberseguridad defensiva de los sistemas de IA, respectivamente.
CyberSecEval 4 también incluye un nuevo punto de referencia llamado AutoPatchBench, que está diseñado para evaluar la capacidad de un agente de modelo de lenguaje grande (LLM) para reparar automáticamente una amplia gama de vulnerabilidades de C/C++ identificadas a través de fuzzing, un enfoque conocido como parcheo impulsado por IA.
"AutoPatchBench proporciona un framework de evaluación estandarizado para evaluar la eficacia de las herramientas de reparación de vulnerabilidades asistidas por IA", afirmó la compañía. "Este punto de referencia busca facilitar una comprensión integral de las capacidades y limitaciones de diversos enfoques basados en IA para la reparación de errores detectados mediante fuzzing".
Por último, Meta ha lanzado un nuevo programa denominado Llama for Defenders para ayudar a las organizaciones asociadas y a los desarrolladores de IA a acceder a soluciones de IA abiertas, de acceso temprano y cerradas para abordar desafíos de seguridad específicos, como la detección de contenido generado por IA utilizado en estafas, fraudes y ataques de phishing.
Los anuncios llegan mientras WhatsApp presentó una vista previa de una nueva tecnología llamada Procesamiento Privado para permitir a los usuarios aprovechar las funciones de IA sin comprometer su privacidad al descargar las solicitudes a un entorno seguro y confidencial.
"Estamos trabajando con la comunidad de seguridad para auditar y mejorar nuestra arquitectura y continuaremos desarrollando y fortaleciendo el Procesamiento Privado de forma abierta, en colaboración con investigadores, antes de lanzarlo como producto", afirmó Meta.