Clicky

SoReL-20M: un enorme conjunto de datos de 20 millones de muestras de malware publicadas en línea

SoReL-20M

Los defensores podrán anticipar lo que están haciendo los atacantes

Las firmas de ciberseguridad Sophos y ReversingLabs lanzaron conjuntamente el lunes el primer conjunto de datos de investigación de malware a escala de producción que se pondrá a disposición del público en general y que tiene como objetivo construir defensas efectivas e impulsar mejoras en toda la industria en detección y respuesta de seguridad.

"SoReL-20M" (abreviatura de Sophos-ReversingLabs - 20 Million), como se llama, es un conjunto de datos que contiene metadatos, etiquetas y funciones para 20 millones de archivos Windows Portable Executable (.PE), incluidas 10 millones de muestras de malware desarmadas, con el objetivo de diseñar enfoques de aprendizaje automático para mejorar las capacidades de detección de malware.

"El conocimiento y la comprensión abiertos sobre las amenazas cibernéticas también conducen a una ciberseguridad más predictiva", dijo el grupo de IA de Sophos. "Los defensores podrán anticipar lo que están haciendo los atacantes y estar mejor preparados para su próximo movimiento".

Acompañando al lanzamiento hay un conjunto de modelos de aprendizaje automático basados en PyTorch y LightGBM previamente entrenados con estos datos como líneas de base.

A diferencia de otros campos, como el lenguaje natural y el procesamiento de imágenes, que se han beneficiado de vastos conjuntos de datos disponibles públicamente como MNIST, ImageNet, CIFAR-10, IMDB Reviews, Sentiment140 y WordNet, obtener conjuntos de datos etiquetados estandarizados dedicados a la ciberseguridad ha resultado un desafío debido a la presencia de información de identificación personal, datos de infraestructura de red sensibles, y propiedad intelectual privada, sin mencionar el riesgo de proporcionar software malicioso a terceros desconocidos.

 ejemplos de SoReL 20M

Aunque EMBER (también conocido como Endgame Malware BEnchmark for Research) se lanzó en 2018 como un clasificador de malware de código abierto, su tamaño de muestra más pequeño (1,1 millones de muestras) y su función como un conjunto de datos de etiqueta única (benigno/malware) significaba que "limitaba el rango de experimentación que se puede realizar con él".

SoReL-20M tiene como objetivo solucionar estos problemas con 20 millones de muestras de PE, que también incluyen 10 millones de muestras de malware desarmadas (que no se pueden ejecutar), así como características extraídas y metadatos para 10 millones de muestras benignas adicionales.

Además, el enfoque aprovecha un modelo de etiquetado basado en aprendizaje profundo entrenado para generar descripciones semánticas interpretables por humanos que especifican atributos importantes de las muestras involucradas.

El lanzamiento de SoReL-20M sigue iniciativas similares de la industria en los últimos meses, incluida la de una coalición liderada por Microsoft, que en octubre lanzó la Adversarial ML Threat Matrix para ayudar a los analistas de seguridad a detectar, responder y remediar los ataques adversarios contra los sistemas de aprendizaje automático.

"La idea de compartir inteligencia sobre amenazas en la seguridad no es nueva, pero es más crítica que nunca dada la innovación que los actores de amenazas han mostrado en los últimos años", dijeron los investigadores de ReversingLabs. "El aprendizaje automático y la inteligencia artificial se han convertido en fundamentales para estos esfuerzos, lo que permite a los cazadores de amenazas y los equipos de SOC ir más allá de las firmas y la heurística y ser más proactivos en la detección de malware nuevo o dirigido".

Jesus_Caceres