Téléchargement D'échantillons De Logiciels Malveillants

Les sociétés de cybersécurité Sophos et ReversingLabs ont publié lundi conjointement le tout premier ensemble de données de recherche sur les logiciels malveillants à l’échelle de la production à être mis à la disposition du grand public, qui vise à construire des défenses efficaces et à améliorer à l’échelle du secteur la détection et la réponse de sécurité.

« SoReL-20M » (court pour Alorsphos-versantLabdos – 20 Million), comme on l’appelle, est un ensemble de données contenant des métadonnées, des étiquettes et des fonctionnalités pour 20 millions de fichiers Windows Portable Executable (.PE), dont 10 millions d’échantillons de logiciels malveillants désarmés, dans le but de concevoir des approches d’apprentissage automatique pour de meilleures capacités de détection des logiciels malveillants .

«Une connaissance et une compréhension ouvertes des cybermenaces conduisent également à une cybersécurité plus prédictive», Sophos AI dit le groupe. « Les défenseurs pourront anticiper ce que font les attaquants et être mieux préparés pour leur prochain coup. »

Un ensemble de PyTorch et LightGBM-apprentissage automatique basé sur modèles pré-formés sur ces données comme lignes de base.

Contrairement à d’autres domaines tels que le langage naturel et le traitement d’images, qui ont bénéficié de vastes ensembles de données accessibles au public tels que MNIST, ImageNet, CIFAR-10, Avis sur IMDB, Sentiment140, et WordNet, se procurer des ensembles de données étiquetés standardisés consacrés à la cybersécurité s’est avéré difficile en raison de la présence d’informations personnellement identifiables, de données d’infrastructure de réseau sensibles et de propriété intellectuelle privée, sans parler du risque de fournir des logiciels malveillants à des tiers inconnus.

Publicité
Malware

Bien que EMBER (aka Endgame Malware BEnchmark for Research) était libéré en 2018 en tant que classificateur de logiciels malveillants open-source, sa taille d’échantillon plus petite (1,1 million d’échantillons) et sa fonction en tant qu’ensemble de données en une seule partie (bénin / malware) signifiaient[ed] la gamme d’expérimentation qui peut être réalisée avec. « 

SoReL-20M vise à contourner ces problèmes avec 20 millions d’échantillons PE, qui comprennent également 10 millions d’échantillons de logiciels malveillants désarmés (ceux-ci ne peuvent pas être exécutés), ainsi que des fonctionnalités et des métadonnées extraites pour 10 millions d’échantillons bénins supplémentaires.

De plus, l’approche tire parti d’un modèle de balisage basé sur l’apprentissage en profondeur formés pour générer des descriptions sémantiques interprétables par l’homme spécifiant les attributs importants des échantillons impliqués.

La sortie de SoReL-20M fait suite à des initiatives similaires de l’industrie ces derniers mois, y compris celle d’une coalition dirigée par Microsoft, qui a publié la matrice des menaces ML Adversarial en octobre pour aider les analystes de sécurité à détecter, répondre et corriger les attaques adverses contre les systèmes d’apprentissage automatique.

«L’idée du partage de renseignements sur les menaces dans le domaine de la sécurité n’est pas nouvelle, mais elle est plus critique que jamais étant donné l’innovation que les acteurs de la menace ont montré au cours des dernières années», ont déclaré les chercheurs de ReversingLabs. «L’apprentissage automatique et l’IA sont devenus au cœur de ces efforts, permettant aux chasseurs de menaces et aux équipes SOC d’aller au-delà des signatures et de l’heuristique et de devenir plus proactifs dans la détection de nouveaux logiciels malveillants ou ciblés.

Rate this post
Publicité
Article précédentGTA 5 Online ajoute 5 nouvelles stations de radio cette semaine
Article suivantComment transférer facilement des fichiers sur Android TV à l’aide du service cloud
Avatar
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici