John Leyden 19 octobre 2020 à 13:33 UTC

Mis à jour: 19 octobre 2020 à 15:35 UTC

Les boffins de l’Université de Cambridge appliquent le traitement du langage naturel pour trier l’argot sur HackForums

Des informaticiens et des linguistes de l’Université de Cambridge se sont associés pour appliquer des techniques de traitement du langage naturel (PNL) afin de repérer les tendances des discussions sur les forums souterrains sur la cybercriminalité.

Ces forums et chatrooms clandestins comportent généralement de nombreuses discussions générales, ainsi que des tentatives de vente de logiciels et autres articles illicites, ou des tutoriels de piratage. Les messages sont souvent pleins de lexiques spécifiques au domaine, de fautes d’orthographe, d’argot, de jargon et d’acronymes.

Les approches PNL standard sont adaptées pour un contenu plus organisé, édité et collationné tel que des articles de presse et des entrées de Wikipedia. Les approches conventionnelles s’effondrent une fois confrontées à des discussions sur «fullz», «warez», «rats», «sploits» et d’autres termes qui émaillent les forums de cybercriminalité en anglais.

Une équipe de chercheurs dirigée par Jack Hughes du Computer Laboratory de l’Université de Cambridge et le linguiste Seth Aycock, également de l’Université de Cambridge, ont cependant pu développer une technique pour identifier les tendances des années de messages à un forum de piratage souterrain en anglais. – en particulier le site populaire HackForums.

Données bruyantes

L’approche statistique développée par l’équipe était basée sur une technique appelée “ log-odds ratio pondéré ” qui permettait d’obtenir de meilleurs résultats que “terme-fréquence fréquence-document-inverse‘(TF-IDF), une autre méthode basée sur la PNL.

Les chercheurs ont testé leur technique en examinant les publications de HackForums faisant référence à la propagation du ransomware WannaCry en 2017, et un deuxième ensemble de messages contenus dans un sous-forum appelé “ Techniques de monétisation ”.

En savoir plus sur les dernières nouvelles sur la cybercriminalité

L’approche d’analyse statistique bayésienne adoptée par les chercheurs et les techniques de PNL qu’ils ont appliquées est informée par recherches antérieures pour donner un sens aux «données textuelles bruyantes».

«Détecter les sujets tendance sur les données bruyantes des réseaux sociaux n’est pas un nouveau problème pour la recherche d’informations et la PNL», explique l’équipe de l’Université de Cambridge.

“Cependant, nous pensons que notre application d’une méthode statistique existante sur un ensemble de données longitudinales fournit une nouvelle approche légère pour détecter les termes de tendance, qui renvoie des termes plus pertinents que TF-IDF, et reste moins coûteuse en calcul que la modélisation thématique telle que LDA.”

Canari de la cybercriminalité

L’application de la technique peut avoir des applications pratiques pour «identifier plus rapidement et plus efficacement ce qui pourrait intéresser les chercheurs en sécurité», selon les chercheurs.

Cependant, l’équipe reconnaît que, étant donné que de nombreux articles sur la cybercriminalité ont lieu sur des forums en russe, il faut plus de travail pour voir si la technique se prête à une application plus large.

«De nombreux forums sur la cybercriminalité ne sont pas anglophones, ce qui peut compliquer l’analyse», a reconnu l’équipe.

UNE papier (PDF) sur la recherche a été acceptée lors de l’atelier 2020 sur le texte bruyant généré par l’utilisateur.

Le Daily Swig a abordé les chercheurs avec des questions supplémentaires. Aucun mot pour l’instant mais nous mettrons à jour cette histoire au fur et à mesure que de plus amples informations seront disponibles.

LIRE LA SUITE FIN11 découvert: un groupe de piratage est promu au rang d’élite de la cybercriminalité financière

Leave a Reply