Un nouveau cadre d’attaque vise à déduire les frappes tapées par un utilisateur cible à l’extrémité opposée d’un appel de vidéoconférence en exploitant simplement le flux vidéo pour corréler les mouvements du corps observables au texte saisi.
La recherche a été entreprise par Mohd Sabra et Murtuza Jadliwala de l’Université du Texas à San Antonio et Anindya Maiti de l’Université de l’Oklahoma, qui disent que l’attaque peut être étendue au-delà des flux vidéo en direct à ceux diffusés sur YouTube et Twitch aussi longtemps qu’un Le champ de vision de la webcam capture les mouvements visibles du haut du corps de l’utilisateur cible.
mentionné. « Le but de l’adversaire est d’utiliser les mouvements observables du haut du corps sur toutes les images enregistrées pour déduire le texte privé tapé par la cible. »
Pour ce faire, la vidéo enregistrée est introduite dans un cadre d’inférence de frappe basé sur la vidéo qui passe par trois étapes –
- Prétraitement, où l’arrière-plan est supprimé, la vidéo est convertie en niveaux de gris, suivi de la segmentation des régions du bras gauche et droit par rapport au visage de l’individu détecté via un modèle doublé FaceBoxes
- Détection de frappe, qui récupère les cadres de bras segmentés pour calculer la mesure de l’indice de similarité structurelle (SSIM) dans le but de quantifier les mouvements corporels entre des images consécutives dans chacun des segments vidéo gauche et droit et d’identifier les images potentielles où les frappes se sont produites
- Prédiction de mots, où les segments d’image de frappe sont utilisés pour détecter les caractéristiques de mouvement avant et après chaque frappe détectée, en les utilisant pour déduire des mots spécifiques en utilisant un algorithme de prédiction basé sur un dictionnaire
En d’autres termes, à partir du pool de frappes détectées, les mots sont déduits en utilisant le nombre de frappes détectées pour un mot ainsi que l’amplitude et la direction du déplacement du bras qui se produit entre les frappes consécutives du mot.
Ce déplacement est mesuré à l’aide d’une technique de vision par ordinateur appelée flux optique clairsemé qui permet de suivre les mouvements des épaules et des bras sur les images de frappe chronologiques.
De plus, un modèle pour les « directions inter-touches sur le clavier QWERTY standard » est également tracé pour désigner les « directions idéales qu’une main de dactylo devrait suivre » en utilisant un mélange de mains gauche et droite.
L’algorithme de prédiction de mots recherche alors les mots les plus probables qui correspondent à l’ordre et au nombre de frappes à gauche et à droite et à la direction des déplacements de bras avec les directions inter-touches du modèle.
Les chercheurs ont déclaré avoir testé le cadre avec 20 participants (9 femmes et 11 hommes) dans un scénario contrôlé, en utilisant un mélange de méthodes de frappe et de frappe et de frappe tactile, en plus de tester l’algorithme d’inférence dans différents milieux, modèles de webcam, vêtements (en particulier la conception de la pochette), des claviers et même divers logiciels d’appel vidéo tels que Zoom, Hangouts et Skype.
Les résultats ont montré que les dactylographes chassant et picorant et ceux qui portaient des vêtements sans manches étaient plus sensibles aux attaques par inférence de mots, tout comme les utilisateurs de webcams Logitech, ce qui améliorait la récupération des mots que ceux qui utilisaient des webcams externes d’Anivia.
Les tests ont été répétés à nouveau avec 10 participants supplémentaires (3 femmes et 7 hommes), cette fois dans une configuration expérimentale à domicile, en déduisant avec succès 91,1% du nom d’utilisateur, 95,6% des adresses e-mail et 66,7% des sites Web tapés par les participants, mais seulement 18,9% des mots de passe et 21,1% des mots anglais tapés par eux.
« L’une des raisons pour lesquelles notre précision est pire que le paramètre In-Lab est que le classement du dictionnaire de référence est basé sur la fréquence d’utilisation des mots dans les phrases en anglais, et non sur des mots aléatoires produits par des personnes », Sabra, Maiti et Jadliwala Remarque.
Déclarant que le flou, la pixellisation et le saut d’image peuvent être un stratagème d’atténuation efficace, les chercheurs ont déclaré que les données vidéo peuvent être combinées avec les données audio de l’appel pour améliorer encore la détection des frappes.
« En raison des récents événements mondiaux, les appels vidéo sont devenus la nouvelle norme pour la communication à distance tant personnelle que professionnelle », soulignent les chercheurs. « Cependant, si un participant à un appel vidéo ne fait pas attention, il / elle peut révéler ses informations privées à d’autres personnes lors de l’appel. Nos précisions relativement élevées d’inférence de frappe dans des paramètres courants et réalistes mettent en évidence le besoin de sensibilisation et de contre-mesures. ces attaques. «
Les résultats devraient être présentés plus tard aujourd’hui lors du Symposium sur la sécurité des réseaux et des systèmes distribués (NDSS).