Un aspect des appels vidéo que beaucoup d’entre nous tiennent pour acquis est la façon dont ils peuvent basculer entre les flux pour mettre en évidence celui qui parle. Génial – si parler est comment vous communiquez La parole silencieuse comme la langue des signes ne déclenche malheureusement pas ces algorithmes, mais cette recherche de Google pourrait changer cela.
C’est un moteur de détection de la langue des signes en temps réel qui peut dire quand quelqu’un signe (au lieu de simplement se déplacer) et quand il a terminé. Bien sûr, il est trivial pour les humains de dire ce genre de chose, mais c’est plus difficile pour un système d’appel vidéo qui est habitué à simplement pousser des pixels.
Un nouvel article de chercheurs Google, présenté (virtuellement, bien sûr) à ECCV, montre comment cela peut être fait de manière efficace et avec très peu de latence. Cela irait à l’encontre du but si la détection de la langue des signes fonctionnait, mais qu’elle entraînait un retard ou une dégradation de la vidéo, leur objectif était donc de s’assurer que le modèle était à la fois léger et fiable.
Le système exécute d’abord la vidéo via un modèle appelé PoseNet, qui estime les positions du corps et des membres dans chaque image. Ces informations visuelles simplifiées (essentiellement une figure de bâton) sont envoyées à un modèle formé sur les données de pose de la vidéo de personnes utilisant la langue des signes allemande, et il compare l’image en direct à ce à quoi il pense que la signature ressemble.
Ce processus simple produit déjà une précision de 80% pour prédire si une personne signe ou non, et avec une optimisation supplémentaire, elle atteint une précision de 91,5%. Compte tenu du fait que la détection du «locuteur actif» sur la plupart des appels ne permet que de dire si une personne parle ou tousse, ces chiffres sont assez respectables.
Afin de travailler sans ajouter un nouveau signal «une personne signe» aux appels existants, le système tire un petit truc intelligent. Il utilise une source audio virtuelle pour générer une tonalité de 20 kHz, qui est en dehors de la plage d’audition humaine, mais remarquée par les systèmes audio informatiques. Ce signal est généré chaque fois que la personne signe, ce qui rend les algorithmes de détection vocale pense qu’ils parlent à haute voix.
Pour le moment, il ne s’agit que d’une démo, que vous pouvez essayer ici, mais il ne semble pas y avoir de raison pour laquelle elle ne pourrait pas être intégrée directement aux systèmes d’appels vidéo existants ou même en tant qu’application qui les utilise. Vous pouvez lire l’article complet ici.