Dans le cadre du Pixel Feature Drop de décembre, l’excellente application Recorder de Google a obtenu des étiquettes de haut-parleur qui peuvent identifier plusieurs personnes. Comme les précédents éditionsl’équipe derrière est sortie avec une explication de la façon dont la fonctionnalité est née.

Les étiquettes de haut-parleur sont alimentées par Tourner pour Diarize, le nouveau système de diarisation des haut-parleurs de Google. Il y a trois composants principaux qui « fonctionnent entièrement sur l’appareil »:

  • Détection de tour de haut-parleur modèle qui détecte un changement de locuteur dans la parole d’entrée
  • Modèle d’encodeur de haut-parleur qui extrait les caractéristiques vocales de chaque tour de haut-parleur
  • Regroupement en plusieurs étapes algorithme qui annote les étiquettes des haut-parleurs à chaque tour de haut-parleur d’une manière très efficace

Notre système de diarisation des haut-parleurs s’appuie sur plusieurs modèles et algorithmes d’apprentissage automatique hautement optimisés pour permettre de diariser des heures d’audio en temps réel avec des ressources de calcul limitées sur les appareils mobiles.

Google note que les enregistrements audio de l’application Recorder peuvent durer « jusqu’à 18 heures » et que plus d’audio signifie une plus grande « confiance sur les étiquettes de locuteurs prédites ». En tant que tel, Recorder « apportera occasionnellement des corrections aux étiquettes de haut-parleur à faible confiance précédemment prédites », tandis que les utilisateurs peuvent apporter manuellement des modifications et diviser la transcription.

Le système actuel fonctionne principalement sur le processeur de Tensor, avec la première génération et le G2 pris en charge sur les Pixel 6, 6 Pro, 6a, 7 et 7 Pro. Pour l’avenir, Google « travaille à déléguer davantage de calculs au bloc TPU, ce qui réduira encore la consommation électrique globale du système de diarisation ». Pour le moment, Recorder 4.2 contient un texte d’avertissement indiquant que les étiquettes de haut-parleur ne fonctionneront pas si votre « appareil est trop chaud ».

Publicité

Une autre direction de travail future consiste à tirer parti des capacités multilingues de encodeur de haut-parleur et reconnaissance de la parole modèles pour étendre cette fonctionnalité à d’autres langues.

En savoir plus sur Google Pixel :

FTC : Nous utilisons des liens d’affiliation automatique générateurs de revenus. Plus.

Baseus 750X150

4.5/5 - (34 votes)
Publicité
Article précédentCette monture Final Fantasy 14 à 24 $ vous transforme en Mary Poppins
Article suivantQuand un plan se concrétise : à l’intérieur d’un braquage d’entreprise massif d’Eve Online

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici