Sera-t-il un jour possible pour Google de créer un index de contenu audio que les utilisateurs peuvent parcourir comme des pages Web?

Les résultats des premiers tests, publiés par Google dans un article de blog, indiquent que la recherche audio est plus difficile à réaliser qu’il n’y paraît.

Les détails de ces tests sont partagés dans un article rédigé par Tim Olson, SVP des partenariats stratégiques numériques chez KQED.

Google s’associe à KQED dans un effort conjoint pour rendre l’audio plus trouvable.

Avec l’aide de KUNGFU.AI, un fournisseur de services d’IA, Google et KQED ont exécuté des tests pour déterminer comment transcrire l’audio de manière rapide et sans erreur.

Publicité

Publicité

Continuer la lecture ci-dessous

Voici ce qu’ils ont découvert.

Les difficultés de la recherche audio

Le plus grand obstacle à la possibilité de faire de la recherche audio est le fait que l’audio doit être converti en texte avant de pouvoir être recherché et trié.

Il n’existe actuellement aucun moyen de transcrire avec précision l’audio d’une manière qui permette de le retrouver rapidement.

La seule façon dont la recherche audio à l’échelle mondiale serait possible est la transcription automatisée. Les transcriptions manuelles exigeraient beaucoup de temps et d’efforts de la part des éditeurs.

Olson de KQED note à quel point la barre de précision doit être élevée pour les transcriptions audio, en particulier lorsqu’il s’agit d’indexer des informations audio. Les progrès réalisés jusqu’à présent dans le domaine de la synthèse vocale ne répondent pas actuellement à ces normes.

Publicité

Continuer la lecture ci-dessous

Limitations de la technologie Speech-to-Text actuelle

Google a mené des tests avec KQED et KUNGFU.AI en appliquant les derniers outils de synthèse vocale à une collection d’actualités audio.

Des limites ont été découvertes dans la capacité de l’IA à identifier les noms propres (également connus sous le nom d’entités nommées).

Les entités nommées ont parfois besoin de comprendre le contexte pour être identifiées avec précision, ce que l’IA n’a pas toujours.

Olson donne un exemple d’actualités audio de KQED qui contient des paroles pleines d’entités nommées contextuelles à la région de la baie:

«L’audio des nouvelles locales de KQED est riche en références d’entités nommées liées à des sujets, des personnes, des lieux et des organisations qui sont contextuels à la région de la baie. Les orateurs utilisent des acronymes comme «CHP» pour California Highway Patrol et «the Peninsula» pour la zone s’étendant de San Francisco à San Jose. Celles-ci sont plus difficiles à identifier pour l’intelligence artificielle. »

Lorsque les entités nommées ne sont pas comprises, l’IA fait sa meilleure estimation de ce qui a été dit. Cependant, c’est une solution inacceptable pour la recherche sur le Web, car une transcription incorrecte peut changer tout le sens de ce qui a été dit.

Et après?

Les travaux se poursuivront sur la recherche audio avec des plans pour rendre la technologie largement accessible lorsqu’elle sera développée.

David Stoller, partenaire responsable des actualités et de la publication chez Google, a déclaré que la technologie sera partagée ouvertement lorsque le travail sur ce projet sera terminé.

« L’un des piliers de la nouvelle initiative Google est l’incubation de nouvelles approches face à des problèmes difficiles. Une fois terminée, cette technologie et les meilleures pratiques associées seront partagées ouvertement, ce qui augmentera considérablement l’impact escompté. »

Les modèles d’apprentissage automatique d’aujourd’hui n’apprennent pas de leurs erreurs, dit Olson de KQED, c’est là que les humains peuvent avoir besoin d’intervenir.

Publicité

Continuer la lecture ci-dessous

L’étape suivante consiste à tester une boucle de rétroaction dans laquelle les salles de rédaction aident à améliorer les modèles d’apprentissage automatique en identifiant les erreurs de transcription courantes.

«Nous sommes convaincus que dans un proche avenir, les améliorations apportées à ces modèles de synthèse vocale permettront de convertir plus rapidement l’audio en texte, aidant ainsi les gens à trouver plus efficacement les actualités audio.»

La source: Google


Rate this post
Publicité
Article précédentBoruto révèle l’éveil explosif de Kawaki
Article suivantcdiscount: L’iPhone 8 à seulement 19€ chez Cdiscount avec un forfait 100 Go
Avatar De Violette Laurent
Violette Laurent est une blogueuse tech nantaise diplômée en communication de masse et douée pour l'écriture. Elle est la rédactrice en chef de fr.techtribune.net. Les sujets de prédilection de Violette sont la technologie et la cryptographie. Elle est également une grande fan d'Anime et de Manga.

LAISSER UN COMMENTAIRE

S'il vous plaît entrez votre commentaire!
S'il vous plaît entrez votre nom ici