L'évolution de la technologie de reconnaissance vocale.

L'évolution de la technologie de reconnaissance vocale.
Vous vous souvenez quand l'idée de KITT, la voiture parlante de Knight Rider, vous a de nouveau époustouflé ? Ou lorsque Blade Runner Eric Decker ordonna verbalement à son ordinateur d'améliorer les photos de scènes de crime ? L'idée d'être compris par un ordinateur semblait assez futuriste, encore moins un qui pourrait répondre à vos questions et comprendre vos commandes. À propos de l'auteur Graeme John Cole est un contributeur de Rev, créateur du moteur de reconnaissance vocale automatique le plus précis au monde, Rev.ai. Aujourd'hui, nous portons tous KITT dans nos poches. Nous soupirons quand KITT répond au téléphone à la banque. La personnalité n'est pas encore là, mais les ordinateurs peuvent reconnaître presque parfaitement les mots que nous prononçons. Michael Knight, le héros Knight Rider qui s'est associé à sa voiture intelligente pour lutter contre le crime, était sceptique quant à la capacité de KITT à comprendre ses questions en 1982. Mais le développement de la technologie de reconnaissance vocale était en cours depuis les années 1950. Voici comment cette technologie a évolué au fil des ans. les années. Et comment nos façons d'utiliser la reconnaissance vocale et les capacités de synthèse vocale ont évolué avec la technologie.

Boîte à chaussures IBM

(Crédit d'image: IBM)

Les premiers ordinateurs qui écoutent, 1950-1980

La puissance de la reconnaissance automatique de la parole (ASR) signifie que son développement a toujours été associé à de grands noms. Les laboratoires Bell ont ouvert la voie avec AUDREY en 1952. Le système AUDREY reconnaissait les nombres parlés avec une précision de 97 à 99 %, dans des conditions soigneusement contrôlées. Cependant, selon James Flanagan, un scientifique et ancien ingénieur électricien des Bell Labs, AUDREY était assise sur "un support de relais de six pieds de haut, consommant une puissance considérable et présentant la myriade de problèmes de maintenance associés aux circuits complexes des relais". tubes". AUDREY était trop cher et peu pratique, même pour des cas d'utilisation spécialisés. IBM a suivi en 1962 avec la Shoebox, qui reconnaissait les nombres et les termes mathématiques simples. Pendant ce temps, les laboratoires japonais ont développé la reconnaissance des voyelles et des phonèmes et le premier segment de la parole. C'est une chose pour un ordinateur de comprendre une petite plage de nombres (c'est-à-dire de 0 à 9), mais la percée de l'Université de Kyoto a été de "segmenter" une ligne de parole afin que la technologie puisse fonctionner sur une variété de sons parlés. . Dans les années 1970, le ministère de la Défense (DARPA) a financé le programme Speech Understanding Research (SUR). Les fruits de cette recherche comprenaient le système de reconnaissance vocale HARPY de Carnegie Mellon. HARPY a reconnu des phrases à partir d'un vocabulaire de 1.011 1980 mots, donnant au système la puissance d'un enfant moyen de trois ans. Quand j'avais trois ans, la reconnaissance vocale était maintenant belle et avait du potentiel, mais vous n'en voudriez pas au bureau. HARPY a été l'un des premiers à utiliser les modèles de Markov cachés (HMM). Cette méthode probabiliste a conduit au développement de l'ASR dans les années 1980. En fait, dans les années 20.000, les premiers cas d'utilisation viables pour les outils de synthèse vocale sont apparus avec le système de transcription expérimental d'IBM, Tangora. Avec une formation adéquate, Tangora pouvait reconnaître et écrire XNUMX XNUMX mots anglais. Cependant, le système était encore trop lourd pour une utilisation commerciale.

ASR au niveau du consommateur, des années 1990 aux années 2010

"Nous pensions qu'il était faux de demander à une machine d'imiter les gens", se souvient Fred Jelinek, un innovateur de la reconnaissance vocale d'IBM. « Après tout, si une machine doit se déplacer, elle le fait sur roues, pas en marchant. Au lieu d'étudier de manière exhaustive comment les gens entendent et comprennent la parole, nous voulions trouver le moyen naturel pour la machine de le faire. L'analyse statistique était désormais le moteur de l'évolution de la technologie ASR. En 1990, Dragon Dictate est sorti en tant que premier logiciel commercial de reconnaissance vocale. Il coûte 9,000 18,890 €, soit environ 2021 1997 € en 1992, inflation comprise. Jusqu'à la sortie de Dragon Naturally Speaking en 1.200, les utilisateurs devaient encore faire une pause entre chaque mot. En 1990, AT&T a lancé le service de traitement des appels par reconnaissance vocale (VRCP) des Bell Labs, qui traite désormais environ 2004 milliard de transactions vocales chaque année. Mais la plupart des travaux de reconnaissance vocale dans les années 2007 ont eu lieu sous le capot. L'informatique personnelle et le Web omniprésent ont créé de nouveaux angles d'innovation. C'était l'opportunité découverte par Mike Cohen, qui a rejoint Google pour lancer les efforts de l'entreprise en matière de technologie vocale en 2010. Google Voice Search (XNUMX) a apporté la technologie de reconnaissance vocale aux masses. Mais il a également recyclé les données vocales de millions d'utilisateurs du réseau comme matériel de formation pour l'apprentissage automatique. Et il avait le poids de traitement de Google pour améliorer la qualité. Apple (Siri) et Microsoft (Cortana) ont suivi juste pour rester dans le match. Au début des années XNUMX, l'émergence de l'apprentissage en profondeur, des réseaux de neurones récurrents (RNN) et de la mémoire à long terme (LSTM) a conduit à un saut hyperspatial dans les capacités de la technologie ASR. Cet élan vers l'avant a également été alimenté dans une large mesure par l'essor et la disponibilité accrue de l'informatique à faible coût et des avancées algorithmiques massives.

Capture d'écran de la WWDC 2021

(Crédit d'image: Apple)

L'état actuel de l'ASR

S'appuyant sur des décennies d'évolution et en réponse aux attentes croissantes des utilisateurs, la technologie de reconnaissance vocale a fait de nouveaux progrès au cours de la dernière demi-décennie. Des solutions pour optimiser la fidélité audio variable et les exigences matérielles exigeantes facilitent la reconnaissance vocale pour une utilisation quotidienne dans la recherche vocale et l'Internet des objets. Par exemple, les haut-parleurs intelligents utilisent la détection de mots clés pour fournir des résultats immédiats à l'aide d'un logiciel intégré. Pendant ce temps, le reste de la phrase est envoyé au cloud pour traitement. Le VoiceFilter-Lite de Google optimise le discours d'une personne à la fin de la transaction sur l'appareil. Cela permet aux consommateurs de "former" leur appareil avec leur voix. La formation réduit le rapport source-distorsion (SDR), améliorant ainsi la convivialité des applications d'assistance à commande vocale. Le taux d'erreur de mot (WER, le pourcentage de mots erronés qui apparaissent lors d'un processus de conversion parole-texte) est considérablement amélioré. Les universitaires suggèrent que d'ici la fin des années 2020, 99% du travail de transcription sera automatisé. Les humains n'interviendront que pour le contrôle de la qualité et les correctifs.

Cas d'utilisation de l'ASR dans les années 2020

La capacité ASR s'améliore en symbiose avec les développements de l'ère des réseaux. Voici trois cas d'utilisation convaincants pour la reconnaissance vocale automatisée. L'industrie du podcasting franchira la barre du milliard de dollars en 2021. Les audiences montent en flèche et les mots continuent d'affluer. Les plates-formes de podcast recherchent des fournisseurs ASR avec une haute précision et des tampons de mots pour aider les gens à créer des podcasts plus facilement et à maximiser la valeur de leur contenu. Des fournisseurs comme Descript convertissent les podcasts en texte qui peut être rapidement modifié. De plus, les horodatages basés sur des mots permettent de gagner du temps, permettant à l'éditeur de façonner le podcast fini comme de l'argile. Ces transcriptions rendent également le contenu plus accessible à tous les publics et aident les créateurs à améliorer la recherche et la découvrabilité de leurs émissions grâce au référencement. Aujourd'hui, de plus en plus de réunions se déroulent en ligne. Et même ceux qui ne le sont pas souvent s'inscrivent. Prendre quelques minutes coûte cher et prend du temps. Mais les notes de réunion sont un outil précieux pour les participants pour obtenir un résumé ou revoir un détail. La transmission ASR offre une synthèse vocale en temps réel. Cela signifie un sous-titrage facile ou une transcription en direct pour les réunions et les séminaires. Des processus tels que les dépositions légales, l'embauche, etc. devenir virtuel. ASR peut aider à rendre ce contenu vidéo plus accessible et attrayant. Mais plus important encore, les modèles d'apprentissage automatique (ML) de bout en bout (E2E) améliorent encore l'enregistrement des locuteurs : l'enregistrement de qui est présent et qui a dit quoi. Dans les situations à haut risque, la confiance dans les outils est essentielle. Un moteur de synthèse vocale ultra-faible WER fiable supprime l'élément de doute et réduit le temps nécessaire pour produire les documents finaux et prendre des décisions.

Enregistré

Pensez-vous que Knight Industries a déjà évalué la transcription des conversations de KITT et Michael pour améliorer son efficacité ? Peut être pas. Mais, alimentées par le récent passage au travail à domicile, de plus en plus de nos discussions ont lieu en ligne ou par téléphone. Le traitement du langage naturel (NLP) en temps réel et de haute précision nous donne le pouvoir sur nos mots. Ajoutez de la valeur à chaque interaction. Les outils ne sont plus exclusifs aux grands noms comme IBM et DARPA. Les consommateurs, les entreprises et les développeurs peuvent les utiliser comme bon leur semble, car la technologie de reconnaissance vocale s'efforce de dépasser les promesses de la science-fiction. Intéressé par la reconnaissance vocale ? Découvrez notre tour d'horizon des meilleurs logiciels de synthèse vocale