TIC
- Information et Communication
- Informatique
Vers le succès en reconnaissance vocale
- Tweeter
-
-
0 avis :
Sans l'apport des statistiques, les systèmes de reconnaissance de la parole n'auraient jamais quitté les laboratoires. Jusqu'aux années 1970, les logiciels de reconnaissance vocale tentaient d'identifier, dans le signal de la parole, les formes caractéristiques des voyelles et des consonnes. Cette approche échoua en raison de la très grande diversité de prononciation des phonèmes mais aussi en raison de la difficulté de distinguer le signal du bruit ambiant.
L'adoption de modèles statistiques fondés sur les chaînes de Markov cachées a changé la donne. " Chaînes" car les logiciels découpent le flot de parole en une succession de sons, et " cachées " parce que l'une des variables définies dans le modèle est inconnue à l'avance. Concrètement, le logiciel découpe les mots prononcés en brèves tranches de 10 millisecondes et cherche à associer ces tranches à une composante d'un phonème : à l'attaque, à sa partie stable ou à la fin (la variable cachée). Puis il compare le spectre sonore avec ceux qu'il a en mémoire, c'est-à-dire les souvenirs statistiques qu'il a acquis lors d'un long apprentissage à l'aide de textes cumulant des centaines de millions de mots ! Ces textes sont lus dans le contexte sonore auquel est destinée l'application pour savoir gérer le bruit ambiant, et par plusieurs personnes pour représenter la variabilité phonétique interindividuelle.
Grâce aux modèles de Markov, les logiciels de reconnaissance vocale peuvent atteindre 95% de réussite dans de bonnes conditions sonores. Certains, comme les modèles multi-bandes, pallient le fait que le modèle de Markov considère de façon équivalente toutes les fréquences car ils sont capables de se concentrer sur la gamme de fréquences extérieure au bruit. Les réseaux bayésiens permettent, eux, de choisir beaucoup plus librement les relations de dépendance entre les variables des modèles. L'avenir des logiciels de reconnaissance vocale réside probablement dans l'exploitation conjointe des statistiques et des connaissances en psycho-acoustique.
INRIA :
http://www.inria.fr/actualites/inedit/inedit43_parta3.fr.html
Noter cet article :
Vous serez certainement intéressé par ces articles :
Une IA qui lit dans les pensées et les transcrit en texte...
Des chercheurs du GrapheneX-UTS, centre d’intelligence artificielle de l’Université de technologie de Sydney, ont mis au point une technologie qui peut être utilisée pour « faciliter la ...
Un outil d’IA permet de détecter plus rapidement les incendies
En 2022, 72 000 hectares ont brûlé en France. Neuf feux sur dix sont d’origine humaine (chantiers de BTP, activités agricoles, câbles électriques, mégots de cigarettes, barbecues, incendies de ...
Edito : L'IA réinvente le vivant...et les médicaments
CAMPAGNE de DONS Total des dons reçus depuis le début de la campagne : 5.622,00 € = 89,95 % Objectif à atteindre en cette cinquième semaine de la campagne de dons : 6.250,00 € Cette cinquième ...
Recommander cet article :
- Nombre de consultations : 89
- Publié dans : Informatique
- Partager :