TIC
- Information et Communication
- Informatique
Avancée majeure en reconnaissance vocale
- Tweeter
-
-
2 avis :
Une équipe de Microsoft Research, spécialisée en intelligence artificielle, annonce avoir accompli une avancée majeure en matière de reconnaissance vocale, en concevant un système capable de transcrire une conversation aussi bien qu’un professionnel humain.
Microsoft affirme avoir réalisé une « performance historique » avec son système de reconnaissance vocale qui transcrit la parole conversationnelle aussi bien que des humains spécialisés dans cet exercice. Pour confirmer cette avancée, l'équipe d'Harry Shum a demandé à des transcripteurs professionnels de travailler à partir de la base de données Switchboard.
Elle a été créée dans les années 1990 par le National Institute of Standards and Technology (NIST) afin de servir de maître-étalon aux travaux sur la reconnaissance vocale. Switchboard contient des échantillons de conversations téléphoniques en anglais, espagnol et chinois mandarin, qui ont l'avantage de recréer des conditions réelles où les gens peuvent parfois marmonner, bafouiller, tousser, s'éclaircir la voix...
Confronté à ce test, le logiciel de reconnaissance vocale de Microsoft a obtenu un taux d'erreur de 5,9 % qui, selon le géant nord-américain, est, d'une part, égal à celui que les transcripteurs humains ont atteint et, d'autre part, le taux le plus bas jamais enregistré sur Switchboard.
Pour réaliser cette performance, l'équipe de Microsoft Research s'est appuyée sur un réseau neuronal d'apprentissage profond, à l'instar de Google qui a récemment fait de gros progrès en matière de traduction instantanée grâce à cette méthode. Du côté de Microsoft, l'une des clés de la réussite tient à l'optimisation du fonctionnement de l'infrastructure de son IA nommée Computational Network Toolkit (CNTK).
Cette plate-forme d'apprentissage profond, par ailleurs disponible en open source viaGitHub, peut exécuter ses algorithmes sur plusieurs ordinateurs équipés de processeurs graphiques dont la capacité à traiter des centaines de milliards d'opérations par seconde a joué un rôle déterminant dans l'avènement des réseaux neuronaux ces dernières années.
L'intelligence artificielle de Microsoft est capable de rapprocher ces deux mots et pour le coup d'être nettement plus rapide dans son traitement. La firme nord-américaine prévoit d'exploiter cette technologie dans sa console de jeu vidéo Xbox, avec l'assistant virtuel Cortana qui est intégré à ses smartphones et ordinateurs Windows 10 ainsi que pour des logiciels de transcription vocale en texte.
Malgré cette percée majeure, il ne s'agit que d'une étape. En effet, Microsoft Research explique que ses spécialistes vont désormais s'atteler à faire fonctionner leur système de reconnaissance vocale dans diverses conditions réelles, avec notamment un bruit de fond élevé (circulation automobile, brouhaha d'une fête...). Ils veulent également que leur IA soit en mesure de reconnaître différents types de voix en fonction de l'âge ou de l'accent mais aussi d'identifier chaque interlocuteur lorsque plusieurs personnes s'expriment en même temps.
Article rédigé par Georges Simmonds pour RT Flash
Noter cet article :
Vous serez certainement intéressé par ces articles :
L'ordinateur traditionnel n'a pas dit son dernier mot face à l'ordinateur quantique
L’informatique quantique est une technologie qui a le potentiel de révolutionner divers domaines en résolvant des problèmes complexes plus rapidement et plus efficacement que les ordinateurs ...
L'ordinateur quantique franchit la barre des 1000 qbits
Les chercheurs de la TU Darmstadt ont franchi une nouvelle étape vers un ordinateur quantique opérationnel en atteignant le seuil des 1000 qbits. Les processeurs quantiques basés sur des réseaux ...
Un outil d’IA permet de détecter plus rapidement les incendies
En 2022, 72 000 hectares ont brûlé en France. Neuf feux sur dix sont d’origine humaine (chantiers de BTP, activités agricoles, câbles électriques, mégots de cigarettes, barbecues, incendies de ...
Recommander cet article :
- Nombre de consultations : 590
- Publié dans : Informatique
- Partager :