La reconnaissance vocale et le défi des langues du monde

L'ODJ Média

Une startup de reconnaissance vocale vient d'obtenir 62 millions de dollars de financement de série B. Comment cet argent sera-t-il utilisé ? Dans une quête pour permettre à un ordinateur de comprendre toutes les voix du monde.

Si cela ne vous semble pas extrêmement ambitieux, c'est que vous n'avez pas passé assez de temps à essayer de faire composer un SMS à Siri. La reconnaissance vocale a été un énorme défi pour les développeurs, et c'est un casse-tête qui est surveillé de près dans toute une série d'industries. Cette technologie a des répercussions sur les interfaces homme-machine dans des domaines comme la robotique, les véhicules autonomes et l'informatique personnelle.

La reconnaissance vocale est donc une sorte de point d'entrée technologique, un besoin du marché qui peut contribuer à stimuler le développement de technologies qui auront une large résonance et des implications incalculables sur la façon dont nous interagissons avec les machines.

Le défi du modèle d'apprentissage

C'est aussi une question d'équité. Il n'est pas surprenant que la reconnaissance vocale ne fonctionne actuellement bien que pour une petite partie de la population mondiale.

Le modèle d'apprentissage constitue une grande partie du défi. La plupart des données d'apprentissage doivent être classées manuellement, ce qui signifie que la précision ne peut être atteinte que sur un ensemble très restreint de locuteurs (sans surprise, cet ensemble restreint correspond précisément aux consommateurs les plus précieux). Speechmatics adopte une approche différente dans sa tentative de reconnaissance vocale plus représentative.

Sur la base des ensembles de données utilisés dans l'étude "Racial Disparities in Speech Recognition" de Stanford, Speechmatics a enregistré une précision globale de 82,8 % pour les voix afro-américaines, par rapport à Google (68,6 %) et Amazon (68,6 %). Ce niveau de précision équivaut à une réduction de 45 % des erreurs de reconnaissance vocale, soit l'équivalent de trois mots dans une phrase moyenne.

Son moteur est exposé à des centaines de milliers de voix individuelles en utilisant des données vocales non étiquetées, plus représentatives et ne nécessitant pas d'intervention humaine. Cela a permis d'étendre la couverture au-delà des locuteurs de langue anglaise.

« Les progrès réalisés au cours des dernières années ont suscité l'intérêt des investisseurs pour notre levée de fonds de série B », déclare la CEO, Katy Wigdahl. « L'équipe de Speechmatics est extrêmement ambitieuse. Nous disposons d'un véritable héritage en matière de technologie vocale, combiné à certains des experts les plus talentueux du monde en matière de parole et de machine learning. »

34 langues référencées

À l'heure actuelle, le moteur comprend 34 langues, une petite goutte dans un très grand seau linguistique (il y a plus de 7 000 langues parlées dans le monde). Mais la plateforme a fait des progrès impressionnants en ce qui concerne la ponctuation, les chiffres, les devises et les adresses, qui font traditionnellement défaut aux moteurs de reconnaissance vocale.

Tout cela a suscité un intérêt majeur pour la société basée au Royaume-Uni. Des entreprises telles que 3Play Media, Veritone, Deloitte UK et Vonage, ainsi que des services gouvernementaux du monde entier, utilisent la plateforme.

Conformément à ses objectifs mondiaux, Speechmatics a son siège au Royaume-Uni, mais possède des bureaux à Boston (États-Unis), Chennai (Inde) et Brno (République tchèque). La société utilisera cet investissement pour soutenir son expansion mondiale aux États-Unis et en Asie-Pacifique.

[De la reconnaissance faciale à celle des langues des uns et des autres, à leurs aspects physiques, leurs corpulences, à votre façon de marcher, d'être, de se comporter... de quoi inquiéter beaucoup mais également générer chez beaucoup d'autres, plus nombreux à mon avis, des idées pour le développement de projets novateurs dans tous les domaines, et surtout pour revoir et développer de nouveaux modes d' interaction avec ce que nous appelions jadis la machine, aujourd'hui une structure, un "être" doté d'une intelligence propre, artificielle ou augmentée, capable de réaliser des taches en toute indépendance, des calculs, de produire...

Derrière tout cela, un besoin de data centers, d'espaces d'hébergements de ces milliards de milliards de data, à l'immensité jamais imaginée, pour les traiter par des structures complexes dotées elles aussi de cette intelligence augmentée développée par l'homme pour le servir ...
La limite n'est en fait pas le ciel, mais plutôt notre imagination...]

Publié sur ZedNet, repris par la Fondation Tamkine
#Tamkine_ensemble_nous_reussirons