L'ODJ Média

Microsoft dévoile une intelligence artificielle qui imite n’importe quelle voix en l’écoutant trois secondes


Rédigé par le Mardi 10 Janvier 2023

La multinationale informatique présente une intelligence artificielle qui reproduit la voix de n'importe qui à partir d'un court échantillon.



Le plus fidèle possible

Microsoft dévoile une intelligence artificielle qui imite n’importe quelle voix en l’écoutant trois secondes
Microsoft révèle une intelligence artificielle qui reproduit la voix de n'importe qui à partir d'un court échantillon. Le tout en assurant le même ton que la personne imitée.
 
Après l'image (notamment avec Dall-E) et le texte (avec ChatGPT), la voix semble être le nouveau terrain de jeu de l'intelligence artificielle. Microsoft dévoile VALL-E, un outil capable de reproduire la voix de tout un chacun à partir d'un échantillon de seulement trois secondes. Le logiciel promet d'être le plus fidèle possible dans son imitation.
 
Pour ce faire, Microsoft a nourri son intelligence artificielle de 60 000 heures de données d'anglais parlé, explique le site américain Ars Technica.

La grande force de VALL-E est de pouvoir retranscrire le ton et l'émotion d'une personne. Il est ainsi possible d'obtenir une lecture incarnée même si les mots prononcés ne figurent pas dans l'échantillon original. L'entreprise américaine a mis en ligne des exemples sur une page web consacrée.

Un danger potentiel ?

Plus l'échantillon original est long, plus la voix générée sera réaliste. Les fichiers audio de trois secondes constituent la limite à partir de laquelle une imitation peut être produite. Mais des résultats plus fidèles peuvent être obtenus en donnant plus de matière à VALL-E.
 
Comme tout contenu généré par une intelligence artificielle, cette technologie ouvre la porte à l'imitation. Des hommes politiques ou des célébrités pourraient voir des messages non consensuels (appelés deep fakes) exprimés à partir d'un échantillon de leur voix.
 
VALL-E soulève également de sérieux problèmes de sécurité. Comme le souligne le site Windows Central, certains services (comme les banques) utilisent la voix de leurs utilisateurs comme mot de passe.
 
Enfin, ce sont surtout les activités artistiques qui pourraient en pâtir le plus. A partir d'un seul échantillon, VALL-E serait capable de gérer des tâches actuellement réservées aux humains. En particulier, le doublage de films ou de séries, ou encore de livres audio.
 
Pour l'instant, Microsoft ne propose pas aux internautes de générer leur propre synthèse vocale. L'entreprise assure qu'elle développera également un outil permettant de détecter une "fausse voix", afin de limiter au maximum les abus.

L'odj avec BFMTV




Mardi 10 Janvier 2023