L'IA de Meta permet de créer des sons communs et de la musique à partir de texte


Rédigé par Rédaction le Lundi 10 Octobre 2022

Le modèle d’intelligence artificielle text-to-audio baptisé AudioGen, conçu par Meta en collaboration avec l’Université hébraïque de Jérusalem, est capable de recréer toute sorte de sons à partir de l’invite textuelle correspondante, telle que « un homme en train de parler pendant qu’il tape sur son clavier », ou « un cheval qui galope, et une femme rit en arrière-plan », etc. Ce type de programme pourrait être utilisé dans le secteur des jeux vidéos, ainsi que dans l’industrie cinématographique ou musicale.



Il y a quelques jours, Meta présentait son IA Make-A-Video, capable de générer de courts clips vidéos à partir d’invites textuelles. De la même façon, l’IA AudioGen est un modèle génératif autorégressif qui génère des échantillons audio conditionnés par des entrées textuelles.
Elle utilise un modèle de langage qui lui permet de comprendre la chaîne de texte qui lui est proposée en entrée, puis isole les mots pertinents, à partir desquels elle va générer des sons.

Par exemple, de la phrase « un chien qui aboie dans un parc », AudioGen ne retient que les mots « chien », « aboie » et « parc », afin de recréer l’ambiance sonore associée.

Pour parvenir à ce résultat, AudioGen a subi un long apprentissage, reposant sur environ 4000 heures de données d’entraînement, issues d’une dizaine d’ensembles de données différents.

Selon Félix Kreuk, ingénieur de recherche chez Meta AI research, AudioGen peut produire une très grande variété de sons et même les associer dans un même fichier audio. Il peut également générer tout un morceau de musique à partir d’un court extrait musical.

Source : https://trustmyscience.com/ia-meta-cree-sons-commu...





Lundi 10 Octobre 2022
Dans la même rubrique :