Deepfake vocaux : comment fabriquer des voix artificielles en quelques seconds

Cloner une voix à partir d’un échantillon de parole de quelques secondes. En quelques années, la génération de parole, ou deepfake vocaux, est passé d’un processus long et laborieux à un service facilement accessible et ultra rapide. Et si les voix modifiées ou synthétisées sont de plus en plus courantes et réalistes, il n’est pas toujours facile de les identifier.

La génération de parole a plus de 200 ans d’histoire. Parmi les premiers scientifiques à imaginer des machines capables de parler, on peut citer le mathématicien suisse Leonhard Euler qui, en 1761, s’interroge sur la nature des voyelles et la possibilité de les reproduire. Bien entendu, les compétences techniques de l’époque ne permettaient pas de créer de la parole continue et réaliste, mais l’idée était déjà présente.

Le domaine a connu une évolution rapide ces dernières décennies en parallèle du développement de l’informatique. La qualité des voix générées ces dernières années n’a fait qu’augmenter de plus en plus rapidement. À la fin des années 1990, deux approches concurrentes sont apparues. La première, la synthèse par concaténation consiste à découper des segments de parole existants puis de les coller les uns aux autres dans le bon ordre. La synthèse probabiliste de son côté cherche à modéliser les probabilités de transition d’un son à un autre. Ces deux approches ont été très populaires jusqu’à l’avènement des réseaux de neurones.

Une rupture technologique a eu lieu avec la sortie du premier modèle neuronal capable de générer de la parole quasi indiscernable de la parole humaine, WaveNet, développé par la société Deepmind en 2016. Tout s’est ensuite accéléré et les systèmes se sont multipliés. En quelques années seulement, les progrès en puissance de calcul ainsi que ceux des architectures de réseaux de neurones, ainsi que l’utilisation de grandes bases de données de plusieurs centaines voire milliers d’heures de parole naturelle, ont permis aux modèles de synthèse de devenir très performants. À titre d’exemple, le système VALL-E de Microsoft, sorti début janvier 2023, a été entraîné sur un ensemble d’environ 60 000 h de parole et permet de reproduire la voix d’un locuteur à partir d’un échantillon de quelques secondes seulement.

Comment produire de la voix à la demande ?

Plusieurs techniques existent pour générer de la parole, suivant le type de données utilisées en entrée (texte ou parole). Dans le premier cas, les modèles permettant de passer d’un texte à un signal vocal : il s’agit de synthèse de parole. Dans le second, l’entrée est le signal acoustique d’un locuteur que l’on veut alors modifier pour qu’il soit perçu comme s’il avait été prononcé par quelqu’un d’autre : c’est la conversion de voix.

Dans les deux cas, il est nécessaire de spécifier l’identité du locuteur que l’on souhaite reproduire. Une première catégorie d’approches consiste à adapter le modèle pour qu’il devienne spécifique à un locuteur donné. On utilise alors un ensemble de données spécifiques au locuteur ciblé. La seconde catégorie repose sur l’usage d’un modèle qui apprend à représenter les locuteurs dans un espace continu. Techniquement, les réseaux de neurones apprennent, à partir de données issues de milliers de locuteurs, à organiser les identités de voix les unes par rapport aux autres. Seulement quelques secondes de parole suffisent alors pour calculer la façon de « placer » un nouveau locuteur dans cet espace.

Cette « carte des locuteurs » permet ensuite de guider la génération de parole. Le synthétiseur de parole peut alors générer un signal correspondant à un texte donné et à la voix du locuteur cible. Cette technique est communément appelée clonage de voix. Le même type de technique existe en remplaçant le texte donné en entrée par un signal acoustique d’un autre locuteur pour réaliser de la conversion de voix. Dans ce cas, le système modifie « simplement » l’identité du locuteur d’un contenu audio.

De nombreuses applications, mais pas toujours bien intentionnées

La qualité obtenue avec les systèmes actuels est très bonne. Cependant, pour l’instant, on ne peut pas réellement déterminer comme on le souhaite les caractéristiques de la voix, qui dépendent des données utilisées pour entraîner les modèles. D’une part, le modèle ne peut pas inventer ce qu’il n’a pas vu lors de son entraînement, d’autre part, les techniques actuelles ne permettent pas un contrôle fin sur la sortie générée. Ainsi, il manque des leviers pour ajuster des éléments liés à l’identité de la voix comme l’âge perçu, l’accent ou encore l’émotion. Cela fait d’ailleurs l’objet de recherches en cours, comme dans le cadre du projet [EVA].

La qualité actuelle favorise le développement de nouveaux usages très ludiques tout autant que des applications commerciales. Il est très facile d’emprunter la voix de célébrités pour leur faire dire ce que l’on souhaite, ou créer des messages personnalisés en modifiant sa propre voix. Même si les applications historiques existent toujours, comme pour la diffusion de messages dans les gares ou les transports en commun, il est désormais possible de faire usage de ces technologies dans le domaine du cinéma – doublage de film –, des jeux vidéos ou encore pour des applications liées à la traduction en temps réel de parole à parole. Les applications liées au médical ou à l’aide à la personne ne sont pas en reste : l’application de synthèse de parole dans un contexte de remédiation vocale permet à un utilisateur de disposer d’un système qui reproduit son identité vocale.

Le revers de la médaille est qu’il devient aisé d’usurper l’identité d’une personne : parmi les fake news, nous devons désormais être vigilants vis-à-vis des deepfakes. Dans les médias, les exemples fleurissent, touchant parfois au cœur même des acteurs développant ces outils : OpenAI a ainsi dû retirer une voix très proche de celle de Scarlett Johansson du catalogue de ChatGPT. Pour l’instant malheureusement, les progrès faits en génération dépassent ceux en détection de parole générée.

Identifier les voix de synthèse

Le domaine de la détection de deepfakes est cependant en plein essor. Ainsi, des challenges dont le but est de détecter si une voix a ou non été générée, comme ASVSPoof, permettent d’améliorer ces techniques, en parallèle du développement de projets de recherche, comme le projet RAPID porté par Whispeak en collaboration avec l’IRISA.

Un autre élément de solution, outre la détection, peut être le tatouage de contenu afin de garantir leur authenticité. Ce champ de recherche consiste à trouver des moyens de prouver l’authenticité de documents, sans que cela soit perceptible pour l’utilisateur final. Dans le cas du son, il s’agit d’introduire des éléments dans le signal qui permettent de prouver l’authenticité d’un contenu sans toutefois gêner l’écoute. Cela nécessite bien entendu de mettre en place un cercle vertueux où chacun prendrait conscience qu’avant de croire ce que l’on entend, il faudrait vérifier que cela est bien issu d’un enregistrement authentique. En attendant, le sens critique est le meilleur moyen d’éviter de se faire piéger.

En quelques années, les technologies de synthèse et de conversion de voix ont fait des progrès fulgurants, posant de ce fait de nouveaux problèmes éthiques et techniques. Désormais, l’enjeu est de permettre des applications variées sans pour autant faciliter l’utilisation trompeuse de voix générées, et donc de clarifier l’origine naturelle ou artificielle des enregistrements sonores. C’est ainsi que nous pourrons éviter un flot de fake news particulièrement réalistes ou même de brouiller la distinction entre humain et intelligence artificielle, comme le dépeint le film Her de Spike Jonze.

Le projet EVA est soutenu par l’Agence nationale de la recherche (ANR), qui finance en France la recherche sur projets. Elle a pour mission de soutenir et de promouvoir le développement de recherches fondamentales et finalisées dans toutes les disciplines, et de renforcer le dialogue entre science et société. Pour en savoir plus, consultez le site de l’ANR.

Damien Lolive, Professeur des universités en Informatique, Université Bretagne Sud (UBS)

Cet article est republié à partir de The Conversation sous licence Creative Commons. Lire l’article original.