OpenAI annonce pouvoir cloner une voix à partir de seulement 15 secondes d’audio

La technologie est une extension de l'API de synthèse vocale déjà existante de l'entreprise.
Tl;dr
- OpenAI annonce une preview de son nouvel outil Voice Engine.
- La technologie imite n’importe quelle voix à partir d’un échantillon audio de 15 secondes.
- Elle pourrait aider avec la lecture, la traduction et les troubles de la parole.
- Mais il y a des préoccupations concernant l’abus potentiel et les problèmes de confidentialité.
L’intelligence artificielle rouvre les frontières de l’audio
Chers lecteurs, le futur de l’audio se dessine. L’entreprise OpenAI a récemment annoncé la prévisualisation à petite échelle de Voice Engine, un outil révolutionnaire capable de dupliquer n’importe quelle voix à partir d’un échantillon audio de 15 secondes à peine. Selon l’entreprise, cette technologie offre une « parole naturelle extrêmement réaliste et chargée d’émotion ».
Promesses et préoccupations de Voice Engine
« Une dimension supplémentaire au monde de l’audio », comme le mettent en avant les promoteurs de cette technologie. OpenAI envisage plusieurs applications telles que :
- L’assistance à la lecture,
- La traduction de langues,
- Le soutien aux personnes souffrant de troubles de la parole abrupts ou dégénératifs.
Un projet pilote de l’Université Brown a déjà démontré le potentiel de cette technologie, en aidant un patient souffrant d’un trouble de la parole à communiquer grâce à un clone vocal produit par Voice Engine.
Cependant, des préoccupations subsistent. Le risque d’abus de cette technologie par des acteurs malveillants, en particulier dans le domaine des deepfakes, pèse comme une épée de Damoclès. OpenAI est consciente de ces enjeux et insiste sur la nécessité d’aborder de manière efficace et responsable les préoccupations en matière de confidentialité avant toute mise en service à grande échelle.
Un déploiement responsable
OpenAI affirme travailler en étroite collaboration avec des partenaires aux États-Unis et à l’international, issus de divers secteurs tels que le gouvernement, les médias, le divertissement, l’éducation et la société civile, pour minimiser les risques. Des mesures de transparence sont établies : tout utilisateur de la technologie devra préciser à son auditoire que les voix sont générées par IA. Des mesures de sécurité, telles que le marquage d’eau pour identifier l’origine de l’audio et la surveillance proactive de l’utilisation du système, sont également en place.
Pour le moment, OpenAI reste discrète sur la date de sortie de Voice Engine et son tarif. Cependant, des informations dénichées par TechCrunch suggèrent un coût possiblement inférieur à celui des concurrents comme ElevenLabs. Le déploiement de cette technologie pourrait initier une révolution audio, pour autant qu’elle soit utilisée de manière consciente et responsable.