OpenAI annonce pouvoir cloner une voix à partir de seulement 15 secondes d’audio

Publié le 31 mars 2024 à 16:00, mis à jour le 31 mars 2024 à 14:02

La technologie est une extension de l'API de synthèse vocale déjà existante de l'entreprise.

Tl;dr

OpenAI annonce une preview de son nouvel outil Voice Engine.
La technologie imite n’importe quelle voix à partir d’un échantillon audio de 15 secondes.
Elle pourrait aider avec la lecture, la traduction et les troubles de la parole.
Mais il y a des préoccupations concernant l’abus potentiel et les problèmes de confidentialité.

L’intelligence artificielle rouvre les frontières de l’audio

Chers lecteurs, le futur de l’audio se dessine. L’entreprise OpenAI a récemment annoncé la prévisualisation à petite échelle de Voice Engine, un outil révolutionnaire capable de dupliquer n’importe quelle voix à partir d’un échantillon audio de 15 secondes à peine. Selon l’entreprise, cette technologie offre une « parole naturelle extrêmement réaliste et chargée d’émotion ».

Promesses et préoccupations de Voice Engine

« Une dimension supplémentaire au monde de l’audio », comme le mettent en avant les promoteurs de cette technologie. OpenAI envisage plusieurs applications telles que :

L’assistance à la lecture,
La traduction de langues,
Le soutien aux personnes souffrant de troubles de la parole abrupts ou dégénératifs.

Un projet pilote de l’Université Brown a déjà démontré le potentiel de cette technologie, en aidant un patient souffrant d’un trouble de la parole à communiquer grâce à un clone vocal produit par Voice Engine.

Cependant, des préoccupations subsistent. Le risque d’abus de cette technologie par des acteurs malveillants, en particulier dans le domaine des deepfakes, pèse comme une épée de Damoclès. OpenAI est consciente de ces enjeux et insiste sur la nécessité d’aborder de manière efficace et responsable les préoccupations en matière de confidentialité avant toute mise en service à grande échelle.

Un déploiement responsable

OpenAI affirme travailler en étroite collaboration avec des partenaires aux États-Unis et à l’international, issus de divers secteurs tels que le gouvernement, les médias, le divertissement, l’éducation et la société civile, pour minimiser les risques. Des mesures de transparence sont établies : tout utilisateur de la technologie devra préciser à son auditoire que les voix sont générées par IA. Des mesures de sécurité, telles que le marquage d’eau pour identifier l’origine de l’audio et la surveillance proactive de l’utilisation du système, sont également en place.

Pour le moment, OpenAI reste discrète sur la date de sortie de Voice Engine et son tarif. Cependant, des informations dénichées par TechCrunch suggèrent un coût possiblement inférieur à celui des concurrents comme ElevenLabs. Le déploiement de cette technologie pourrait initier une révolution audio, pour autant qu’elle soit utilisée de manière consciente et responsable.

Dans la même rubrique

Pourquoi les téléviseurs 8K ne décollent-ils pas ?

OpenAI annonce pouvoir cloner une voix à partir de seulement 15 secondes d’audio

Tl;dr

L’intelligence artificielle rouvre les frontières de l’audio

Promesses et préoccupations de Voice Engine

Un déploiement responsable

Dans la même rubrique

Pourquoi les téléviseurs 8K ne décollent-ils pas ?

xAI explore le futur du gaming avec Grok 3

Les usines d’assemblage de serveurs IA d’AMD pourraient changer de mains

Une escroquerie massive vise les joueurs de Counter-Strike 2