Apple, NVIDIA et Anthropic auraient utilisé sans autorisation les transcriptions YouTube pour entraîner leurs IA

Publié le 18 juil. 2024 à 13:00, mis à jour le 18 juil. 2024 à 11:03

Cette base de données contient des transcriptions de vidéos YouTube provenant des créateurs les plus populaires de la plateforme.

TL;DR

Des entreprises tech comme Apple et NVIDIA ont utilisé des transcriptions de vidéos YouTube sans permission pour entraîner leurs IA.
Cette pratique viole potentiellement les termes de service de YouTube.
Les entreprises n’ont pas été transparentes quant à l’origine des données utilisées pour leur formation.

Pratiques contestables dans la formation des IA des géants de la tech

Une récente enquête du média Proof News révèle que certaines des plus grandes entreprises technologiques au monde, parmi lesquelles Apple et NVIDIA, ont entraîné leurs modèles d’intelligence artificielle (IA) sur des données qu’elles n’étaient pas autorisées à utiliser. Elles se sont en effet appuyées sur un ensemble de données constitué de transcriptions de plus de 173 000 vidéos YouTube, récupérées sans autorisation.

Un dataset constitué sans consentement

Ces transcriptions proviennent de plus de 48 000 chaînes YouTube, dont de grands créateurs de contenu comme Marques Brownlee et MrBeast, mais aussi des éditeurs d’information majeurs comme The New York Times, la BBC et ABC News. On note également la présence de sous-titres de vidéos appartenant à Engadget.

Marques Brownlee déclare à ce sujet sur la plateforme X : « Apple s’est procuré des données pour leurs IA via plusieurs entreprises. L’une d’entre elles a extrait de nombreuses données/transcriptions de vidéos YouTube, dont les miennes. » Pour lui, cette problématique continuera de se poser à l’avenir.

Apple has sourced data for their AI from several companies
One of them scraped tons of data/transcripts from YouTube videos, including mine
Apple technically avoids "fault" here because they're not the ones scraping
But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY
— Marques Brownlee (@MKBHD) July 16, 2024

Un manque de transparence palpable

La majorité des entreprises travaillant sur des modèles d’IA n’ont pas été transparentes à propos des sources de données utilisées pour leur formation. Plus tôt ce mois-ci, des artistes et photographes critiquaient Apple pour ne pas avoir révélé d’où provenaient les données ayant servi à former Apple Intelligence, leur nouvelle IA dédiée à la génération de contenus, dont le lancement est prévu cette année sur des millions d’appareils Apple.

Face à ces violations, une nécessité de réglementation

YouTube, étant la plus grande plate-forme de vidéos au monde, représente une mine d’or de données (transcriptions, audio, vidéo et images), attirant particulièrement les entreprises désireuses d’entraîner leurs modèles d’IA. Des représentants de Google et d’OpenAI ont déclaré que l’utilisation de données issues de YouTube à cette fin enfreindrait les conditions de service de la plate-forme.

Ces révélations soulèvent des questions essentielles sur la légalité et l’éthique des pratiques de collecte de données. La question mérite attention et il appartient aux entreprises technologiques de prendre des mesures pour assurer une utilisation éthique des données.