logo Begeek

Du contenu pédopornographique découvert dans le plus grand ensemble de données d’images IA

Du contenu pédopornographique découvert dans le plus grand ensemble de données d’images IA
Publié le , mis à jour le

L’organisme à but non lucratif responsable de la base de données LAION-5B l’a retirée par mesure de prudence.

Tl;dr

  • Des chercheurs de Stanford dévoilent du matériel d’abus sexuel d’enfants dans le dataset d’IA LAION
  • LAION suspend temporairement l’accès à ses datasets pour vérification
  • Plusieurs techniques utilisées par les chercheurs pour détecter le CSAM
  • Google et Stability AI ont également été formés à partir de ce dataset

Dataset compromis au Stanford Internet Observatory

Parmi les analyses récentes de la Stanford Internet Observatory, une a fait émerger une problématique majeure : “un dataset utilisé pour éduquer des outils de génération d’images par IA contient au moins 1 008 instances validées de contenu pédopornographique (CSAM)”.

La réaction de LAION

Face à cette situation, le non-profit LAION, créateur du dataset en question, a fait part de sa politique de tolérance zéro pour le contenu illégal. 404 Médias a rapporté la déclaration de LAION, dans laquelle l’organisation assure qu’elle prendra les mesures nécessaires pour assurer la vérification et la sécurité de ses datasets avant de les remettre à disposition.

Les outils de vérification du CSAM

En raison de l’illégalité de la visualisation de CSAM pour vérification aux États-Unis, les chercheurs ont dû recourir à plusieurs techniques pour son identification. Parmi ces méthodes, “la détection basée sur le hash perceptuel, la détection basée sur le hash cryptographique et l’analyse des plus proches voisins exploitant les intégrations d’images dans le dataset lui-même”.

Utilisation du dataset par Google et Stability AI

Google et Stability AI, ayant été formées à partir d’un sous-ensemble des données de LAION-5B, ont été mentionnées dans les conclusions de cette recherche. Stability AI a souligné, en réaction à ce rapport, son interdiction stricte de l’utilisation de ses systèmes pour des fins illégales, comme la création ou la modification de CSAM.

Publicité

À lire aussi sur Begeek:

Accessibilité : partiellement conforme