SMART TECH - IA : l’importance d’identifier les contenus générés

B SMART

21/05/2024

Avec le développement rapide des modèles d’IA, les images peuvent désormais être entièrement générées à partir d’une simple phrase et il est presque impossible de les distinguer d’une vraie photo. Dès lors, c’est un boulevard pour la malveillance, les fraudes et la désinformation. De plus, avec la dissémination de ces contenus sur les réseaux sociaux, les futurs modèles vont être entraînés à partir de contenus générés, ce qui pourrait mener à un appauvrissement de la créativité. Mais alors, existe-t-il des solutions pour identifier ces contenus générés ?

Catégorie

🗞

News

Transcription

Afficher la transcription complète de la vidéo

00:00 (Générique)

00:06 On termine notre rendez-vous avec un advisor, Hervé Lejouan.

00:10 Bonjour Hervé, connecté avec nous à distance.

00:12 Aujourd'hui, vous voulez nous parler de l'importance d'identifier les contenus

00:15 générés par des intelligences artificielles.

00:18 On va peut-être déjà resituer un peu le contexte.

00:20 Jusqu'en 2022, nous avons vécu dans un monde où des applications graphiques

00:25 permettaient de modifier des images ou des photos en ajoutant des filtres,

00:29 en effaçant tel ou tel défaut, en changeant le fond.

00:32 Mais la base de l'image restait une photo ou une image réalisée par une personne.

00:36 Et depuis 2023, et plus particulièrement l'avènement de Dali, Gemini et Midjourney,

00:41 pour ne citer qu'eux, les images peuvent être entièrement générées,

00:44 et ceci à partir d'une simple phrase décrivant telle ou telle situation.

00:48 Et il est maintenant devenu quasi impossible de distinguer à l'œil nu

00:51 une vraie photo d'une image générée.

00:53 Aussi, dans le domaine de la voix, les applications de centres d'appel

00:57 entièrement virtuels se multiplient afin de remplacer petit à petit les humains

01:01 et vous permettre de choisir parmi un panel de voix et d'accents

01:05 qui peuvent s'adapter à n'importe quel pays.

01:07 Ainsi, je peux enregistrer votre voix demain, la reproduire

01:10 et vous faire parler en plusieurs langues et avec un accent parfait.

01:15 Et tout ça, nous n'en sommes qu'au début.

01:17 Tout ceci pose maintenant de multiples questions et enjeux.

01:20 Alors justement, est-ce que vous pouvez nous donner quelques exemples de ces enjeux, Hervé ?

01:24 En premier lieu, la tromperie. Vous pensez voir un vrai paysage,

01:28 voir et entendre une vraie personne et vous n'avez affaire qu'à des contenus générés.

01:32 Et dès lors, c'est un boulevard pour la malveillance, les fraudes et la désinformation.

01:36 Voyez ce qui s'est passé récemment avec Taylor Swift,

01:39 dont une photo nue, bien entendu générée, a circulé sur les réseaux sociaux

01:43 et a été dévue des dizaines de millions de fois.

01:45 Et très récemment, le CEO de WPP, Mark Reed, a été impersonné.

01:50 C'est-à-dire que les fraudeurs ont créé un compte WhatsApp

01:52 avec une image publique de Mark Reed et l'ont utilisée pour organiser une réunion Microsoft Teams

01:58 qui semblait avoir lieu avec lui et un autre cadre supérieur de l'entreprise.

02:02 Donc tout est possible maintenant.

02:03 Nous pouvons même revisiter, réinventer l'histoire en générant des images

02:07 qui semblent réelles d'un événement passé, mais qui n'ont jamais existé.

02:11 Donc, et bien entendu, en plus, ces générateurs d'images et de vidéos sont de plus en plus utilisés.

02:17 Et ça, c'est un gros problème dans le domaine de la pédopornographie.

02:20 Aussi, une autre question qui est en train d'émerger est relative au fait que ces larges

02:24 dangereuses modèles et ces générateurs d'images ont été entraînés à partir de contenus

02:28 générés par des humains.

02:29 Mais la multiplication des contenus aujourd'hui générés va faire que demain,

02:33 ces mêmes modèles vont être entraînés par des contenus générés.

02:36 Donc ça pose d'autres questions sur l'approvissement et la créativité.

02:40 Si on regarde du côté des solutions,

02:41 quelles solutions on a aujourd'hui pour justement identifier l'origine de ces images ?

02:48 Alors, il y a deux solutions.

02:49 La première, la première est le marquage des contenus, qu'on appelle « watermarking » en anglais,

02:53 afin qu'ils puissent être reconnus et marqués comme tels.

02:56 Les grandes plateformes de l'LM procèdent déjà à un tel marquage en ajoutant des métadonnées à ces contenus.

03:01 Mais malheureusement, les réseaux sociaux, quand les données sont publiées,

03:05 retirent ces métadonnées lors des publications.

03:07 Donc, la traçabilité est perdue.

03:09 Ils font donc adopter d'autres moyens qui sont plus profonds, comme le « watermarking » invisible.

03:13 Donc, mais si on veut envisager pour les grandes plateformes de le faire,

03:17 elles seront forcément obligées à un moment donné par la régulation de le faire,

03:22 mais il y a de très nombreux générateurs d'images open source dans le marché

03:27 qui, eux, ne vont pas suivre ça et on continuera d'avoir de nombreux contenus gérés.

03:32 Donc, la deuxième façon de le faire, c'est complémentaire de la première,

03:36 c'est l'identification a posteriori du contenu généré via des algorithmes de reconnaissance

03:41 des attributs dans le code des images algorithmiques.

03:45 Et ça, c'est une solution plus fiable que la reconnaissance par des humains.

03:49 Et une société française, justement, SightEngine,

03:51 est spécialisée dans ces algorithmes d'identification des images générées

03:55 et permet ainsi d'intégrer une modération de contenu beaucoup plus efficace,

04:00 mais surtout d'informer par ailleurs les utilisateurs sur la véracité ou non d'une image.

04:04 Et demain, leurs outils permettront aussi, puisque ça c'est quelque chose qui arrive,

04:09 de déterminer si une partie de l'image a été modifiée par de l'IA,

04:12 parce qu'aujourd'hui, vous pouvez avoir une image réelle et elle est modifiée par une IA,

04:16 ce qui devient aussi un enjeu dans le domaine de la fraude et de l'impersonnation.

04:20 Ça fait plein de nouveaux enjeux. Merci beaucoup.

04:23 Merci Hervé Lejouan et puis merci à tout le monde de nous suivre avec fidélité sur la chaîne Bsmart.

04:28 C'était Smartech, votre émission sur l'innovation et le monde numérique.

04:31 On se retrouve très vite. Je vous souhaite une excellente journée à tous.

04:34 [Musique]

Recommandations

15:32

À suivre

SMART JOB - Un festival pour l’égalité des chances

B SMART