• l’année dernière
ChatGPT, Midjourney, Dall-E, les intelligences artificielles sont partout et fabriquent des tonnes de textes et d'images. Et vous, avez-vous déjà été trompé par une fausse image générée par une IA ? Peut-être la photo du pape François en doudoune de luxe ? Ou l’arrestation de Donald Trump en plein New York ?

Si oui, une simple astuce aurait pu vous alerter : les mains. Car sur ces images générées par les IA, les doigts sont souvent trop nombreux ou pliés de manière improbable. Ce n’est pas tout, d’autres aberrations anatomiques ou des textes incohérents trahissent ces programmes. Grâce à ces indices, on peut détecter la duperie.

Mais ces lacunes techniques peuvent-elles protéger durablement des risques de désinformation ? Et comment appréhender les nombreuses questions soulevées par ces nouveaux outils ? Pour y répondre, il faut s’intéresser au fonctionnement de ces logiciels, capables de générer des images en quelques clics.

Explication dans cette vidéo, avec l’aide de ChatGPT.

Category

🗞
News
Transcription
00:00 Le pape François en doudoune blanche.
00:02 Emmanuel Macron qui ramasse des poubelles.
00:04 Donald Trump arrêté de force par la police.
00:06 Voilà des images qui ont fait le tour du monde ces derniers jours.
00:09 Pourtant toutes ces photos sont fausses.
00:11 Ces images sont générées par des intelligences artificielles.
00:16 Pour les fabriquer, il suffit de quelques mots.
00:19 Les possibilités sont infinies.
00:21 Chaque résultat est inédit et permet d'illustrer n'importe quelle situation,
00:25 qu'elle soit vraie ou fausse.
00:28 On a clairement passé un cap.
00:29 On crée les conditions d'une société de défiance.
00:32 Il faudra douter de plus en plus.
00:33 Le cerveau humain n'est pas capable de mesurer la portée
00:37 de cette intelligence artificielle pour l'instant.
00:39 Est-ce que les choses pourraient déraper ?
00:41 Pourtant, ces logiciels semblent avoir un sérieux point faible.
00:46 Les mains.
00:48 Leurs doigts sont souvent trop nombreux ou pliés de manière improbable.
00:53 Alors, cette lacune peut-elle nous protéger de la désinformation ?
00:57 Pour y répondre, il faut d'abord comprendre pourquoi
01:00 ces logiciels ont tant de mal à dessiner des mains.
01:03 Bon, tant qu'on y est, posons la question à une intelligence artificielle.
01:15 ChatGPT est un robot spécialisé dans le dialogue.
01:19 Il suffit d'écrire notre question et il nous répond.
01:24 Le programme pointe plusieurs éléments.
01:26 D'abord, leur forme et leur structure très complexes.
01:32 Effectivement, plus d'un quart des os du corps se trouvent dans les mains.
01:36 C'est un ensemble sophistiqué, capable de prendre des aspects très différents.
01:42 Même les plus grands artistes ont dû longuement les étudier
01:46 avant de les intégrer dans leurs œuvres les plus mémorables.
01:50 GPT précise que même Léonard de Vinci a formulé cette difficulté dans un de ses carnets.
01:57 Le peintre y décrit le mouvement de la main comme très difficile à exprimer avec des mots,
02:02 bien que ce soit l'une des choses les plus importantes en dessin.
02:05 Pour les intelligences artificielles, c'est encore plus compliqué.
02:18 Et c'est directement lié à leur fonctionnement.
02:22 Pour obtenir ces photos, le programme a dû apprendre deux choses.
02:26 D'abord, générer des images.
02:30 Si on l'agrandit beaucoup, on voit qu'une image est composée de carrés de couleurs, des pixels.
02:37 Ensemble, ils forment la perception que nous avons d'un dessin ou d'une photo.
02:42 Cette image se compose par exemple de 1000 pixels de largeur pour 700 de hauteur,
02:48 soit 700 000 pixels au total.
02:50 L'enjeu est donc de générer artificiellement chacun de ces pixels
02:54 et de les agencer d'une manière cohérente et réaliste pour les humains.
02:59 Pour entraîner le programme, les chercheurs utilisent une image de référence, comme celle-ci.
03:05 Ils la dégradent progressivement en y ajoutant ce qu'on appelle du bruit.
03:11 À force, il ne reste plus grand-chose de la version originale.
03:16 Les scientifiques inversent alors la logique et demandent à la machine d'enlever le fameux bruit.
03:23 Le programme commence ici et tente de reconstituer les pixels de la version précédente.
03:29 Par essai-erreur, il finit par trouver la configuration attendue.
03:34 Il répète ensuite l'opération sur chaque maillon de la chaîne, jusqu'à restituer l'image de départ.
03:42 En s'exerçant ainsi sur des milliards d'images, il apprend à prédire l'agencement des pixels
03:48 et à transformer le bruit en une image cohérente.
03:53 Ce procédé s'appelle la diffusion.
03:59 Le deuxième apprentissage est de faire le lien entre le texte et l'image,
04:03 savoir que cette commande correspond à ce résultat.
04:09 Pour y parvenir, les chercheurs utilisent d'immenses bases de données,
04:13 composées d'images et de textes qui en décrivent le contenu.
04:19 Il y en a des milliards et ces programmes ont passé des centaines de milliers d'heures à les analyser.
04:26 Leur mission est de trouver des récurrences dans l'agencement des pixels.
04:31 Ils vont par exemple découvrir que cette configuration correspond généralement à une pomme
04:37 et celle-ci à une orange.
04:40 Ils analysent aussi la manière dont ces pixels interagissent avec d'autres combinaisons,
04:45 comme ici celle d'un bol métallique.
04:49 Ces exercices permettent au programme de saisir les nombreuses variables qui composent une image,
04:55 son style, ses textures ou le reflet de la lumière,
04:59 des observations qui vont bien au-delà de l'analyse pixel par pixel
05:03 et qui composent ce qu'on appelle l'espace latent de l'image.
05:07 À la fin de l'entraînement, le programme est capable de prédire avec assurance
05:14 la photo qui correspond à chaque description.
05:18 Et c'est là que la magie opère.
05:26 Car une fois le programme capable de faire le lien entre le texte et l'image,
05:32 les chercheurs peuvent inverser la commande
05:35 et lui demander d'utiliser la diffusion pour générer une nouvelle image,
05:39 même impossible, uniquement sur base d'un texte.
05:43 Et les possibilités sont infinies.
05:47 Ce qu'il faut bien comprendre, c'est que le programme ne fait pas un montage à partir d'images existantes.
06:02 Il génère des combinaisons inédites en s'inspirant de la manière dont les pixels
06:06 s'agencent statistiquement dans les bases de données qui le nourrissent.
06:10 Le résultat est donc chaque fois différent.
06:14 Mais c'est aussi de là que vient la faille du logiciel.
06:22 En fait, il ne comprend pas vraiment ce qu'il dessine.
06:25 À ses yeux, les mains ne sont qu'une combinaison de pixels,
06:29 statistiquement agencées au bout d'une autre combinaison appelée "bras".
06:35 Il ne comprend pas ce qu'est une main, sa tridimensionnalité, son anatomie,
06:41 la manière dont les doigts interagissent.
06:45 Sa connaissance est limitée à des images en deux dimensions reprises dans ses bases de données.
06:51 Or, si ces données ne contiennent pas suffisamment d'exemples,
06:54 il peut avoir du mal à générer des descriptions précises.
06:59 Sur ces images, le visage est très présent et s'affiche toujours de la même manière.
07:05 Deux yeux, un nez et une bouche.
07:09 La main, elle, est plus discrète et peut prendre des aspects très différents.
07:16 Enfin, le texte y fait rarement référence.
07:20 Ici, on ne parle pas de la manière dont les doigts tiennent l'appareil photo,
07:24 mais simplement d'une femme, souriante.
07:28 Alors forcément, quand le logiciel doit générer une requête similaire, il improvise.
07:35 À y regarder de plus près, d'autres éléments ne collent pas.
07:41 Les dents sont trop nombreuses.
07:43 Donald Trump a une jambe de trop.
07:46 Et le texte est totalement incohérent.
07:49 Pour l'instant, ce sont de bonnes astuces pour en vérifier la véracité.
07:53 Sauf que ça ne va pas tarder à changer.
07:56 En mars 2023, le logiciel à l'origine de ces images a publié une mise à jour,
08:11 où le rendu des mains a été amélioré.
08:15 L'entreprise reste floue sur les méthodes utilisées.
08:19 Mais les experts supposent que le programme a spécialement été entraîné sur des images de main,
08:25 ce qui lui donne plus de matière pour affiner sa création.
08:29 D'autres développent des générateurs d'images en trois dimensions.
08:34 S'ils ne sont pas encore très aboutis, une meilleure compréhension spatiale de la main
08:39 pourrait à terme leur permettre un meilleur rendu en deux dimensions.
08:45 À ce rythme, il est probable que ces logiciels maîtrisent un jour la fabrication des mains.
08:50 Et qu'il ne soit plus possible à l'œil nu de discerner le vrai du faux.
08:55 Mais cette confusion ne vaut pas que pour les images.
09:01 JatGPT, qui nous sert de guide depuis le début de cette vidéo,
09:05 est lui aussi entraîné sur d'énormes bases de données.
09:08 Des milliards de textes qui lui apprennent à prédire les mots d'une phrase,
09:12 sans pour autant que cette phrase soit vraie.
09:15 Tiens, reprenons par exemple cette citation de Léonard de Vinci,
09:20 mentionnée en début de vidéo.
09:23 Eh bien, elle n'existe pas.
09:26 Elle n'est pas présente dans le carnet en question.
09:29 Et nous n'avons pas été en mesure de la retrouver ailleurs dans son œuvre.
09:33 Il semblerait que JPT l'ait tout simplement inventée.
09:39 Face aux nombreuses questions soulevées par ces outils,
09:42 les autorités travaillent déjà à un cadre juridique.
09:46 Et il va falloir faire vite, car ces logiciels comptent chaque mois plus d'utilisateurs,
09:51 et en février 2023, JatGPT enregistrait un milliard de visites sur son site.
09:58 [Musique]
10:02 [Musique]
10:05 [Musique]
10:08 [Musique]
10:11 [SILENCE]

Recommandations