• il y a 2 mois
Transcription
00:00Qu'est-ce si je te disais qu'il y a un système actuellement qui peut prendre l'entrée de langue naturelle,
00:05donc n'importe quelle description que tu veux, juste faire quelque chose,
00:08et qui prend ce texte et le transforme en une image surprenantement réaliste
00:14de tout ce que tu as décrit.
00:16Donc tu types un astronaute montant un cheval,
00:19et ça déchire une nouvelle image d'un astronaute montant un cheval.
00:23Tu types « Teddy Bears Shopping for Groceries »
00:27et boum, il y a une image d'un Teddy Bear qui achète des groceries.
00:30Tu types « Un bol de soupe qui est un portail vers une autre dimension »
00:34et boum, mon Dieu, c'est un bol de soupe qui est un portail vers une autre dimension.
00:39Et ce n'est pas juste un, il y a en fait 10 versions différentes
00:42à travers un spectre de variations dans n'importe quel style d'art que tu veux,
00:46tu le nommes et ça peut le dessiner.
00:48Alors, qu'est-ce qui se passe ici, comment ça marche,
00:51et...
00:53Qu'est-ce qui se passe si j'essaie ?
00:58Alors, première chose d'abord, oui, ça existe, c'est une vraie chose.
01:02C'est appelé « DALI 2 » et c'est un projet de recherche d'IA
01:06par une entreprise appelée OpenAI,
01:08l'une des plus nombreuses entreprises co-fondées par Elon Musk à ce moment-là.
01:11Et donc, le but de cette AI, spécifiquement,
01:14est de créer des images et des arts originales, réalistes,
01:19d'une description en texte.
01:21C'est Aditya Ramesh, un chercheur et co-créateur de DALI 1,
01:25et DALI 2.
01:26Il est facilement la personne la plus qualifiée pour expliquer ce qui se passe ici.
01:30Alors, la façon dont DALI 1 génère des images,
01:33DALI 1 génère une image,
01:35en commençant par la gauche supérieure
01:37et en mouvant dans l'ordre de lignes par lignes.
01:39Donc, la diffusion fonctionne complètement différemment.
01:42La façon dont la diffusion fonctionne, c'est que nous traînons un modèle
01:45pour un processus de corruption inversé qui est appliqué à des images sèches.
01:49Alors, c'est un peu difficile d'y penser,
01:51mais basiquement, il y a deux techniques principales d'IA
01:54derrière DALI 2.
01:55Elles s'appellent CLIP et DIFFUSION.
01:58CLIP est une partie qui matche des images à des textes,
02:02et qui utilise ce match pour entraîner l'ordinateur
02:05à comprendre les concepts dans les images.
02:07Donc, il peut générer de nouvelles images
02:10des mêmes concepts.
02:12Quand j'ai demandé à un astronaute d'écrire un cheval, par exemple,
02:15il ne fait pas simplement une mosaïque d'images qu'il a trouvées en ligne,
02:18il connaît l'idée de ce qu'est un astronaute,
02:21il sait ce que signifie le concept d'écrire,
02:24il sait ce qu'est un cheval,
02:26et, peut-être le plus impressionnant,
02:28il sait ce qu'est une image esthétiquement plaisante pour les humains.
02:31Alors, il peut créer une nouvelle version visuelle
02:34de cette idée qui n'a pas existé auparavant.
02:37CLIP n'a pas vraiment l'abilité de faire des images de haute résolution
02:40tout seul,
02:41il génère simplement le geste d'une image
02:44basé sur ces concepts.
02:45C'est là que DIFFUSION arrive.
02:47DIFFUSION est super impressionnant.
02:49En basique, en apprenant un ordinateur
02:51à corrompre une image en ajoutant du bruit de Gaussian,
02:55il peut ensuite apprendre à ne pas corrompre
02:58ou à améliorer une image
03:00en enlevé ce bruit.
03:02C'est un peu comme
03:04étape 1, dessinez un cercle,
03:05étape 2, dessinez le reste du cheval.
03:07Alors, je ne sais pas si vous avez jamais vu ce site
03:09appelé thispersondoesnotexiste.com
03:11mais si vous l'avez, vous devriez le voir.
03:13Il vous montre une image surprenantement réaliste
03:16d'un visage,
03:17mais, comme vous l'avez peut-être imaginé,
03:19thispersondoesnotexiste,
03:20ce n'est pas un visage réel.
03:22C'est en fait l'utilisation de l'IA
03:24pour regarder des milliers de visages
03:26et ensuite générer un nouveau visage
03:28avec cette information
03:29qui est choquantement réaliste
03:31mais qui n'est pas un vrai humain.
03:33Donc, DALI,
03:34DALI 2,
03:35c'est une version beaucoup plus avancée,
03:37plus généralisée
03:38de tout ça
03:39pour tout.
03:40Donc, quand vous l'ouvrez,
03:41c'est littéralement juste une boîte de texte en blanc
03:43où vous pouvez envoyer tout ce que vous voulez créer.
03:45Bien sûr, comme vous pouvez peut-être imaginer,
03:47avec toutes ces préoccupations et possibilités,
03:49ce n'est pas juste un outil disponible au public.
03:51Ce n'est pas comme si tout le monde pouvait l'utiliser.
03:53OpenAI a gardé cela à côté des portes fermées
03:55pour un très petit groupe de personnes
03:57à la main sélectionnée.
03:59Mais pour un jour,
04:01ils m'ont donné les clés
04:03et j'ai pu générer
04:05ce que je voulais,
04:06ce qui, bien sûr,
04:08signifie que j'ai dû demander qu'elle nous révèle enfin
04:10ce que l'appareil Apple attendait depuis longtemps.
04:13Je veux dire, c'est une occasion
04:14qui n'est pas comme d'autres.
04:16J'ai donc enregistré,
04:17j'ai attendu mes 10 secondes
04:19avec un bref souffle,
04:20et puis le secret a été finalement révélé.
04:22Oh.
04:24Bien sûr.
04:25Je ne sais pas pourquoi je m'attendais à quelque chose de différent.
04:28Mais pour le vrai,
04:29l'équipe d'OpenAI a été assez gentille
04:31pour m'aider à fournir à Dolly
04:33tout ce que je voulais.
04:35J'ai donc décidé de commencer
04:36assez simple
04:37et ensuite de devenir un peu plus complexe
04:40au fur et à mesure.
04:41Donc, un Apple bleu
04:43et un bol d'oranges.
04:46Donc, OK.
04:47Ce sont bien.
04:48Ce sont en fait,
04:49je veux dire, c'était extrêmement facile.
04:52Mais la précision,
04:53le réalisme,
04:54même le lumière,
04:56pour créer ces nouveaux tout de suite,
04:58il y a tellement de détails dans celui-ci.
05:00C'est un peu difficile de croire qu'il n'est pas réel.
05:02OK.
05:03Un cangarou âgé.
05:07Je veux dire,
05:08je ne sais pas ce que j'attendais spécifiquement
05:10un cangarou âgé à ressembler.
05:12Je suppose que peut-être que j'ai imaginé
05:14des cheveux gris ou quelque chose.
05:16Mais je l'achète.
05:17Je veux dire, le fait qu'encore une fois,
05:18ce n'est pas une photo réelle,
05:20mais qu'elle ressemble à une photo réelle
05:22d'un cangarou âgé,
05:24c'est très impressionnant.
05:26Un éléphant sage
05:28regardant la lune
05:30la nuit.
05:32Wow.
05:33OK.
05:34Donc, c'est définitivement un éléphant sage.
05:36Il ou elle est en fait regardant la lune
05:38et c'est définitivement la nuit.
05:40Ce n'est pas mauvais.
05:42La lune a l'air un peu dégueulasse
05:44si vous regardez un peu plus proche sur certains d'entre eux.
05:46Ce n'est pas parfait,
05:48mais l'éléphant est très réel.
05:50OK.
05:51Allons-y un peu plus spécifiquement.
05:52Un cangarou âgé
05:54faisant de l'opération sur une graine
05:56dans le style d'un cartoon des années 1990.
06:00Oh mon Dieu.
06:02Regardez ces cartoons.
06:04Parfois, ça manque.
06:05C'est totalement compréhensible.
06:07Il me semble aussi que j'ai choisi des couteaux
06:09au lieu d'une opération plus réaliste.
06:12Je vais vous expliquer pourquoi dans un instant.
06:14Mais les expressions faciales,
06:16les pieds,
06:17et tout,
06:18je veux dire,
06:19c'est un cangarou
06:21faisant de l'opération sur une graine.
06:22OK, celui-ci est pour Mac,
06:23le chien de studio.
06:24Un cangarou âgé
06:26je prononce mal,
06:27en utilisant une caméra
06:29sur un set de cinéma.
06:31Wow.
06:32C'est...
06:33OK, si vous ne pouvez pas le dire,
06:34c'est le nom de la famille de chien.
06:36Et...
06:37plus vous inspectez chaque image individuelle,
06:41plus la partie de photoréalisme
06:43s'éloigne,
06:44ce qui n'est peut-être pas choquant,
06:45parce que c'est un truc fou
06:46d'avoir une photo.
06:47Mais le détail dans la famille de chien,
06:49et qu'en fait,
06:50en utilisant la caméra
06:52dans les photos,
06:53c'est super bien.
06:55Je me demande si on pourrait le poster
06:56sur Instagram de Mac,
06:57si quelqu'un remarquait
06:58que ce n'est pas une vraie photo.
06:59Je pourrais probablement le résoudre.
07:01OK.
07:02Une femme robot
07:03qui garde un mur de computers.
07:06Wow.
07:07OK.
07:08Il y a tellement de détails intéressants
07:10et de décisions qui sont faites
07:12dans ces images.
07:13Donc, le mot de garde implique
07:16un peu de pose.
07:17Il y a quelques poses de garde différents ici,
07:20mais c'est cool.
07:21Les computers, pour la plupart,
07:22sont aussi assez convaincants
07:24si vous ne zoomez pas trop.
07:25Et aussi,
07:26c'est intéressant
07:27que les murs des computers
07:28ne vont pas jusqu'à la couche,
07:29ce qui est cool.
07:30Mais,
07:31c'est définitivement
07:32une femme robot
07:33qui garde
07:34ce mur de computers.
07:35OK.
07:36Qu'est-ce si on y va ?
07:37Un tigre découvrant
07:38la ville perdue d'Atlantis.
07:41Wow.
07:42OK.
07:43Ce sont plus des styles d'art,
07:45probablement parce que,
07:46un,
07:47il n'y aura pas de photos réalistes
07:50de références
07:51de la ville perdue d'Atlantis.
07:53Donc, j'imagine
07:54que ça va ressembler mieux de cette façon.
07:56Et deux,
07:57c'est une image folle à créer.
07:59Donc, avec chaque d'entre elles,
08:00elles sont géniales
08:01sans zoomer dans Pixel Peeping.
08:03Et,
08:04elles ont très bien accompli
08:05le but d'illustrer
08:06un tigre découvrant l'Atlantis,
08:07comme j'ai demandé.
08:08La partie folle ici,
08:09pour moi,
08:10c'est la quantité
08:11d'imagination
08:12qu'elle utilise.
08:13Comme,
08:14je suis en fait
08:15en recevant plus
08:16que ce que j'ai demandé.
08:17Les expressions faciales,
08:18les poses,
08:19l'orientation des choses,
08:20les réflexions,
08:21même la lumière
08:22précise et les ombres
08:23sont folles.
08:24Comme,
08:25j'ai demandé un tigre
08:26qui découvre l'Atlantis ici,
08:27mais,
08:28il a décidé
08:29d'ajouter des arbres
08:30et des oiseaux
08:31et une lune
08:32tout seul.
08:33D'accord,
08:34c'est parti.
08:35C'est parti.
08:36Une peinture
08:37inspirée par la Mona Lisa
08:38d'un tigre
08:40qui prend des photos
08:41avec un iPad.
08:43Je...
08:44C'est ma nouvelle chose préférée.
08:46Tu peux vraiment
08:47partir des rails
08:48avec de la complexité
08:49et
08:50ça les rend bien.
08:52Presque tous ces tigres
08:53ont des mains aussi,
08:55ce qui est hilarant.
08:56Mais les dessins eux-mêmes
08:57ont aussi
08:58resté
08:59au thème.
09:00C'est une peinture
09:01dans le style
09:02de la Mona Lisa
09:03et les tablettes
09:04sont tous,
09:05vous savez,
09:06différents niveaux
09:07de
09:08iPads convaincants.
09:09Wow.
09:10Je vais les mettre
09:11sur Twitter,
09:12par ailleurs,
09:13dans un gros fil
09:14et quelques extras
09:15si ils ne le font pas
09:16dans la vidéo.
09:17Donc,
09:18cliquez sur le lien
09:19ci-dessous
09:20si vous voulez
09:21les voir.
09:22Mais,
09:23dernièrement,
09:24un cyclope
09:25conduisant un tracteur
09:26écoutant des Airpods
09:27c'est...
09:28Vraiment.
09:29Peut-être qu'il n'est pas
09:30un cyclope parfait
09:31et c'est intéressant
09:32qu'il soit choisi
09:33pour tous les écouteurs
09:34pour tous les écouteurs
09:35et pas, vous savez,
09:36les Airpods
09:37mais
09:38je pense qu'il n'y a rien
09:39qui ne peut pas le faire.
09:40C'est un des outils
09:41de l'IA
09:42qui est si bon
09:43qu'il pose presque
09:44plus de questions
09:45qu'il répond.
09:46Pourquoi un outil
09:47comme celui-ci
09:48existe
09:49en premier?
09:50Eh bien,
09:51Dolly 2
09:52est un projet de recherche,
09:53pas un produit
09:54client.
09:55Et l'objectif
09:56d'OpenAI
09:57est de créer
09:58une bonne
09:59sécurité
10:00générale
10:01de l'IA
10:02ce qui est vraiment difficile.
10:03Il y a beaucoup
10:04de très bons
10:05systèmes d'IA
10:06spécifiques pour les tâches
10:07qui vont faire des choses
10:08comme détecter
10:09le cancer
10:10en X-ray
10:11ou
10:12conduire
10:13les voitures
10:14qui naviguent
10:15les rues
10:16ou juste
10:17faire des photos
10:18en Photoshop.
10:19Mais l'idée
10:20générale de l'IA
10:21qui nécessite
10:22beaucoup d'informations
10:23pour pouvoir
10:24naviguer
10:25est un autre
10:26défi.
10:27Je veux dire,
10:28si vous pensez
10:29à un robot Tesla
10:30qui passe autour de la Terre
10:31pour vous compléter des tâches,
10:32c'est à ce niveau
10:33qu'on parle ici.
10:34Et donc,
10:35être en mesure
10:36de reconnaître des objets
10:37et des images
10:38et de les associer
10:39très rapidement
10:40et précisément
10:41est une grande partie de ça.
10:42Est-ce qu'il y a des choses
10:43que Dolly
10:44ne fait pas?
10:45Eh bien, oui, en fait.
10:46Il y a
10:47des conséquences
10:48intentionnelles
10:49et inintentionnelles
10:50de Dolly 2
10:51comme elles existent
10:52en ce moment.
10:53Donc,
10:54le nombre
10:55d'images
10:56que Dolly réfère
10:57est énorme,
10:58mais il n'y a pas
10:59d'images
11:00d'un contenu adulte
11:01ou d'une activité illégale
11:02ou de la violence.
11:03Donc, il ne crée pas
11:04d'images
11:05avec ce genre de choses
11:06dedans.
11:07Ça a du sens.
11:08C'est probablement
11:09pourquoi on a eu des ciseaux
11:10dans la main de Teddy Bear
11:11au lieu d'un couteau
11:12parce que c'est
11:13l'association
11:14la plus proche
11:15que l'IA
11:16a pu faire
11:17pour cette opération.
11:18Et vous ne pouvez pas
11:19demander
11:20pour l'imagerie
11:21d'identités spécifiques
11:22des gens.
11:23Vous pouvez demander
11:24pour l'image
11:25d'une banque
11:26mais vous ne pouvez pas
11:27demander
11:28pour l'image
11:29d'une banque
11:30de Marques Brownlee.
11:31Comme je suis curieux
11:32de savoir
11:33quel genre d'image
11:34ça serait,
11:35vous ne pouvez pas.
11:36Ça serait dangereux
11:37pour des raisons évidentes.
11:38Mais aussi,
11:39Dolly 2 est connu
11:40pour avoir
11:41quelques quirks.
11:42Un d'entre eux,
11:43c'est qu'il ne fonctionne
11:44pas très bien
11:45spécifiquement
11:46avec le binding variable
11:47ou ce qui va se passer
11:48quand vous demandez
11:49pour la position relative
11:50d'objets
11:51dans une image.
11:52C'est un cube bleu
11:53sur un cube rouge.
11:54Et on l'a vu.
11:55Dans l'une des images
11:56que j'ai retrouvées
11:57pour un orange bleu
11:58dans un bol d'oranges,
11:59bien là,
12:00c'est clairement un orange
12:01dans un bol d'oranges bleues,
12:02ce qui est un peu drôle.
12:03Et aussi,
12:04pour n'importe quelle raison,
12:05ça ne fonctionne pas
12:06bien avec le texte écrit.
12:07Parfois,
12:08ça peut vous donner
12:09certaines lettres
12:10mais si vous demandez
12:11pour un signe
12:12qui dit un mot,
12:13ça ne vous donnera
12:14presque jamais ça.
12:15Il y a en fait
12:16un tweet hilarant
12:17de quelqu'un
12:18qui demande à Dolly
12:19pour des signes
12:20avec des choses
12:21qui ont un sens qui dépêche
12:22ce qui est aussi drôle.
12:23Mais c'est ce genre de choses
12:24qu'ils travailleront
12:25pour Dolly 3
12:26et pour les versions d'avril
12:27comme vous pouvez l'imaginer.
12:28Mais c'est drôle.
12:29Avec chaque découverte
12:30qu'ils ont trouvé,
12:31il y avait aussi
12:32une affaire
12:33coincée
12:34qui était aussi géniale
12:35qu'ils ont trouvé aussi.
12:36Cette méthode de diffusion
12:37peut aussi
12:38transformer des images.
12:39Vous pouvez donc prendre
12:40une image existante
12:41et rouler le modèle
12:42de plus en plus
12:43pour le pousser
12:44de plus en plus
12:45vers chaque signe que vous voulez.
12:46Vous pouvez donc
12:47prendre cette veste
12:48par exemple
12:49et la tourner lentement
12:50ou un dessin de Jackson Pollock
12:52ou prendre cette photo d'un chat
12:54et la transformer en un
12:56maître samouraï
12:58ou prendre une photo d'une pièce de
13:00technologie et la remodifier
13:02à nouveau et à nouveau
13:04regarde ce qu'il fait à cet iPhone
13:06il le transforme en un téléphone plus vieux
13:08et plus vieux
13:10il modifie les images existantes
13:12en basant sur d'autres concepts existants
13:14c'est un peu fou
13:16alors, est-ce que ça va
13:18prendre les emplois des gens ?
13:20bien, si vous voulez l'exacte réponse
13:22à cette question, c'est le concept
13:24qu'on a attaqué avec le nouveau studio
13:26je vous mettrai le lien sous la vidéo
13:28mais on a battu Dolly 2 contre Tim
13:30qui est le designer graphique
13:32ici au studio de MKBHD
13:34où leurs emplois sont
13:36basiquement la même chose
13:38c'est de transformer les mots qui sortent de ma bouche
13:40en une image bien
13:42Spoiler alert
13:44si vous donnez Tim suffisamment de temps
13:46il va faire quelque chose de mieux
13:48mais en 10 secondes, Dolly est capable
13:50de créer des variations
13:52et alors que les images peuvent être
13:54un peu fous sur les bords
13:56ou avoir des textes bizarres
13:58ou s'éloigner quand vous zoomez sur les visages ou les mains
14:00ou les objets
14:02ce modèle, comme présentement construit
14:04est incroyable
14:06pour les idées et les concepts
14:08et les choses qui prendraient
14:10beaucoup plus de temps à créer
14:12c'est vraiment un effet de côté incroyable
14:14du développement de ce modèle
14:16qu'il est capable de faire
14:18où les images qui sortent
14:20ne sont pas nécessairement
14:22des œuvres finies
14:24mais ils sont un bon point de départ
14:26pour faire des choses plus tard
14:28et c'est exactement ce que nous avons fait
14:30avec le thumbnail de cette vidéo
14:32qui a commencé comme une image générée par Dolly
14:34où elle a été demandée
14:36de faire un dessin robot
14:38alors je n'ai aucun doute
14:40qu'il y aura des versions de Dolly dans le futur
14:42qui feront des images d'une meilleure résolution
14:44et plus de photos réalistiques
14:46et des animations plus rapides
14:48et des clips de vidéos
14:50et même des films
14:52tout ce qui est en train
14:54d'arriver à ce but
14:56de l'IA générale
14:58que nous travaillons vers
15:00quel moment pour être en vie
15:02merci d'avoir regardé
15:04à la prochaine