DALLE AI Made This Thumbnail!

Navm tv

Regardez DALLE AI Made This Thumbnail! - Navm tv sur Dailymotion

Transcript

00:00Qu'est-ce si je te disais qu'il y a un système actuellement qui peut prendre l'entrée de langue naturelle,

00:05donc n'importe quelle description que tu veux, juste faire quelque chose,

00:08et qui prend ce texte et le transforme en une image surprenantement réaliste

00:14de tout ce que tu as décrit.

00:16Donc tu types un astronaute montant un cheval,

00:19et ça déchire une nouvelle image d'un astronaute montant un cheval.

00:23Tu types « Teddy Bears Shopping for Groceries »

00:27et boum, il y a une image d'un Teddy Bear qui achète des groceries.

00:30Tu types « Un bol de soupe qui est un portail vers une autre dimension »

00:34et boum, mon Dieu, c'est un bol de soupe qui est un portail vers une autre dimension.

00:39Et ce n'est pas juste un, il y a en fait 10 versions différentes

00:42à travers un spectre de variations dans n'importe quel style d'art que tu veux,

00:46tu le nommes et ça peut le dessiner.

00:48Alors, qu'est-ce qui se passe ici, comment ça marche,

00:51et...

00:53Qu'est-ce qui se passe si j'essaie ?

00:58Alors, première chose d'abord, oui, ça existe, c'est une vraie chose.

01:02C'est appelé « DALI 2 » et c'est un projet de recherche d'IA

01:06par une entreprise appelée OpenAI,

01:08l'une des plus nombreuses entreprises co-fondées par Elon Musk à ce moment-là.

01:11Et donc, le but de cette AI, spécifiquement,

01:14est de créer des images et des arts originales, réalistes,

01:19d'une description en texte.

01:21C'est Aditya Ramesh, un chercheur et co-créateur de DALI 1,

01:25et DALI 2.

01:26Il est facilement la personne la plus qualifiée pour expliquer ce qui se passe ici.

01:30Alors, la façon dont DALI 1 génère des images,

01:33DALI 1 génère une image,

01:35en commençant par la gauche supérieure

01:37et en mouvant dans l'ordre de lignes par lignes.

01:39Donc, la diffusion fonctionne complètement différemment.

01:42La façon dont la diffusion fonctionne, c'est que nous traînons un modèle

01:45pour un processus de corruption inversé qui est appliqué à des images sèches.

01:49Alors, c'est un peu difficile d'y penser,

01:51mais basiquement, il y a deux techniques principales d'IA

01:54derrière DALI 2.

01:55Elles s'appellent CLIP et DIFFUSION.

01:58CLIP est une partie qui matche des images à des textes,

02:02et qui utilise ce match pour entraîner l'ordinateur

02:05à comprendre les concepts dans les images.

02:07Donc, il peut générer de nouvelles images

02:10des mêmes concepts.

02:12Quand j'ai demandé à un astronaute d'écrire un cheval, par exemple,

02:15il ne fait pas simplement une mosaïque d'images qu'il a trouvées en ligne,

02:18il connaît l'idée de ce qu'est un astronaute,

02:21il sait ce que signifie le concept d'écrire,

02:24il sait ce qu'est un cheval,

02:26et, peut-être le plus impressionnant,

02:28il sait ce qu'est une image esthétiquement plaisante pour les humains.

02:31Alors, il peut créer une nouvelle version visuelle

02:34de cette idée qui n'a pas existé auparavant.

02:37CLIP n'a pas vraiment l'abilité de faire des images de haute résolution

02:40tout seul,

02:41il génère simplement le geste d'une image

02:44basé sur ces concepts.

02:45C'est là que DIFFUSION arrive.

02:47DIFFUSION est super impressionnant.

02:49En basique, en apprenant un ordinateur

02:51à corrompre une image en ajoutant du bruit de Gaussian,

02:55il peut ensuite apprendre à ne pas corrompre

02:58ou à améliorer une image

03:00en enlevé ce bruit.

03:02C'est un peu comme

03:04étape 1, dessinez un cercle,

03:05étape 2, dessinez le reste du cheval.

03:07Alors, je ne sais pas si vous avez jamais vu ce site

03:09appelé thispersondoesnotexiste.com

03:11mais si vous l'avez, vous devriez le voir.

03:13Il vous montre une image surprenantement réaliste

03:16d'un visage,

03:17mais, comme vous l'avez peut-être imaginé,

03:19thispersondoesnotexiste,

03:20ce n'est pas un visage réel.

03:22C'est en fait l'utilisation de l'IA

03:24pour regarder des milliers de visages

03:26et ensuite générer un nouveau visage

03:28avec cette information

03:29qui est choquantement réaliste

03:31mais qui n'est pas un vrai humain.

03:33Donc, DALI,

03:34DALI 2,

03:35c'est une version beaucoup plus avancée,

03:37plus généralisée

03:38de tout ça

03:39pour tout.

03:40Donc, quand vous l'ouvrez,

03:41c'est littéralement juste une boîte de texte en blanc

03:43où vous pouvez envoyer tout ce que vous voulez créer.

03:45Bien sûr, comme vous pouvez peut-être imaginer,

03:47avec toutes ces préoccupations et possibilités,

03:49ce n'est pas juste un outil disponible au public.

03:51Ce n'est pas comme si tout le monde pouvait l'utiliser.

03:53OpenAI a gardé cela à côté des portes fermées

03:55pour un très petit groupe de personnes

03:57à la main sélectionnée.

03:59Mais pour un jour,

04:01ils m'ont donné les clés

04:03et j'ai pu générer

04:05ce que je voulais,

04:06ce qui, bien sûr,

04:08signifie que j'ai dû demander qu'elle nous révèle enfin

04:10ce que l'appareil Apple attendait depuis longtemps.

04:13Je veux dire, c'est une occasion

04:14qui n'est pas comme d'autres.

04:16J'ai donc enregistré,

04:17j'ai attendu mes 10 secondes

04:19avec un bref souffle,

04:20et puis le secret a été finalement révélé.

04:22Oh.

04:24Bien sûr.

04:25Je ne sais pas pourquoi je m'attendais à quelque chose de différent.

04:28Mais pour le vrai,

04:29l'équipe d'OpenAI a été assez gentille

04:31pour m'aider à fournir à Dolly

04:33tout ce que je voulais.

04:35J'ai donc décidé de commencer

04:36assez simple

04:37et ensuite de devenir un peu plus complexe

04:40au fur et à mesure.

04:41Donc, un Apple bleu

04:43et un bol d'oranges.

04:46Donc, OK.

04:47Ce sont bien.

04:48Ce sont en fait,

04:49je veux dire, c'était extrêmement facile.

04:52Mais la précision,

04:53le réalisme,

04:54même le lumière,

04:56pour créer ces nouveaux tout de suite,

04:58il y a tellement de détails dans celui-ci.

05:00C'est un peu difficile de croire qu'il n'est pas réel.

05:02OK.

05:03Un cangarou âgé.

05:07Je veux dire,

05:08je ne sais pas ce que j'attendais spécifiquement

05:10un cangarou âgé à ressembler.

05:12Je suppose que peut-être que j'ai imaginé

05:14des cheveux gris ou quelque chose.

05:16Mais je l'achète.

05:17Je veux dire, le fait qu'encore une fois,

05:18ce n'est pas une photo réelle,

05:20mais qu'elle ressemble à une photo réelle

05:22d'un cangarou âgé,

05:24c'est très impressionnant.

05:26Un éléphant sage

05:28regardant la lune

05:30la nuit.

05:32Wow.

05:33OK.

05:34Donc, c'est définitivement un éléphant sage.

05:36Il ou elle est en fait regardant la lune

05:38et c'est définitivement la nuit.

05:40Ce n'est pas mauvais.

05:42La lune a l'air un peu dégueulasse

05:44si vous regardez un peu plus proche sur certains d'entre eux.

05:46Ce n'est pas parfait,

05:48mais l'éléphant est très réel.

05:50OK.

05:51Allons-y un peu plus spécifiquement.

05:52Un cangarou âgé

05:54faisant de l'opération sur une graine

05:56dans le style d'un cartoon des années 1990.

06:00Oh mon Dieu.

06:02Regardez ces cartoons.

06:04Parfois, ça manque.

06:05C'est totalement compréhensible.

06:07Il me semble aussi que j'ai choisi des couteaux

06:09au lieu d'une opération plus réaliste.

06:12Je vais vous expliquer pourquoi dans un instant.

06:14Mais les expressions faciales,

06:16les pieds,

06:17et tout,

06:18je veux dire,

06:19c'est un cangarou

06:21faisant de l'opération sur une graine.

06:22OK, celui-ci est pour Mac,

06:23le chien de studio.

06:24Un cangarou âgé

06:26je prononce mal,

06:27en utilisant une caméra

06:29sur un set de cinéma.

06:31Wow.

06:32C'est...

06:33OK, si vous ne pouvez pas le dire,

06:34c'est le nom de la famille de chien.

06:36Et...

06:37plus vous inspectez chaque image individuelle,

06:41plus la partie de photoréalisme

06:43s'éloigne,

06:44ce qui n'est peut-être pas choquant,

06:45parce que c'est un truc fou

06:46d'avoir une photo.

06:47Mais le détail dans la famille de chien,

06:49et qu'en fait,

06:50en utilisant la caméra

06:52dans les photos,

06:53c'est super bien.

06:55Je me demande si on pourrait le poster

06:56sur Instagram de Mac,

06:57si quelqu'un remarquait

06:58que ce n'est pas une vraie photo.

06:59Je pourrais probablement le résoudre.

07:01OK.

07:02Une femme robot

07:03qui garde un mur de computers.

07:06Wow.

07:07OK.

07:08Il y a tellement de détails intéressants

07:10et de décisions qui sont faites

07:12dans ces images.

07:13Donc, le mot de garde implique

07:16un peu de pose.

07:17Il y a quelques poses de garde différents ici,

07:20mais c'est cool.

07:21Les computers, pour la plupart,

07:22sont aussi assez convaincants

07:24si vous ne zoomez pas trop.

07:25Et aussi,

07:26c'est intéressant

07:27que les murs des computers

07:28ne vont pas jusqu'à la couche,

07:29ce qui est cool.

07:30Mais,

07:31c'est définitivement

07:32une femme robot

07:33qui garde

07:34ce mur de computers.

07:35OK.

07:36Qu'est-ce si on y va ?

07:37Un tigre découvrant

07:38la ville perdue d'Atlantis.

07:41Wow.

07:42OK.

07:43Ce sont plus des styles d'art,

07:45probablement parce que,

07:46un,

07:47il n'y aura pas de photos réalistes

07:50de références

07:51de la ville perdue d'Atlantis.

07:53Donc, j'imagine

07:54que ça va ressembler mieux de cette façon.

07:56Et deux,

07:57c'est une image folle à créer.

07:59Donc, avec chaque d'entre elles,

08:00elles sont géniales

08:01sans zoomer dans Pixel Peeping.

08:03Et,

08:04elles ont très bien accompli

08:05le but d'illustrer

08:06un tigre découvrant l'Atlantis,

08:07comme j'ai demandé.

08:08La partie folle ici,

08:09pour moi,

08:10c'est la quantité

08:11d'imagination

08:12qu'elle utilise.

08:13Comme,

08:14je suis en fait

08:15en recevant plus

08:16que ce que j'ai demandé.

08:17Les expressions faciales,

08:18les poses,

08:19l'orientation des choses,

08:20les réflexions,

08:21même la lumière

08:22précise et les ombres

08:23sont folles.

08:24Comme,

08:25j'ai demandé un tigre

08:26qui découvre l'Atlantis ici,

08:27mais,

08:28il a décidé

08:29d'ajouter des arbres

08:30et des oiseaux

08:31et une lune

08:32tout seul.

08:33D'accord,

08:34c'est parti.

08:35C'est parti.

08:36Une peinture

08:37inspirée par la Mona Lisa

08:38d'un tigre

08:40qui prend des photos

08:41avec un iPad.

08:43Je...

08:44C'est ma nouvelle chose préférée.

08:46Tu peux vraiment

08:47partir des rails

08:48avec de la complexité

08:49et

08:50ça les rend bien.

08:52Presque tous ces tigres

08:53ont des mains aussi,

08:55ce qui est hilarant.

08:56Mais les dessins eux-mêmes

08:57ont aussi

08:58resté

08:59au thème.

09:00C'est une peinture

09:01dans le style

09:02de la Mona Lisa

09:03et les tablettes

09:04sont tous,

09:05vous savez,

09:06différents niveaux

09:07de

09:08iPads convaincants.

09:09Wow.

09:10Je vais les mettre

09:11sur Twitter,

09:12par ailleurs,

09:13dans un gros fil

09:14et quelques extras

09:15si ils ne le font pas

09:16dans la vidéo.

09:17Donc,

09:18cliquez sur le lien

09:19ci-dessous

09:20si vous voulez

09:21les voir.

09:22Mais,

09:23dernièrement,

09:24un cyclope

09:25conduisant un tracteur

09:26écoutant des Airpods

09:27c'est...

09:28Vraiment.

09:29Peut-être qu'il n'est pas

09:30un cyclope parfait

09:31et c'est intéressant

09:32qu'il soit choisi

09:33pour tous les écouteurs

09:34pour tous les écouteurs

09:35et pas, vous savez,

09:36les Airpods

09:37mais

09:38je pense qu'il n'y a rien

09:39qui ne peut pas le faire.

09:40C'est un des outils

09:41de l'IA

09:42qui est si bon

09:43qu'il pose presque

09:44plus de questions

09:45qu'il répond.

09:46Pourquoi un outil

09:47comme celui-ci

09:48existe

09:49en premier?

09:50Eh bien,

09:51Dolly 2

09:52est un projet de recherche,

09:53pas un produit

09:54client.

09:55Et l'objectif

09:56d'OpenAI

09:57est de créer

09:58une bonne

09:59sécurité

10:00générale

10:01de l'IA

10:02ce qui est vraiment difficile.

10:03Il y a beaucoup

10:04de très bons

10:05systèmes d'IA

10:06spécifiques pour les tâches

10:07qui vont faire des choses

10:08comme détecter

10:09le cancer

10:10en X-ray

10:11ou

10:12conduire

10:13les voitures

10:14qui naviguent

10:15les rues

10:16ou juste

10:17faire des photos

10:18en Photoshop.

10:19Mais l'idée

10:20générale de l'IA

10:21qui nécessite

10:22beaucoup d'informations

10:23pour pouvoir

10:24naviguer

10:25est un autre

10:26défi.

10:27Je veux dire,

10:28si vous pensez

10:29à un robot Tesla

10:30qui passe autour de la Terre

10:31pour vous compléter des tâches,

10:32c'est à ce niveau

10:33qu'on parle ici.

10:34Et donc,

10:35être en mesure

10:36de reconnaître des objets

10:37et des images

10:38et de les associer

10:39très rapidement

10:40et précisément

10:41est une grande partie de ça.

10:42Est-ce qu'il y a des choses

10:43que Dolly

10:44ne fait pas?

10:45Eh bien, oui, en fait.

10:46Il y a

10:47des conséquences

10:48intentionnelles

10:49et inintentionnelles

10:50de Dolly 2

10:51comme elles existent

10:52en ce moment.

10:53Donc,

10:54le nombre

10:55d'images

10:56que Dolly réfère

10:57est énorme,

10:58mais il n'y a pas

10:59d'images

11:00d'un contenu adulte

11:01ou d'une activité illégale

11:02ou de la violence.

11:03Donc, il ne crée pas

11:04d'images

11:05avec ce genre de choses

11:06dedans.

11:07Ça a du sens.

11:08C'est probablement

11:09pourquoi on a eu des ciseaux

11:10dans la main de Teddy Bear

11:11au lieu d'un couteau

11:12parce que c'est

11:13l'association

11:14la plus proche

11:15que l'IA

11:16a pu faire

11:17pour cette opération.

11:18Et vous ne pouvez pas

11:19demander

11:20pour l'imagerie

11:21d'identités spécifiques

11:22des gens.

11:23Vous pouvez demander

11:24pour l'image

11:25d'une banque

11:26mais vous ne pouvez pas

11:27demander

11:28pour l'image

11:29d'une banque

11:30de Marques Brownlee.

11:31Comme je suis curieux

11:32de savoir

11:33quel genre d'image

11:34ça serait,

11:35vous ne pouvez pas.

11:36Ça serait dangereux

11:37pour des raisons évidentes.

11:38Mais aussi,

11:39Dolly 2 est connu

11:40pour avoir

11:41quelques quirks.

11:42Un d'entre eux,

11:43c'est qu'il ne fonctionne

11:44pas très bien

11:45spécifiquement

11:46avec le binding variable

11:47ou ce qui va se passer

11:48quand vous demandez

11:49pour la position relative

11:50d'objets

11:51dans une image.

11:52C'est un cube bleu

11:53sur un cube rouge.

11:54Et on l'a vu.

11:55Dans l'une des images

11:56que j'ai retrouvées

11:57pour un orange bleu

11:58dans un bol d'oranges,

11:59bien là,

12:00c'est clairement un orange

12:01dans un bol d'oranges bleues,

12:02ce qui est un peu drôle.

12:03Et aussi,

12:04pour n'importe quelle raison,

12:05ça ne fonctionne pas

12:06bien avec le texte écrit.

12:07Parfois,

12:08ça peut vous donner

12:09certaines lettres

12:10mais si vous demandez

12:11pour un signe

12:12qui dit un mot,

12:13ça ne vous donnera

12:14presque jamais ça.

12:15Il y a en fait

12:16un tweet hilarant

12:17de quelqu'un

12:18qui demande à Dolly

12:19pour des signes

12:20avec des choses

12:21qui ont un sens qui dépêche

12:22ce qui est aussi drôle.

12:23Mais c'est ce genre de choses

12:24qu'ils travailleront

12:25pour Dolly 3

12:26et pour les versions d'avril

12:27comme vous pouvez l'imaginer.

12:28Mais c'est drôle.

12:29Avec chaque découverte

12:30qu'ils ont trouvé,

12:31il y avait aussi

12:32une affaire

12:33coincée

12:34qui était aussi géniale

12:35qu'ils ont trouvé aussi.

12:36Cette méthode de diffusion

12:37peut aussi

12:38transformer des images.

12:39Vous pouvez donc prendre

12:40une image existante

12:41et rouler le modèle

12:42de plus en plus

12:43pour le pousser

12:44de plus en plus

12:45vers chaque signe que vous voulez.

12:46Vous pouvez donc

12:47prendre cette veste

12:48par exemple

12:49et la tourner lentement

12:50ou un dessin de Jackson Pollock

12:52ou prendre cette photo d'un chat

12:54et la transformer en un

12:56maître samouraï

12:58ou prendre une photo d'une pièce de

13:00technologie et la remodifier

13:02à nouveau et à nouveau

13:04regarde ce qu'il fait à cet iPhone

13:06il le transforme en un téléphone plus vieux

13:08et plus vieux

13:10il modifie les images existantes

13:12en basant sur d'autres concepts existants

13:14c'est un peu fou

13:16alors, est-ce que ça va

13:18prendre les emplois des gens ?

13:20bien, si vous voulez l'exacte réponse

13:22à cette question, c'est le concept

13:24qu'on a attaqué avec le nouveau studio

13:26je vous mettrai le lien sous la vidéo

13:28mais on a battu Dolly 2 contre Tim

13:30qui est le designer graphique

13:32ici au studio de MKBHD

13:34où leurs emplois sont

13:36basiquement la même chose

13:38c'est de transformer les mots qui sortent de ma bouche

13:40en une image bien

13:42Spoiler alert

13:44si vous donnez Tim suffisamment de temps

13:46il va faire quelque chose de mieux

13:48mais en 10 secondes, Dolly est capable

13:50de créer des variations

13:52et alors que les images peuvent être

13:54un peu fous sur les bords

13:56ou avoir des textes bizarres

13:58ou s'éloigner quand vous zoomez sur les visages ou les mains

14:00ou les objets

14:02ce modèle, comme présentement construit

14:04est incroyable

14:06pour les idées et les concepts

14:08et les choses qui prendraient

14:10beaucoup plus de temps à créer

14:12c'est vraiment un effet de côté incroyable

14:14du développement de ce modèle

14:16qu'il est capable de faire

14:18où les images qui sortent

14:20ne sont pas nécessairement

14:22des œuvres finies

14:24mais ils sont un bon point de départ

14:26pour faire des choses plus tard

14:28et c'est exactement ce que nous avons fait

14:30avec le thumbnail de cette vidéo

14:32qui a commencé comme une image générée par Dolly

14:34où elle a été demandée

14:36de faire un dessin robot

14:38alors je n'ai aucun doute

14:40qu'il y aura des versions de Dolly dans le futur

14:42qui feront des images d'une meilleure résolution

14:44et plus de photos réalistiques

14:46et des animations plus rapides

14:48et des clips de vidéos

14:50et même des films

14:52tout ce qui est en train

14:54d'arriver à ce but

14:56de l'IA générale

14:58que nous travaillons vers

15:00quel moment pour être en vie

15:02merci d'avoir regardé

15:04à la prochaine

Category

Transcription

Recommandations