Yann Le Cun, Méta nous présente JEPA, le futur de l'intelligence artificielle

Le Point

l’année dernière

Plus fort que ChatGPT, JEPA. Une intelligence artificielle avancée, capable de raisonner et d'apprendre plus, à la manière des humains, voilà le projet que nous a présenté Yann Le Cun, prix Turing, Chef AI Scientist chez Meta et un des plus grands chercheurs en intelligence artificielle.
Pour lui, actuellement « L’intelligence artificielle générative est 50 fois moins intelligente qu’un enfant de 4 ans ».
Celle qu'il espère et souhaite construire pourrait comprendre les conséquences de ses actions, raisonne, comprendre le monde, se poser des questions par exemple sur la dangerosité d'une action avant d’agir, tout comme réfléchir aux conséquences de ses actes.
Un entretien exceptionnel

#AI #IA #artificialIntelligence #IntelligenceArtificielle #ChatGPT

Suivez nous sur :
- Youtube : https://www.youtube.com/c/lepoint/
- Facebook : https://www.facebook.com/lepoint.fr/
- Twitter : https://twitter.com/LePoint
- Instagram : https://www.instagram.com/lepointfr
- Tik Tok : https://www.tiktok.com/@lepointfr
- LinkedIn : https://www.linkedin.com/company/le-point/posts/
- www.lepoint.fr

Catégorie

🤖

Technologie

Transcription

Afficher la transcription complète de la vidéo

00:00 Alors Yann, est-ce que vous pouvez nous expliquer un peu le projet JEPA,

00:04 pourquoi c'est né, qu'est-ce qui manque peut-être encore à la machine,

00:07 et quelles sont les étapes ?

00:09 Alors JEPA ça veut dire Joint Embedding Collective Architecture,

00:12 en français, architecture prédictive d'enchassement joint, si on veut traduire.

00:18 Et ce que ça veut dire c'est, le problème qu'on essaie de résoudre,

00:22 c'est comment les machines peuvent apprendre à comprendre le monde,

00:26 par observation, un peu la manière des bébés, des enfants, etc.

00:29 en regardant des vidéos.

00:32 Donc une idée qui est utilisée beaucoup dans les systèmes d'IA à l'heure actuelle,

00:36 c'est pour les entraîner à comprendre le texte, et comprendre le texte,

00:39 on corrompt ce texte en supplémentant certains mots, en les pressant par des marqueurs blancs,

00:43 on entraîne un très gros réseau de neurones, un système de deep learning,

00:46 à prédire les mots qui manquent.

00:48 Donc ça c'est ce qu'on appelle le liage génératif,

00:50 parce que le système apprend à régénérer en fait l'entrée.

00:54 Alors une idée naturelle c'est d'appliquer ça à la vidéo.

00:57 On prend une vidéo, on masque un morceau de la vidéo,

01:00 et on montre un morceau de la vidéo au système,

01:02 et on lui demande de prédire le morceau qui manque.

01:05 Et ça, ça ne marche pas.

01:06 On travaille dessus depuis 10 ans, ça n'a jamais marché.

01:09 Ce qui marche, c'est des architectures non génératives,

01:13 donc GEPAS, c'est une architecture non générative,

01:15 qui ne cherche pas à reconstruire ce qui manque dans la vidéo,

01:19 mais qui cherche à construire une représentation abstraite de ce qu'il y a dans la vidéo,

01:23 et faire la prédiction de ce qui se passe dans cette représentation abstraite.

01:26 Donc quand on veut prédire par exemple la trajectoire d'une voiture sur une route,

01:32 parce qu'on construit une voiture autonome,

01:34 et qu'on peut arriver à prédire ce que les autres voitures vont faire,

01:37 on n'a pas besoin d'en savoir beaucoup sur la couleur de la voiture,

01:41 la forme de la voiture, le conducteur, etc.

01:45 Les voitures peuvent faire certaines choses qui sont indépendantes d'un petit peu de tout ça.

01:49 Si on veut prédire la trajectoire d'une planète,

01:51 il suffit de connaître 6 variables, les positions et les vitesses de la planète,

01:55 c'est-à-dire sa taille, sa forme, sa couleur, sa composition, sa densité,

01:58 tout ça n'a aucune importance.

02:00 Donc c'est ça le problème que Jepa essaie de résoudre,

02:03 trouver une représentation abstraite de la réalité,

02:08 qui contient toute l'information qui permet de faire des prédictions équivalentes.

02:11 Et si on a un système qui est capable de faire des prédictions de ce qui va se passer dans le monde,

02:15 peut-être ce qui va se passer comme conséquence de ses actions,

02:18 ces systèmes seront capables de comprendre le monde, avoir un certain sens commun,

02:22 et planifier des séquences d'action pour arriver à un but particulier.

02:26 Donc c'est un peu le programme, ça va nous prendre 5-10 ans, on ne sait pas encore.

02:29 Très bien, et qu'est-ce qu'il faut techniquement pour que ça voie le jour ?

02:32 C'est quoi les challenges à relever ?

02:34 Les challenges à relever, c'est quelle architecture donner précisément

02:37 à ces encodeurs et prédicteurs dans les architectures Jepa ?

02:41 Quelle est la meilleure manière de prendre une vidéo et de la corrompre

02:45 justement pour entraîner des systèmes à faire ça ?

02:47 Puis en plus de ça, des problèmes techniques,

02:51 comment entraîner sur des systèmes de grande taille avec beaucoup de données,

02:56 de vidéos, etc. ? Essayer de reproduire un petit peu le type de vidéos

03:00 qu'observent les enfants par exemple dans leur jeunesse, des choses comme ça.

03:02 Donc beaucoup de problèmes à résoudre, certains très techniques,

03:08 on n'y est pas encore.

03:11 Très bien, et juste pour terminer l'analogie avec l'homme,

03:13 est-ce qu'il faudrait un jour que la machine ressente,

03:15 comme souvent on compare le bébé qui est tombé,

03:19 ressente des douleurs, des manques pour qu'elle devienne peut-être

03:23 intelligente à avoir une conscience ou très loin ?

03:26 La conscience, c'est une question que je ne sais pas très bien résoudre,

03:28 je ne saurais pas définir la conscience.

03:29 Mais par contre, avoir des systèmes qui soient capables de l'équivalent d'émotion,

03:34 pour moi ça ne fait aucun doute que oui, les systèmes intelligents du futur

03:37 auront l'équivalent des émotions.

03:40 Alors il y a deux types d'émotions chez les animaux,

03:44 les émotions instantanées, c'est-à-dire si on vous pince,

03:48 ça vous fait mal, vous n'avez pas besoin d'être intelligent

03:51 pour savoir si ça vous fait mal, c'est instantané.

03:54 Donc si par exemple je m'approche et je vous pince,

03:58 vous allez être très surpris, probablement ça va vous faire mal,

04:00 la deuxième fois que je vais essayer de faire ça, vous allez reculer,

04:03 parce que vous pouvez prédire que je vais vous pincer.

04:06 Donc là, il y a un problème de prédiction,

04:09 et surtout de prédiction d'un résultat,

04:12 c'est-à-dire est-ce que la prédiction de ce qui va se passer dans le futur

04:18 produit un résultat bénéfique ou pas ?

04:22 Et ça c'est une émotion.

04:24 Les systèmes intelligents qui sont capables de planifier les actions

04:27 devront avoir ces capacités de prédiction,

04:29 et donc auront l'équivalent des émotions, seront capables de prédire

04:32 si un résultat va être positif ou négatif.

04:35 Donc ça peut aider effectivement à donner à la machine

04:36 certaines sensations physiques peut-être,

04:39 ou ce qui ressemble à des sensations physiques ?

04:40 Physiques ou pas physiques, mais ça sera un petit peu l'équivalent

04:42 de l'émotion, les capacités à prédire le résultat,

04:47 le caractère positif ou négatif d'un résultat.

04:49 [Musique]

Recommandations