• il y a 2 ans

Catégorie

🤖
Technologie
Transcription
00:00 [SILENCE]
00:06 Merci beaucoup. Merci de m'avoir invité à cet événement.
00:11 Désolé de ne pas pouvoir être là en personne.
00:14 Je vous appelle de Hong Kong, dans une chambre d'hôtel mal éclairée,
00:19 ce qui fait que mon image, pour le moment, est d'assez mauvaise qualité.
00:22 Je m'avais prévu d'utiliser une présentation,
00:26 mais comme je ne peux pas partager mon écran apparemment,
00:30 je pense juste vous en parler de vive voix, disons.
00:36 Alors, je vais vous parler du présent, pendant une dizaine de minutes,
00:41 peut-être un quart d'heure, du présent et du futur de l'intelligence artificielle,
00:45 et puis ensuite, nous pourrons avoir un échange avec des questions.
00:50 Alors tout d'abord, il y a énormément d'applications de l'intelligence artificielle
00:55 aujourd'hui qui sont bénéfiques dans les domaines qui sont bénéfiques aujourd'hui
01:02 ou qui le sont dans le futur, dans le domaine des transports par exemple,
01:04 l'assistance à la conduite, des systèmes qu'on appelle
01:07 AEBS, Automatic Emergency Braking Systems,
01:10 qui sont obligatoires maintenant dans l'Union européenne
01:14 et qui permettent aux voitures de freiner automatiquement
01:16 quand il y a un obstacle qui surgit devant elles,
01:18 et puis de plus ou moins conduire de manière autonome sur l'autoroute,
01:22 et puis ça va faire des progrès dans les années qui viennent.
01:25 Beaucoup de systèmes pour l'analyse d'images médicales
01:28 ou l'amélioration de la collection de données pour l'imagerie médicale,
01:33 pour le design de nouveaux médicaments,
01:38 pour l'accomplissement des mécanismes biologiques
01:42 derrière certaines maladies, etc.
01:45 Beaucoup d'applications aussi en surveillance de l'environnement
01:49 et protection de l'environnement à travers images satellites et autres,
01:54 mais aussi des caméras dans les forêts, etc.,
01:56 qui analysent automatiquement ce qui se passe devant.
01:59 Et puis une grosse application avec laquelle on est très habitué à META,
02:05 qui est la gestion de l'information et du contenu,
02:10 la modération de contenu, le filtrage, etc.
02:13 Je vais en parler un petit peu.
02:14 Puis bien sûr, beaucoup d'applications dans l'industrie
02:16 pour tout un tas de choses.
02:19 Dans le futur, je pense qu'il va y avoir beaucoup plus d'applications
02:21 dans le domaine de l'éducation, dans la connexion entre les gens,
02:26 la téléprésence, par exemple, à travers réalité virtuelle, réalité augmentée,
02:30 la traduction qui existe déjà, donc traduction automatique multilingue.
02:34 Et puis beaucoup d'applications aussi dans les sciences
02:37 qui accélèrent le progrès des sciences en biologie, en génomique,
02:41 en neurosciences, en physique, en sciences des matériaux,
02:44 qui pourront peut-être nous aider à résoudre les problèmes
02:47 de changement climatique, en chimie, stockage d'énergie en particulier.
02:51 Et puis bien sûr, une application où je pense
02:54 beaucoup d'entre vous sont intéressés, qui concerne l'art et la création.
02:59 Alors on a déjà des outils qui aident à la création
03:02 de contenus visuels et de musiques,
03:05 et qui s'améliorent de jour en jour pratiquement.
03:09 Et certainement, avec tout ça, l'IA va affecter un petit peu
03:13 tous les aspects de l'activité humaine.
03:16 Alors beaucoup de progrès se sont passés dans le domaine,
03:20 par exemple, la compréhension d'images.
03:22 Donc les systèmes de vision artificielle maintenant marchent très bien,
03:25 peuvent détecter des tumeurs dans les mammogrammes, par exemple,
03:28 les mammographies, comprendre des images d'une manière assez incroyable.
03:34 Des projets qui ont permis, en particulier dû à certains de mes collègues,
03:38 qui ont permis de, par exemple, accélérer la collection de données
03:41 pour l'imagerie médicale, l'IRM, au lieu de passer 40 minutes
03:45 dans une machine très brillante et un peu claustrophobe.
03:49 On peut réduire ça à 10 minutes sans dégradation de la qualité des images.
03:58 Donc ça permet des diagnostics plus rapides, plus efficaces.
04:04 Beaucoup de progrès dans les sciences, en particulier dans les neurosciences,
04:06 où on utilise des systèmes d'IA, en fait, pour comprendre
04:09 ce qui se passe dans le cerveau quand on observe une image,
04:12 on regarde une vidéo ou on comprend un texte ou une histoire.
04:18 Beaucoup de travaux en physique, en chimie, en sciences des matériaux,
04:21 comme je l'ai mentionné.
04:23 Un projet en particulier que j'aurais mentionné, qui a été démarré
04:25 par certains de mes collègues, mais qui est un projet collaboratif
04:28 avec les universités, qui s'appelle Open Catalyst.
04:32 Et l'idée de ce projet, en fait, c'est d'utiliser l'IA pour essayer
04:35 de trouver de nouveaux composés chimiques qui permettraient
04:38 de séparer l'hydrogène de l'oxygène dans l'eau avec de l'électricité
04:42 de manière efficace et surtout qui permettraient de passer à l'échelle.
04:46 Et ça permettrait de résoudre un gros problème, en fait,
04:48 pour le changement climatique, qui est le stockage de l'énergie.
04:51 C'est-à-dire qu'on peut produire autant d'énergie que le monde entier
04:56 en aurait besoin en tapissant un petit désert de panneaux solaires.
05:01 Mais le problème de ça, c'est qu'il faut pouvoir stocker l'énergie
05:03 pour l'envoyer où il faut et puis pour que quand le soleil ne brille pas,
05:07 c'est-à-dire la nuit en particulier.
05:10 Et pour ça, il faut pouvoir stocker l'énergie.
05:12 La meilleure manière, c'est de stocker ce fond d'hydrogène ou de méthane
05:15 en séparant l'hydrogène de l'oxygène de l'eau.
05:18 Et il faut pour ça, en fait, des composés chimiques qui permettent
05:21 de faciliter cette réaction.
05:23 Et l'IA va peut-être permettre de résoudre ce problème.
05:26 Alors, c'est un travail de recherche, mais qui est très prometteur.
05:29 Et puis, bien sûr, beaucoup d'entre vous ont dû entendre parler
05:33 des progrès énormes qui ont été faits dans la prédiction des structures
05:36 de protéines, qui ouvrent la porte à d'énormes progrès dans, par exemple,
05:43 la conception de nouveaux médicaments, la compréhension des mécanismes
05:46 biologiques et peut-être des solutions à des maladies qu'on ne peut pas
05:55 guérir pour l'instant.
05:58 Alors, dans des choses qui me concernent un petit peu plus, peut-être,
06:02 les systèmes d'IA aujourd'hui sont capables de comprendre d'une certaine
06:09 manière ce qui est contenu dans un texte ou dans la parole.
06:14 Donc, on a des systèmes maintenant qui sont des tas de prototypes,
06:16 mais qui vont être disponibles pour le grand public très bientôt,
06:20 qui sont capables de comprendre environ 1 000 langues différentes.
06:26 Ça représente une grande partie de toutes les langues parlées dans le monde,
06:29 y compris les langues qui ne sont pas écrites, y compris des dialectes.
06:33 Et non seulement de les comprendre, c'est-à-dire pouvoir les traduire
06:37 en texte, en tout cas pour les langues écrites, mais aussi pouvoir
06:41 les synthétiser, c'est-à-dire à partir d'un texte produire un signal vocal,
06:50 pouvoir les traduire directement de la parole à la parole,
06:55 dans n'importe quelle direction de ces 1 000 langues,
06:58 et ça, ça marche aussi pour des langues qui ne sont pas écrites,
07:03 donc qui fait directement la traduction de parole à parole.
07:06 Donc ces systèmes, comme j'ai dit, sont un petit peu expérimentaux encore,
07:10 mais vont être disponibles au grand public sous peu.
07:16 Ça promet d'effacer un petit peu les barrières culturelles,
07:24 de permettre aux gens de communiquer plus facilement,
07:29 ce qui est un peu la mission de Meta, de connecter les gens les uns avec les autres,
07:33 et puis de donner accès à la technologie à des gens qui, pour l'instant,
07:36 ont du mal parce qu'ils sont peut-être... ne savent pas lire, par exemple,
07:44 ou sont... ont des problèmes de vision ou d'audition.
07:51 À peu près 800 millions de personnes dans le monde aujourd'hui
07:54 ne savent pas lire ni écrire.
07:56 300 millions sont aveugles.
08:00 Et l'IA permet à ces gens d'accéder à la technologie.
08:05 Alors, une des plus grosses applications de l'IA en ce moment
08:08 est un petit peu derrière le rideau, on ne s'en rend pas très bien compte,
08:11 mais c'est la modération de contenu sur les réseaux sociaux.
08:16 Alors, aujourd'hui, si on prend un réseau social comme Facebook,
08:21 la modération de contenu, en fait, est une tâche extrêmement importante
08:25 qu'on doit faire.
08:26 Donc, par exemple, supprimer les contenus illégaux,
08:29 c'est-à-dire, par exemple, l'exploitation des enfants,
08:34 l'exploitation sexuelle des enfants en particulier,
08:36 le harcèlement, les appels à la violence,
08:39 la propagande terroriste d'organisations étiquetées comme étant terroristes,
08:44 le contenu de haine.
08:46 Et aujourd'hui, l'IA est notre meilleure solution, en fait, à ces problèmes.
08:52 C'est-à-dire qu'aujourd'hui, environ, en tout cas l'année dernière,
08:56 environ 95% des contenus de haine
09:00 qui étaient tentés d'être postés sur Facebook
09:04 ont été supprimés automatiquement par des systèmes d'IA
09:07 avant que qui que ce soit ne les voie.
09:10 Sur tous les postes qui sont identifiés comme étant des contenus de haine,
09:17 environ 95% ont été supprimés automatiquement par des systèmes d'IA
09:21 ou, disons, la probabilité qu'ils soient vus par quelqu'un a été baissée.
09:30 Ce qui fait que le pourcentage, en fait, de contenus de haine
09:34 qui subsistent sur Facebook était de l'ordre de 0,01%,
09:39 c'est-à-dire une pièce d'information sur 10 000.
09:42 Alors c'est déjà trop grand, c'est encore trop grand,
09:45 mais c'est l'état de la technologie, c'est le meilleur système à l'heure actuelle
09:48 dans toute l'industrie, en fait, pour faire ce genre de choses.
09:52 Pour vous donner une idée, la proportion de contenus de haine
09:56 supprimés automatiquement il y a cinq ans, c'est-à-dire fin 2017,
10:00 était de l'ordre de 20 à 25%.
10:04 Et la raison pour laquelle c'est 95% maintenant,
10:06 c'est que l'IA a fait énormément de progrès,
10:09 et donc maintenant on est beaucoup plus à même d'identifier des contenus
10:13 qui sèment la zizanie ou qui sont des contenus de haine
10:17 ou qui cèdent de corrompre, par exemple, le processus démocratique,
10:21 grâce au fait que l'IA maintenant comprend un peu mieux le texte
10:25 dans toutes les langues du monde, en fait.
10:27 Enfin, pas toutes les langues, mais presque toutes,
10:29 plusieurs centaines de langues.
10:31 Alors bien sûr, on entend beaucoup parler de l'IA générative
10:35 et de systèmes qui peuvent produire du contenu,
10:39 et j'imagine que c'est un sujet qui vous tient à cœur.
10:43 Alors pour l'instant, les systèmes génératifs produisent du texte,
10:47 produisent de l'image, produisent du son et de la musique,
10:51 et produisent de la vidéo, mais c'est encore pas très bon,
10:54 c'est-à-dire que ça produit des vidéos qui sont relativement courtes.
10:57 Alors pour entraîner des systèmes de production de texte,
11:00 ce qu'on fait, c'est qu'on prend une collection de textes énormes,
11:05 en général, même tout le temps,
11:07 ce sont des données publiques disponibles sur Internet,
11:10 et on entraîne un système de deep learning,
11:14 un réseau de neurones assez grand,
11:16 à prédire le dernier mot dans cette séquence de mots.
11:20 Et ce faisant, le système élabore une représentation interne du texte
11:25 qui lui permet ensuite de prédire,
11:28 non pas exactement un mot qui va suivre une séquence de mots,
11:32 mais prédire une espèce de distribution de probabilités
11:36 sur le mot qui va suivre.
11:38 Donc ensuite, on prend un mot dans cette distribution,
11:41 on le fait passer dans l'entrée,
11:43 et puis ça permet au système de produire le mot suivant.
11:47 Et puis on le met dans l'entrée, on produit le mot suivant, etc.
11:50 Donc c'est ce qu'on appelle la prédiction autorégressive,
11:53 et c'est ce qui permet de produire du texte
11:55 qui a l'air très correct grammaticalement,
12:00 qui a l'air d'avoir du sens,
12:02 mais très souvent ces systèmes produisent du non-sens,
12:09 c'est-à-dire du texte qui a l'air correct,
12:12 mais qui en fait ne l'est pas,
12:14 qui est factuellement incorrect, qui est illogique, etc.
12:18 Alors ça ne veut pas dire que ces systèmes ne sont pas utiles,
12:21 ils sont très utiles pour l'aide à la production de texte,
12:24 mais c'est très loin d'être parfait,
12:26 et on est encore très loin de pouvoir reproduire
12:29 ou même d'approcher, si peu que ce soit, l'intelligence humaine.
12:36 Mais quand même, ces systèmes sont très utiles,
12:41 et il y a en ce moment un engouement de l'industrie pour ces modèles,
12:44 pour essayer d'en faire des applications,
12:47 qui explose, qui est absolument gigantesque.
12:51 Alors ces systèmes pour marcher à peu près bien
12:53 doivent être entraînés sur des quantités de textes absolument gigantesques,
12:56 de l'ordre de 1000 milliards ou 2000 milliards de mots,
13:00 qui prendraient environ 20 000 ans pour une personne à lire,
13:04 donc c'est une quantité de textes absolument énorme.
13:07 Et malgré ça, ces systèmes sont très bons
13:09 pour permettre de récupérer un résumé
13:16 d'une quantité de connaissances absolument gigantesque,
13:20 mais ils font ça malheureusement de manière approximée,
13:23 c'est-à-dire qu'on ne peut pas vraiment de manière fiable
13:26 se reposer sur ce qu'ils nous disent de manière factuelle.
13:28 Ces systèmes aussi sont très difficiles à contrôler,
13:30 c'est-à-dire que ce qu'ils vont dire est entièrement déterminé
13:34 par le texte qu'on leur donne avant,
13:36 et il n'y a pas, pour l'instant, très difficile d'imposer des rembardes
13:44 pour empêcher le système de diverger un petit peu de réponses qui sont correctes.
13:50 Et ces systèmes aussi, pour l'instant, n'ont pas de connaissances de la réalité physique,
13:54 c'est-à-dire qu'ils sont entraînés purement sur du texte
13:57 et ne comprennent pas des choses qui nous semblent complètement évidentes,
14:01 qui sembleraient complètement évidentes à un chien ou à un chat,
14:04 mais comme ces systèmes sont entraînés purement sur du texte,
14:07 en fait, ils ne connaissent pas la réalité sous-jacente.
14:10 Donc leur compréhension du monde est extrêmement superficielle.
14:13 Donc on est très loin, encore une fois, d'atteindre l'intelligence humaine,
14:17 ces systèmes ne peuvent pas vraiment raisonner,
14:18 ils ne peuvent pas vraiment planifier leur réponse,
14:22 ils ne peuvent pas planifier une séquence d'action pour obtenir un résultat,
14:27 en tout cas pas encore très bien.
14:29 Donc on peut les utiliser pour l'aide à l'écriture,
14:33 on peut certainement les utiliser quand le degré de véracité n'est pas important,
14:40 donc par exemple si on veut produire des images ou des vidéos,
14:43 il suffit que ce soit créatif mais pas nécessairement correct,
14:47 ou la poésie, etc.
14:49 Donc on est très loin, contrairement à ce que certains ont pu dire,
14:53 on est très loin d'atteindre le niveau d'intelligence humaine,
14:57 et il y a encore beaucoup de travail à faire,
14:59 c'est encore probablement un travail qui va se compter en décennies,
15:02 pas en années.
15:04 Et en fait on peut se convaincre de ça,
15:06 parce que bien qu'on ait des systèmes, des LLM, des Large Language Models,
15:11 qui puissent passer l'examen du barreau,
15:16 on n'a toujours pas de système qui peut apprendre à conduire une voiture
15:20 en environ une vingtaine d'heures de pratique,
15:23 ce que peut faire n'importe quel adolescent de 17 ans.
15:27 On est encore très très loin de ça,
15:30 on est encore très loin d'avoir des robots qui soient assez intelligents
15:34 pour pouvoir apprendre ce qu'un enfant de 10 ans peut apprendre en quelques minutes,
15:38 c'est-à-dire par exemple débarrasser la table et remplir la vaisselle,
15:41 même si on a du mal à les convaincre de le faire.
15:44 On n'a pas du tout la technologie qui permettrait à un système d'apprendre
15:48 comment fonctionne le monde suffisamment bien pour pouvoir faire ça.
15:51 Et c'est pas parce qu'on sait pas construire le robot,
15:54 c'est simplement qu'on sait pas comment les rendre suffisamment intelligents.
15:57 C'est à peu près évident qu'il nous manque quelque chose de vraiment fondamental
16:00 pour rendre les machines intelligentes.
16:02 Alors on travaille à des nouvelles architectures qui permettraient
16:06 au système intelligent justement de comprendre le monde
16:11 un peu à la manière des animaux ou des bébés,
16:16 c'est-à-dire en regardant le spectacle du monde si vous voulez,
16:20 en comprenant comment il fonctionne.
16:23 Mais on n'en est pas là.
16:25 Ça conduirait éventuellement d'ici 5, 10, 20 ans à des systèmes
16:29 qui pourront comprendre le monde, planifier, etc.
16:31 et qui à terme atteindront le même niveau d'intelligence
16:36 que tout d'abord peut-être un chat ou un chien,
16:39 et puis tôt ou tard un humain, et puis probablement qu'ils vont la dépasser.
16:43 Alors ça, ça nous mène à un futur,
16:46 qui d'ailleurs n'est probablement pas si éloigné,
16:49 dans lequel on va avoir des assistants virtuels intelligents
16:54 qui vont servir d'intermédiaire à toutes nos interactions
16:59 avec le monde numérique, et d'une certaine manière aussi
17:01 avec les autres personnes.
17:04 Ça sera sous la forme peut-être d'agents intelligents
17:08 dans nos smartphones, mais aussi peut-être d'agents intelligents
17:12 qui seront dans nos lunettes intelligentes,
17:16 des lunettes de réalité augmentée par exemple,
17:19 avec caméra, micro, ou parleur dans les branches de lunettes,
17:25 un petit ordinateur dans les branches de lunettes,
17:27 et puis peut-être un affichage dans les lunettes,
17:30 on ne sait pas encore le faire, mais ça ne va pas tarder,
17:33 qui pourra superposer des informations sur le monde réel.
17:36 Donc toutes nos interactions avec le monde numérique
17:38 se feront par l'intermédiaire de systèmes intelligents,
17:40 d'assistants intelligents, beaucoup plus puissants
17:42 que ce qu'on sait faire à l'heure actuelle.
17:44 Et ça, ça pose des questions vraiment intéressantes.
17:47 D'abord, ça nécessite de pouvoir produire des systèmes
17:51 dont l'intelligence va être de niveau humain,
17:53 parce que pour vraiment interagir avec un système intelligent
17:57 de manière utile et non frustrante, il va falloir
18:00 que ces assistants intelligents soient aussi intelligents
18:02 que les humains. Ils vont nous assister dans notre vie
18:04 de tous les jours. Ce sera un petit peu comme si
18:07 chacun d'entre nous avait une équipe de gens
18:11 qui travailleraient pour nous et qui seraient
18:14 plus intelligents que nous, d'une certaine manière,
18:16 mais ce ne seront pas de vrais gens,
18:17 ce seront des assistants virtuels.
18:20 Alors, dans un futur de ce type, il y a des questions
18:25 de culture et de politique qui sont très importantes,
18:32 c'est-à-dire que ces systèmes intelligents
18:34 constitueront une espèce de dépositaire
18:39 de toute la connaissance humaine et toute la culture humaine.
18:43 Et toute notre information, en fait, se fera
18:47 par l'intermédiaire d'un de ces systèmes.
18:49 Donc, il est absolument inconcevable pour moi
18:53 que ce genre de système puisse être fermé et propriétaire
18:58 et contrôlé par un petit nombre d'entreprises
19:01 sur la côte ouest des États-Unis ou en Chine.
19:03 Il faut absolument que ces plateformes soient ouvertes
19:07 et que la culture et la connaissance qu'elles contiennent
19:12 et qu'elles représentent soient contribuées
19:15 par une large population, un petit peu à la manière
19:19 de Wikipédia.
19:20 Wikipédia, ce n'est pas contrôlé par une seule personne,
19:22 en fait, c'est des millions de gens qui contribuent,
19:26 chacun avec leur culture, avec leur vue du monde, etc.
19:29 Il va falloir trouver un système pour faire un peu
19:32 la même chose avec les systèmes intelligents
19:34 pour qu'ils représentent toute la culture humaine
19:36 et pas simplement la vue du monde de Palo Alto.
19:41 C'est une des raisons pour lesquelles j'ai fait
19:44 énormément de bruit, on peut dire,
19:46 sur la nécessité de plateformes open source pour l'IA,
19:52 parce que c'est la seule manière que je vois
19:55 de permettre ce futur et d'éviter une capture
20:01 de la culture et du business et de la politique aussi
20:06 par un petit nombre d'entreprises.
20:10 Cette politique de favoriser les plateformes open source
20:14 de l'IA est une qui a été adoptée par l'État,
20:18 une qui est tout à fait favorisée par l'État français,
20:23 qui voit ça comme une solution à la souveraineté numérique
20:29 pour permettre à un écosystème local de se construire
20:33 et permettre peut-être d'utiliser tous les fonds disponibles
20:39 de la culture française, qu'elles soient textuelles
20:42 ou audio, vidéo, visuelle, tout l'art de la culture française,
20:48 que les systèmes d'IA soient entraînés avec, en partie.
20:55 Au-delà de ça, et je vais terminer avec ça,
20:58 il y a une question qu'on peut se poser,
21:00 combien de temps ça va prendre avant que les systèmes d'IA
21:03 atteignent le niveau de l'intelligence humaine ?
21:05 La réponse, c'est on ne sait pas, mais c'est probablement
21:09 plus de 10 ans, probablement peut-être beaucoup plus que ça,
21:12 parce que ce problème, historiquement, s'est révélé
21:15 être beaucoup plus difficile que prévu.
21:17 À chaque fois, il y a eu des générations de chercheurs en IA
21:19 qui ont eu des espoirs déçus, en fait.
21:23 Et donc, ça va prendre du temps,
21:25 mais le progrès va être relativement continu.
21:28 Est-ce que les machines surpasseront l'intelligence humaine
21:32 à un moment dans le futur ?
21:34 Et la réponse est absolument oui, ça ne fait aucun doute.
21:38 Est-ce qu'il y a des risques associés à ça ?
21:41 Oui, mais pas plus qu'il y avait des risques, disons en 1925,
21:46 par exemple, de savoir est-ce qu'on pourrait traverser
21:50 l'Atlantique en toute sécurité, à la vitesse du son,
21:53 ce qu'on peut faire aujourd'hui ?
21:55 C'est un petit peu la même question de se poser
21:57 est-ce qu'on va avoir des systèmes d'IA qui sont sécurisés, utiles, etc.
22:01 C'est un problème de l'engineering, il n'y a pas de risque existentiel,
22:05 comme certains l'ont dit.
22:06 En tout cas, je n'y crois pas personnellement,
22:08 et très peu de gens y croient dans la communauté.
22:12 Et donc, il n'y aura pas de risque que l'IA domine l'humanité,
22:16 la volonté de dominer n'a rien à voir avec l'intelligence.
22:20 Je pense que si tout se passe bien, avec des plateformes open source, etc.,
22:26 l'effet de l'IA sur l'humanité pourra être d'une certaine manière similaire
22:30 à l'effet qu'a eu l'invention de l'imprimerie, par exemple,
22:35 sur l'humanité, c'est-à-dire disséminer le savoir
22:41 et rendre les gens plus intelligents.
22:44 Donc l'IA va rendre l'humanité plus intelligente globalement.
22:47 On va peut-être assister à une espèce de nouvelle renaissance,
22:51 c'est un peu optimiste, peut-être,
22:53 mais c'est un bon but à avoir avec la technologie.
22:59 Voilà, je vous remercie, et je suis prêt à répondre à vos questions.
23:03 Merci, merci beaucoup pour cette présentation très enthousiasmante.
23:15 Je suis très convaincue sur tout ce que vous avez dit.
23:19 On va ouvrir peut-être quelques questions, j'en aurai une quand même.
23:23 Évidemment, on est très convaincu par l'idée de l'ouverture
23:26 pour éviter le danger de capture de la culture,
23:31 mais en même temps, vous êtes là, vous vous adressez à un régulateur.
23:37 Tout ce qui est rémunération de la création et respect du droit d'auteur, etc.,
23:42 est-ce que ça va être compatible avec ce que vous décrivez,
23:45 c'est-à-dire l'IA générative qui va littéralement faire son miel
23:51 des créations déjà existantes ?
23:54 Et comment vous répondez à cette question ?
23:58 Alors, bien sûr, le droit du copyright à la propriété intellectuelle
24:04 n'est pas ma spécialité, mais ce que je peux vous dire,
24:07 c'est que pour l'instant, le paysage légal est très compliqué
24:14 et rend la vie extrêmement difficile à l'essor d'une industrie de l'IA,
24:19 à cause du fait que justement la zone grise de l'application du copyright
24:25 pour l'entraînement de modèles génératifs en particulier
24:28 n'est pour l'instant pas du tout déterminée.
24:32 C'est-à-dire que, est-ce que ça constitue une violation de copyright
24:37 d'utiliser un texte pour entraîner un modèle de langage ?
24:41 Est-ce que ça constitue une violation de copyright d'utiliser un tableau
24:46 ou une photo pour entraîner un système ?
24:50 Ce n'est pas clair du tout. En fait, dans le texte, non,
24:53 ce n'est pas une violation de copyright, parce que la violation de copyright
24:56 s'applique à une production artistique ou intellectuelle
25:01 qu'on compare avec une existante, et si la similarité est trop proche,
25:06 à ce moment-là, il y a violation, avec des critères qui sont différents
25:09 pour tous les domaines.
25:12 Donc simplement, le simple fait d'entraîner un système avec les données
25:15 ne constitue pas, probablement, une violation de copyright,
25:18 pas plus que l'indexation par un moteur de recherche d'un contenu ne le constitue.
25:25 Et si on déclare qu'effectivement c'est une violation de copyright,
25:30 à ce moment-là, je vous le dis tout de suite, l'industrie de l'IA s'arrête.
25:34 Ça ne peut pas marcher sans.
25:37 Donc, il va falloir trouver un moyen de ménager la chèvre et le chou,
25:43 peut-être avec des plateformes qui mettraient en rapport des gens
25:47 qui possèdent du contenu avec des gens qui entraînent des modèles,
25:50 avec un modèle de propagation de droits dans une direction
25:54 et de revenus dans l'autre.
25:57 Et pour l'instant, c'est une énorme limitation.
26:00 Donc, par exemple, la plupart des entreprises qui disséminent,
26:04 par exemple, des modèles de langage, ne dévoilent pas sur quelles données
26:10 ces modèles ont été entraînés.
26:13 Et la raison, c'est que pour l'instant, tout le monde poursuit en justice,
26:17 tout le monde, en tout cas aux États-Unis.
26:19 Pas au Japon, où la réglementation est telle que, en fait,
26:23 ça ne constitue pas une violation de copyright d'utiliser des données
26:27 pour entraîner un modèle.
26:29 Et puis, en Europe, ce n'est pas clair encore.
26:31 Ça dépend.
26:32 Donc, ça peut aller d'un côté ou de l'autre.
26:35 Et je pense qu'il va falloir trouver un bon compromis.
26:38 Merci beaucoup.
26:42 Je ne sais pas si vous avez un retour image,
26:44 mais je vais me présenter oralement au cas où.
26:46 Benoît Loutrel, membre du collège de l'ArcCom.
26:50 Alors moi, j'adhère à votre discours très optimiste en disant,
26:54 on va faire beaucoup de choses avec ces intelligences artificielles.
26:57 Ça va améliorer le bien-être de l'humanité, tout ce qu'on veut.
27:02 Mais dans votre propos, ce qui m'a marqué, c'est que vous ne parlez pas
27:06 à quelles conditions est-ce qu'on arrive à garder la confiance.
27:10 Parce que ces mécanismes, il y a finalement une telle asymétrie
27:15 d'information entre la masse de la population et le petit groupe de gens
27:19 là, ce que veulent dire vraiment les intelligences artificielles.
27:22 Il y a une telle asymétrie d'information entre les gens qui sont dans
27:26 les entreprises et ceux qui en sont dehors.
27:28 Je n'arrive pas à voir comment on arrive à maintenir la confiance
27:32 qui est nécessaire à la cohésion de nos sociétés.
27:34 Si on n'a pas une action extrêmement volontariste, justement,
27:38 pour créer cette transparence, pour que chaque fois qu'un représentant
27:44 de Meta et de Google, et je pourrais poursuivre la liste,
27:50 nous disent quelque chose, on puisse dire, on passe la parole
27:54 à des chercheurs, à de la société individuelle indépendante
27:58 qui puisse dire, nous, on n'a plus travaillé sur ces données,
28:01 on n'a plus attesté que ce qui nous est dit est vrai.
28:05 Et je crois que j'aurais à la fois à saluer l'engagement de Meta,
28:09 parce que je pense que si on a l'article 40 dans le règlement
28:12 sur les CSS numériques, c'est aussi parce qu'on a eu la tentative
28:15 de Meta de faire Social Science One, qui n'a pas donné les résultats
28:19 escomptés, mais qui a permis d'imaginer ce mécanisme,
28:22 l'article 40. Mais il est à la fois d'une complicité extrême,
28:26 et j'hésite entre ma formation d'économiste industriel,
28:30 qui me dit que les plateformes ont collaboré avant l'élaboration
28:34 du DSA pour éviter le DSA, mais qu'après que le DSA ait voté,
28:38 on aura le DSA, tout le DSA, rien que le DSA.
28:41 Et ça, c'est un futur qui est un peu trouble, où on va perdre
28:45 nos énergies à essayer de travailler avec vous.
28:47 Et puis, une vision plus politique, où au contraire,
28:50 il y aura du leadership dans les plateformes pour dire non,
28:53 on va faire le pas en avant pour faire fonctionner cet article 40.
28:57 Donc, je vous pose la question, est-ce qu'on a Meta avec nous
29:00 et est-ce qu'on a le chief AI de Meta avec nous pour lancer
29:05 cette aventure de l'accès aux données pour les chercheurs
29:09 dans le cadre du règlement sur les services numériques, le DSA ?
29:12 Alors, dans une dimension, oui.
29:15 Alors, bien sûr, je ne peux pas prendre position pour l'entreprise totale
29:18 parce que je ne suis pas maître de toutes les décisions.
29:21 C'est plutôt au niveau de la direction de l'entreprise elle-même,
29:25 Mark Zuckerberg en particulier, et puis le reste du leadership.
29:29 Mais une chose dont on peut être sûr, en tout cas pour l'instant,
29:34 c'est que la solution au problème dont vous parlez,
29:37 c'est-à-dire de la transparence, de la fiabilité, de la confiance, etc.,
29:41 la solution que je vois à ce problème, ce sont les plateformes open source.
29:45 C'est-à-dire que les modèles de base de l'IA,
29:49 qui sont pour l'instant des modèles de texte,
29:52 mais dans le futur des modèles un peu plus généraux que ça,
29:55 coûtent extrêmement cher à entraîner.
29:58 Il y a quelques entreprises pour l'instant qui sont capables de le faire.
30:01 Et la plupart d'entre elles, telles que Google, OpenAI, Microsoft,
30:06 Anthropique, etc., les gardent jalousement pour les offrir en échange de paiement.
30:12 Ce que fait Meta, c'est que Meta a suffisamment d'applications en fait en interne
30:16 de ces systèmes-là pour distribuer la plateforme en open source
30:20 pour qu'elle puisse être utilisable par quiconque,
30:23 en particulier pour construire des industries locales de l'IA par-dessus,
30:28 et pour surtout permettre les contributions non seulement techniques
30:32 et scientifiques à ces plateformes pour les améliorer,
30:35 mais aussi culturelles, linguistiques, et puis de permettre la transparence.
30:42 Donc je pense que la solution à ce problème de transparence, c'est l'open source.
30:47 Maintenant, il y a un léger problème, c'est que les législations
30:51 qui sont en train d'être discutées dans différents contextes pour l'instant,
30:55 en particulier le AI Act en Europe, si on ne fait pas attention,
31:00 vont rendre les plateformes open source pratiquement impossibles
31:04 et pratiquement illégales.
31:06 C'est-à-dire qu'il faut des garanties de sécurité d'un code open source,
31:11 donc qui n'est pas un produit, qui serait une plateforme utilisable
31:15 pour construire des produits, mais pas un produit soi-même,
31:19 à ce moment-là, personne ne va contribuer à l'open source.
31:23 S'il n'y a pas de plateforme open source, on n'aura pas la possibilité
31:26 de convaincre des volontaires d'apporter leur culture et leur savoir
31:31 comment on peut entraîner le système tel qu'on fait avec Wikipédia,
31:34 parce que les gens ne voudront pas contribuer à une plateforme
31:36 pour laquelle il n'y a pas de transparence.
31:38 Donc l'open source est vraiment la solution.
31:41 Et pour l'instant, ce qui est un petit peu dangereux,
31:44 c'est que des gens essaient d'interdire la possibilité de plateformes d'IA open source
31:54 en faisant peur au gouvernement avec des risques qui n'existent pas,
31:58 des risques existentiels, par exemple, qui n'existent pas,
32:02 qui simplement n'existent pas.
32:04 Donc ils sont un peu du fantasme.
32:07 Et ça pourrait conduire à une très mauvaise situation de capture régulatoire,
32:15 comme on dit en mauvais français, dans laquelle juste quelques entreprises
32:19 américaines et chinoises contrôlent le système.
32:22 Oui, merci beaucoup. Bonjour, je suis Anne Perreault.
32:26 On avait déjà discuté de ces questions il y a quelque temps.
32:29 Je voudrais bien comprendre ce que vous englobez dans l'open source,
32:35 ce que vous préconisez.
32:37 Est-ce qu'il s'agit d'open source sur les logiciels d'entraînement
32:41 des intelligences artificielles, ou est-ce que ça inclut aussi
32:44 les données sur lesquelles ces intelligences s'entraînent,
32:48 ce que je crois ne pas pouvoir être possible en réalité,
32:51 parce que se pose alors la même question que celle qui se pose
32:55 depuis très longtemps, à savoir, on voudrait bien avoir accès
32:58 aux données de Google, aux données de Facebook, etc.
33:01 Or, c'est un peu l'or sur lequel repose le business model
33:06 de ces plateformes. Donc on ne voit pas bien comment ces données
33:10 pourraient être rendues communes ou open source.
33:13 Donc préconiser l'open source sur le logiciel,
33:17 est-ce que ce n'est pas rater une grande partie de la question
33:20 qui est que les logiciels doivent s'entraîner sur des données
33:24 et ces données ne peuvent pas, par définition, être ouvertes ?
33:29 Je voudrais que vous précisiez ce point.
33:33 Peut-être que c'est moi qui ai mal compris.
33:36 Oui. Il y a quelque chose de très important
33:42 qu'il faut absolument comprendre.
33:45 C'est que les systèmes d'IA tels que les LLM,
33:49 c'est-à-dire les chat GPT, Lama, Amnistral,
33:53 qui existent pour l'instant, sont entraînés strictement
33:58 sur des données publiques. D'accord ?
34:00 Donc sur des données qui sont disponibles à tout un chacun
34:02 sur l'Internet. Il suffit de faire un crawler sur l'Internet,
34:06 de récupérer tous les textes qu'on peut,
34:08 ensuite de le filtrer parce qu'il y a plein d'informations,
34:10 enfin plein de textes qui est inutile, qui n'a pas de sens,
34:14 qui est faux, qui est toxique, etc.
34:17 Donc faire une étape de filtrage de l'information
34:21 et ensuite entraîner ces LLM sur ces totalités du texte.
34:26 Ce n'est uniquement que des données publiques,
34:28 il n'y a pas de données privées.
34:30 Certainement les systèmes de méta ne sont absolument pas entraînés
34:33 sur des données privées, ce serait beaucoup trop dangereux
34:36 et puis de toute façon illégal parce qu'on n'a pas le droit
34:38 de révéler ces données privées, elles ne sont jamais distribuées,
34:40 jamais vendues, elles sont vraiment privées.
34:45 Donc il est hors de question d'entraîner ces systèmes
34:48 sur les données privées d'utilisateurs.
34:51 On ne parle pas de ça, c'est deux choses complètement différentes.
34:54 Maintenant il y a d'autres systèmes qui utilisent le machine learning
34:59 mais pas vraiment l'IA sophistiquée dont on parle,
35:02 à l'intérieur de Méta, à l'intérieur de YouTube,
35:05 à l'intérieur de Facebook, Instagram et autres,
35:08 qui utilisent des données d'utilisation des utilisateurs
35:15 pour déterminer quel type d'informations leur montrer
35:18 dans leurs newsfeeds, quel type de publicité leur montrer.
35:22 Et ces modèles aussi ne sont jamais partagés.
35:32 Donc c'est deux choses complètement différentes,
35:34 il ne faut pas faire la confusion entre les deux.
35:36 Les systèmes d'IA puissants dont on parle,
35:38 les LLM, les systèmes de génération d'images,
35:40 n'utilisent que les données publiques
35:42 ou des données qui ont été achetées à leur propriétaire
35:45 ou dont on a acheté la licence.
35:47 Mais ce ne sont que les données publiques, jamais les données privées.
35:53 Donc ça c'est la première chose.
35:55 Et puis ensuite j'ai oublié l'autre partie de votre question.
35:59 Non c'est bon, c'est bon.
36:01 Mais il y a une dernière question, si vous avez encore un instant,
36:03 je vais vous passer le micro.
36:06 Merci, je ne sais pas si vous m'entendez.
36:10 La question est dans le même morde.
36:12 Christophe Benavant, professeur à l'université Paris-Dauphine.
36:15 Ma question c'est, oui la proposition open pour les LLM
36:22 est absolument intéressante,
36:24 mais qu'est-ce que vous envisagez comme système de gouvernance ?
36:28 Vous avez évoqué Wikipédia, c'est un certain modèle de gouvernance.
36:32 Est-ce que vous pensez à un modèle alternatif ?
36:35 Et notamment, comment réguler ou maîtriser les enfants de ces LLM ?
36:41 Puisqu'on comprend bien qu'avec l'initiative de l'AMA,
36:44 aujourd'hui on a des centaines de gens qui développent des intelligences
36:48 plus particulières, et notamment sur des données privées.
36:51 Oui, alors ce modèle est à inventer.
36:56 C'est-à-dire qu'il y a effectivement peut-être un modèle à la Wikipédia
37:03 avec des éditeurs au sens anglais du terme
37:06 qui sont désignés et qui sont un petit peu organisés de manière hiérarchique,
37:11 qui examinent les uns les autres, etc.,
37:18 et qui contrôlent un petit peu le contenu.
37:20 Donc ça c'est un modèle, mais c'est un modèle qui est un petit peu
37:22 trop centralisé peut-être, pour des systèmes d'IA.
37:25 J'imaginais un système de ce type-là qui est plus décentralisé.
37:28 J'avais en fait fait une proposition dans ce sens,
37:33 il y a une quinzaine d'années, qui n'était pas pour les systèmes
37:36 d'agence artificielle, mais qui était pour les systèmes
37:39 de peer review pour les articles scientifiques,
37:43 dans lesquels on pourrait avoir des communautés diverses
37:46 qui puissent se créer pour évaluer des articles scientifiques
37:53 et faire leurs sauts d'approbation sur ces contenus.
37:59 On pourrait imaginer un système un peu similaire pour les systèmes d'IA,
38:02 dans lequel en fait des communautés pourraient s'organiser
38:06 pour entraîner un système d'IA sur un sujet particulier.
38:11 Je ne sais pas, un groupe de hobbyistes qui s'intéressent
38:16 à l'astrophotographie pourrait entraîner les LLM à être un assistant
38:20 pour l'astrophotographie par exemple.
38:22 Et puis à la fin, si les utilisateurs ont confiance dans ce groupe,
38:28 ils utiliseraient le LLM ajusté pour ça,
38:32 et puis on pourrait imaginer ce genre de système
38:34 pour un peu tous les domaines d'expertise, etc.
38:37 Donc il n'y aurait pas de contrôle centralisé,
38:39 ce serait un petit peu à la manière de l'Internet
38:42 ou de communautés sur Internet ouvert.
38:46 C'est un autre modèle, il y a tout un tas de détails
38:49 à régler et pour l'instant, il n'y a pas grand monde
38:53 qui travaille là-dessus en fait, parce que c'est une idée
38:55 qui est relativement nouvelle.
38:58 Sinon pour revenir à la question précédente,
39:00 je me rappelle maintenant la deuxième partie,
39:02 c'est qu'est-ce que ça veut dire open source pour un modèle d'IA ?
39:06 Il y a plusieurs choses.
39:08 Il y a tout d'abord le code, le petit programme qui est très court,
39:13 qui peut faire tourner le modèle.
39:15 Et ça c'est très utile si c'est open source,
39:17 parce que ça veut dire qu'on peut faire tourner un modèle,
39:21 le faire tourner sur un ordinateur portable, etc.
39:24 chez soi, garder le caractère privé des données
39:27 qu'on va lui donner, etc.
39:29 Donc ça c'est la première chose.
39:31 Donc des modèles comme Lama et Distral et d'autres
39:35 sont open source de ce côté-là.
39:37 Ensuite il y a l'accès au modèle pré-entraîné.
39:41 Donc ça c'est un énorme fichier de plusieurs gigaoptèques
39:44 qui contient la liste de tous les poids,
39:47 tous les paramètres du modèle après entraînement.
39:49 Et ça c'est pas du code source,
39:51 donc c'est pas open source techniquement,
39:53 mais ça peut être disponible gratuitement
39:56 pour n'importe quelle utilisation.
39:58 Alors le modèle pré-entraîné Distral est disponible
40:01 pour n'importe quelle utilisation.
40:03 Celui de Lama, donc de Meta, est disponible
40:05 mais avec des restrictions, c'est-à-dire
40:07 si vous êtes une grosse entreprise avec 700 millions de clients,
40:09 vous êtes obligés de parler à Meta avant de l'utiliser.
40:11 Et puis il y a des restrictions qui sont dues aux droits américains,
40:14 vous pouvez pas l'utiliser pour faire de la propagande terroriste,
40:18 etc. parce qu'il y a des problèmes de responsabilité civile et autres.
40:25 Et puis ensuite il y a le code pour entraîner le modèle,
40:30 pour le raffiner.
40:32 Et pour la plupart des modèles, il est très simple de les raffiner.
40:37 Si on a des nouvelles données, pour le raffiner
40:39 avec ces nouvelles données à partir du modèle de base
40:42 qui est déjà pré-entraîné, c'est relativement simple à faire.
40:45 Donc la plupart des modèles open source permettent ça.
40:47 Et puis ensuite il y a le modèle qui a permis d'entraîner
40:50 le modèle de base lui-même.
40:52 Et ça, souvent ce n'est pas open source.
40:55 Pour des raisons diverses, généralement de compositivité,
41:01 mais ça pourrait très bien être open source.
41:04 Je pense que certains modèles de méta ont été livrés
41:10 avec le code d'entraînement open source aussi.
41:12 Ce n'est pas le cas de Lama, mais ce serait possible.
41:15 Ce n'est pas le cas de Mistral non plus.
41:17 Et puis ensuite il y a les données sur lesquelles le système a été entraîné.
41:20 Et là, c'est impossible. On ne peut pas les distribuer.
41:23 Et ce n'est pas parce que ces données sont privées.
41:25 C'est encore une fois à cause du fait que la législation sur le copyright
41:28 est tellement floue que si on distribue ces données
41:34 simplement sous la forme de liens internet qui disent
41:36 voilà l'URL qu'on a utilisé pour ce morceau de données qu'on utilise,
41:41 plein de gens vont poursuivre en justice,
41:44 toutes les entreprises qui font ça, en disant
41:46 mais vous pointez sur notre site web, c'est du contenu copyrighté,
41:49 on vous poursuit en justice pour 3 000 €.
41:52 Et donc c'est trop dangereux.
41:54 Donc personne ne le fait.
41:55 Et c'est pour des raisons uniquement légales.
41:57 Il n'y aurait aucun problème.
41:59 En fait, ce serait très utile que les entreprises puissent donner
42:05 la liste simplement des données sur lesquelles ils ont entraîné.
42:08 Et elles seraient prêtes à le faire, mais elles ne peuvent pas le faire
42:10 pour des raisons d'incertitude légale.
42:14 Donc il y a certains groupes non-profit, donc lucratifs,
42:19 qui font ça.
42:20 Il y a une organisation qui s'appelle Lion, L-I-O-N,
42:24 qui produit une base de données qui est censée être utilisable
42:29 pour l'entraînement de modèles.
42:32 Et eux, c'est un bouton lucratif, personne ne va y poursuivre en justice
42:35 pour ça, donc ils donnent la liste et d'autres l'utilisent.
42:40 Merci mille fois.
42:45 On est obligés de mettre un terme à cette conversation
42:48 qu'on aimerait bien prolonger.
42:49 Donc merci de nous avoir consacré ce temps.
42:55 Et puis j'espère qu'on aura d'autres occasions de discuter
42:59 de toutes ces questions, et notamment effectivement
43:01 de la régulation qu'il faut mettre en place sans empêcher
43:05 l'innovation en matière d'intelligence artificielle.
43:08 Merci encore.
43:09 Merci.
43:10 [Applaudissements]

Recommandations