Derrière l’IA générative la plus célèbre au monde, se cache la start-up américaine OpenAI. Une société dans laquelle Microsoft continue d’investir des milliards de dollars. Si les prouesses de son logiciel ChatGPT n’ont pas fini de faire parler, que sait-on exactement de son histoire ? Les IA génératives fonctionnent-elles toutes de la même façon ? L’Europe a-t-elle une chance dans ce marché ? Nos experts tentent de répondre à toutes vos questions sur le sujet.
Category
🗞
NewsTranscription
00:00 Alors que sait-on d'OpenAI et de ChatGPT ? Quelles sont vos questions à ce sujet sur ces IA génératives qui arrivent très nombreuses ?
00:12 Il n'y a évidemment pas que ChatGPT, on va s'intéresser à tout ce sujet ensemble avec mes experts aujourd'hui, Véronique Ventos. Bonjour Véronique.
00:18 Bonjour Madame Delphine, madame Tarik, je suis ravie d'être ici, comme d'habitude sur ce plateau.
00:24 Génial, cofondatrice de Noucaille qui est une startup de l'IA basée en France et qui travaille sur une IA explicable et aussi économique en énergie.
00:34 Et puis avec vous Tarik Krim, Tarik Krim qui est un fidèle de Smartech également. Bonjour Tarik, fondateur de Cybernetica.
00:40 C'est un projet global sur lequel tu travailles, à la fois un blog, une maison d'édition, un think tank pour réfléchir à l'évolution du numérique.
00:48 Avec les questions géopolitiques puisque désormais tout est conditionné, toute la complexité du monde est conditionnée par la géopolitique et il n'y a pas que la technologie, c'est la combinaison des deux.
00:58 Alors on va commencer, tiens je vais commencer par une première question déjà. Est-ce que vous, vous utilisez des IA génératives pour vous aider comme des assistantes ? Allez Tarik.
01:07 Pas beaucoup, je vais être très honnête. Je m'amuse un peu avec Midjourney qui est la version graphique qui est assez fascinant, il faut dire, qui marche très bien.
01:17 J'utilisais un peu JGPT il y a quelques années, quelques mois et maintenant beaucoup moins.
01:25 Je me rends compte en fait que j'aime écrire, j'aime bien l'idée d'écrire.
01:31 Quand je l'utilise c'est essentiellement pour des fonctions de manipulation de texte, c'est-à-dire par exemple résumer un texte.
01:37 Pour le traduire j'utilise autre chose, j'utilise Deeple qui est à mon avis bien plus efficace.
01:42 Et voilà, donc je ne suis pas un très grand utilisateur.
01:45 Ok, de temps en temps. Et Véronique ?
01:47 Alors moi, nous ne les utilisons pas pour nous aider à générer du code, du texte, etc.
01:54 Par contre on les utilise au quotidien parce que, je l'avais dit à la fin d'une interview, je l'avais dit, ce n'est pas tout de critiquer ou de dire on peut faire ça, on va le faire.
02:03 Et là, on a eu la bonne surprise de commencer à travailler sur intégrer un module d'IA générative dans nos IA à nouvelle génération.
02:13 Et je ne pourrais pas trop développer mais entre les mois qui ont suivi, très peu de mois, on a avancé et on a surtout signé un contrat.
02:21 Alors sur un domaine, c'est les renseignements, donc je ne peux pas trop en parler mais ça va nous permettre d'avancer vite.
02:27 Donc évidemment, on les utilise et puis on fait ce qu'on a promis de faire, on les couple de manière à pouvoir les dompter, aider l'homme, garder l'homme dans la boucle, fournir des explications.
02:38 Et ça c'est possible que sur un petit domaine. On ne fera pas un chat GPT avec de la sémantique sur les infos du monde entier.
02:47 Très spécialisé.
02:48 Voilà, c'est ça.
02:49 Alors on va commencer par un peu de pédagogie autour d'OpenAI.
02:52 Qu'est-ce qu'on sait de l'entité OpenAI, de la fondation, la société ? Qui veut répondre là-dessus ?
02:57 Tariq ?
02:58 Beaucoup de marketing, je pense. Ça a démarré il y a quelques années.
03:01 À l'époque, il y avait Reid Hoffman, Elon Musk, pas mal de gens autour d'une fondation.
03:06 Et puis à un moment donné, il s'est passé une chose incroyable.
03:10 C'est que Google a sorti un papier sur les transformers, le fameux T de chat GPT.
03:16 Et au départ, OpenAI travaillait sur des outils pour apprendre à des ordinateurs à jouer à Space Invaders.
03:22 Et puis du jour au lendemain, on est passé à GPT.
03:25 Et puis plus tard, la version commerciale, qui était un produit quand même très abouti, qui était chat GPT,
03:31 qui a eu un succès immédiat et qui a en fait, d'une certaine manière, reconfiguré entièrement à la fois OpenAI,
03:38 qui est devenue une for profit.
03:40 Donc même si elle dit qu'elle est capée, mais ça reste une boîte maintenant.
03:42 Elle peut faire des profits, mais c'est plafonné.
03:44 Oui, on verra. En tout cas, c'est ce qui est annoncé.
03:47 Donc en tout cas, c'est une société aujourd'hui, donc américaine, installée à San Francisco, avec 400 salariés.
03:55 Donc ça a grossi extrêmement vite.
03:57 Et beaucoup d'argent, énormément d'argent de Microsoft, qui a fait d'une pierre deux coups.
04:01 La première, c'est que du jour au lendemain, ils sont passés de plutôt ringard à super cool.
04:07 Et surtout, ont complètement déstabilisé le géant Google, qui désormais se retrouve,
04:14 alors qu'ils ont développé la technologie au départ, à suivre, je dirais, sur les traces de Microsoft.
04:22 Donc c'est un coup marketing extraordinaire.
04:25 Alors, tu as commencé à révéler ce que voulait dire le T dans le chat GPT.
04:29 Qu'est-ce que c'est, GPT ?
04:31 Alors, GPT, c'est très précis. C'est donc des méthodes qui permettent de prédire le prochain mot dans le cadre d'une phrase.
04:40 Voilà. Donc c'est vraiment basé sur de l'entraînement, sur des stats.
04:45 Donc en fait, il va y avoir des probabilités que le prochain mot, je dis une phrase, et que le prochain mot soit ça.
04:51 Donc ça, c'est la partie GPT, où il y a eu beaucoup de travaux, beaucoup d'avancées.
04:55 Et ensuite...
04:57 Alors juste pour les lettres, parce qu'on parle d'IA générative, parce que le G, c'est pour générative.
05:02 Le P pour Pre-trained.
05:04 Et donc le T pour Transformer.
05:07 Dans Pre-trained, ça veut dire que ce sont des IA qui sont pré-entraînées.
05:11 Tout à fait.
05:12 Avec quel jeu de données ?
05:14 Alors, ça, c'est la vraie question.
05:16 En fait, on a découvert, on fait mine de découvrir, évidemment, on a indexé le web.
05:22 Il y a un très bon article du Washington Post, il y a quelques mois, qui expliquait un peu les différentes sources.
05:28 Mais il y a une source dont personne ne veut parler, c'est qu'effectivement, on a récupéré probablement,
05:34 je parle au conditionnel, même si le conditionnel ne l'est pas forcément,
05:37 l'ensemble de la littérature sous forme piratée.
05:40 Donc l'ensemble des livres téléchargeables, en PDF, des documents.
05:45 Et c'est ce qui a construit, effectivement...
05:48 Ce qui aurait nécessité des demandes d'autorisation ?
05:51 Absolument, peut-être des droits d'auteur également.
05:53 Il y a plein de questions.
05:55 Ce n'est pas le cas pour Google, qui, il faut le rappeler, avait numérisé des millions de livres.
05:59 A l'époque, on pensait qu'ils allaient mettre ces livres gratuitement sur l'Internet.
06:03 Ça n'a pas été le cas.
06:04 Ce qu'ils ont fait, en fait, c'est qu'ils ont utilisé ça pour créer Google Translate.
06:08 Et pour affiner Google Translate.
06:10 Mais c'est vrai qu'aujourd'hui, la question qui se pose, c'est que si on n'a plus accès,
06:13 parce que désormais, le New York Times, le Washington Post,
06:15 je crois qu'une grande partie des sites français sont également en train de fermer l'accès
06:20 aux robots d'OpenAI et des autres.
06:23 Si on ne travaille pas avec des données réelles, on va être obligé de travailler avec des données synthétiques.
06:27 Et donc, on rentre dans quelqu'un qui parlait de "data cannibalism",
06:31 c'est-à-dire qu'on est en train de générer des contenus qui vont ensuite servir à générer des contenus,
06:37 qui vont ensuite servir à générer des contenus.
06:39 Et à la fin, on aura une sorte de soupe infâme qui n'a plus véritablement de saveur.
06:43 Et c'est un des enjeux aujourd'hui, c'est comment avoir accès à l'ensemble des données qualitatives.
06:48 - Et on n'est pas du tout dans le cadre d'une intelligence artificielle qui répond à des questions,
06:52 qui va chercher des réponses sur le web, dans le nom toujours "Générative Transformer".
06:58 Comment ça fonctionne alors ?
07:00 - Alors, juste pour compléter, tout est exact.
07:04 Ce qui s'est passé effectivement, c'est qu'ils annoncent qu'ils ont préentraîné jusqu'à une certaine date.
07:10 Donc ça, c'est tout le "problème".
07:13 Mais en fait, ce que j'ai appris plus tard, et c'est là où ils vont encore avoir une longueur d'avance,
07:20 c'est que les données les plus intéressantes qu'ils ont pu récupérer,
07:23 c'est depuis qu'ils ont donné accès gratuitement aux utilisateurs.
07:27 Parce que les utilisateurs ont fait des requêtes, ils ont fait des remarques,
07:30 et ça, moi je ne le savais pas, ils les ont récupérées.
07:33 Et avec ça, en fait, ils récupèrent quelque part, mais sans qu'on ait donné l'autre...
07:38 Certainement, on a cliqué tous sur "j'accepte", mais on n'a pas compris que...
07:43 - Alors, on savait qu'on entraînait l'outil à être plus pertinent,
07:46 en affinant, en lui posant davantage de questions précises pour obtenir la réponse qu'on souhaitait.
07:50 - Je ne suis pas sûre.
07:52 Et alors, ce que j'ai appris, c'est que récemment, ils avaient créé "ChatGPT Enterprise"
07:57 en disant "cette fois-ci, on est complètement sûr des conversations cryptées,
08:04 on promet de ne pas utiliser de données commerciales, etc."
08:07 - La question, c'est avec qui c'est partagé ? C'est-à-dire qu'on sait qu'on l'entraîne pour nous,
08:10 mais avec qui est partagé l'ensemble des données qu'on fournit,
08:14 tout ce qu'on rédige finalement dans "ChatGPT" ?
08:16 - Tout à fait. Alors, il y a eu des fuites, il y a eu des fuites,
08:19 il y a eu des gros problèmes avec des gens qui ont testé des choses
08:23 qui étaient un petit peu trop stratégiques pour des gros sociétés.
08:27 - Et pour nous expliquer juste le fonctionnement, par quel subterfuge, finalement,
08:33 parce que ça semble un petit peu magique, on pose une question, il apporte une réponse,
08:36 alors que ce n'est pas sa façon de fonctionner, il ne va pas chercher une réponse.
08:40 - Alors, la première chose, c'est qu'il ne sait même pas qu'on lui pose une question.
08:44 Donc, il peut répondre à une question par une question.
08:47 Alors, il n'y a pas que le pré-entraînement, c'est-à-dire que le pré-entraînement,
08:52 effectivement, c'est pour coupler "je prédis un mot de manière statistique"
08:56 avec du traitement de la langue nat, donc tu sais exactement...
09:01 - Du langage naturel, oui.
09:02 - Du traitement du langage naturel, désolée.
09:04 Et à partir de là, effectivement, on va construire des phrases,
09:07 mais il y a énormément de travail en amont avec des histoires de ponte, et également après.
09:12 Et ça, c'est très intéressant, c'est-à-dire que derrière, il y a différentes méthodes
09:17 pour éviter, peut-être pas les chimères, parce que ça, je crois qu'il y a un papier qui est sorti
09:22 pour dire qu'ils n'arriveront jamais à les supprimer, mais au minimum les trucs toxiques.
09:26 Donc, il y a des méthodes automatiques, c'est ce qu'on appelle l'apprentissage par renforcement,
09:30 c'est facile, c'est Pavlov, c'est bien, pas bien.
09:34 Et finalement, ils se sont aperçus que le meilleur apprentissage était à réaliser par des humains.
09:40 Donc, il y a des Kenyans qui, malheureusement, ont été payés 2 euros de l'heure,
09:45 et qui ont tagué toxiques, pas toxiques, etc.
09:50 Donc, les sorties qu'on voit, en fait, elles ont beaucoup évolué ou elles vont changer
09:54 par rapport à des humains qui ont décidé que c'était pas bien.
09:59 Et c'est là où Elon Musk était furieux en disant "oui, c'est orienté, c'est du politiquement correct, etc.
10:06 Nous, on veut pas faire ça". Donc, en fait, si on fait taguer, si on fait faire du RL pour dire bien, pas bien
10:11 par des gens qui ont une autre vision du monde, du futur du monde, ça va donner d'autres sorties.
10:16 Alors, Chajipiti n'a absolument pas conscience de ça, bien entendu,
10:19 puisqu'elle génère des suites de mots stochastiques qui sont probablement les mieux.
10:25 Et le problème...
10:27 - Mais après, ça recoupe des discussions qu'on a eues ensemble, Tariq Krim sur la culture, finalement,
10:33 qui est véhiculée à travers ces outils dont on n'a pas forcément conscience.
10:37 Je voulais qu'on réponde aussi à la question de BG, qui nous a posé sur Internet
10:42 "Chajipiti, l'IA générative la plus avancée ?"
10:46 Est-ce qu'il vous semble qu'aujourd'hui, c'est ce qu'on fait de mieux en matière d'IA générative ?
10:50 - Probablement. Je voulais juste rajouter un point sur la question de l'IA générative.
10:54 En fait, on ne sait toujours pas pourquoi ça marche aussi bien.
10:58 On comprend pourquoi ça marche.
11:00 - C'est un problème.
11:01 - On a défini les choses, on a simplement abandonné et bourriné, c'est le terme français correct.
11:07 On est allé récupérer des tonnes de données, mis énormément de puissance de calcul,
11:11 et puis on a eu des outils qui marchent, qui marchent plutôt bien, mais on ne sait pas exactement pourquoi.
11:18 Donc il faut quand même rappeler ça.
11:21 La raison pour laquelle OpenAI, à mon avis, est la meilleure des plateformes aujourd'hui,
11:26 parce qu'il en existe plusieurs, Google a la sienne,
11:29 qui était au départ pas terrible et qui commence à devenir plutôt bonne,
11:33 il y a les modèles open source, qu'on peut récupérer, qu'on peut installer sur des services comme Hugging Face,
11:38 ou installer chez soi, même si pour l'instant les systèmes ne sont pas vraiment plug and play.
11:43 Mais il faut bien comprendre, et c'est ce qui a été expliqué tout à l'heure,
11:46 c'est qu'on peut voir aussi une AI générative, comme OpenAI, en tout cas sur le texte,
11:53 comme un service qui peut être soit un peu maniaco-dépressif, on va dire,
11:58 qui est d'un côté un peu mélo, qui n'est pas très efficace.
12:02 Donc s'il est peu efficace et peu impressionnant, les gens disent "bon, ça ne marche pas ce truc",
12:08 et puis s'il est trop intense, là évidemment il fait la une du New York Times.
12:13 - Et ça inquiète tout le monde.
12:15 - Voilà, et tout le travail c'est de mettre Chad J. Peete dans une zone de confort
12:22 où il délivre quelque chose d'assez simple, assez attendu, mais solide,
12:29 parce que c'est un peu l'idée de la technologie, c'est de revendre une expérience intéressante,
12:37 mais réplicable à l'infini.
12:39 Et le problème de l'AI, c'est que cette réplicabilité n'est pas toujours garantie.
12:44 Il y a toujours un moment où on parlait des chimères ou d'hallucinations,
12:47 où le produit part en live et raconte n'importe quoi,
12:50 et donc ça limite évidemment son usage dans des domaines non contraints,
12:55 c'est-à-dire le médical, la défense, plein de domaines où on ne peut pas se permettre ce genre de choses
13:01 sont évidemment pour l'instant a priori à l'écart de technologies comme celle-ci.
13:06 - Allez, question d'Arnaud qui nous demande "mais combien investit Microsoft ?"
13:10 - Alors ça, je vais regarder, mais ça va pas être... d'abord c'est très flou, ça va pas être les bons chiffres.
13:17 C'est de l'ordre de 10 millions de dollars.
13:20 - Milliards ! - Milliards, pardon.
13:22 - 10 milliards ? - 10 milliards de dollars, bien sûr.
13:24 Mais le truc, c'est que derrière, c'est beaucoup plus, parce que...
13:30 Alors pareil, il n'y a pas de preuve, mais ça tourne un petit peu.
13:33 Ils font des offres, justement, c'est-à-dire ils font des offres sur les services qu'ils peuvent apporter pour continuer à entraîner.
13:41 Et ça, c'est très cher.
13:43 - Oui. - C'est...
13:45 - Ça a une valeur. - Ça a une valeur, parce que si on n'a pas ces tarifs,
13:49 on doit payer plein pot, et c'est toujours le problème.
13:53 C'est vraiment des IA extrêmement consommatrices en énergie, etc.
13:58 À l'utilisation, pour le pré-traitement, voilà.
14:01 Et c'est dommage qu'il n'y ait pas plus de questions là-dessus, parce que c'est un vrai sujet.
14:05 - On n'a pas de transparence, finalement, sur les investisseurs.
14:08 - J'avais posé la question à Sam Altman, quand il était venu à Paris.
14:11 - Oui, donc le PDG d'OpenAI.
14:13 - Combien ça coûte ? En fait, personne ne sait combien ça coûte, vraiment.
14:17 Le problème qu'on a avec ces technologies, c'est qu'en fait, autant que Google, on savait que ça ne coûterait quasiment rien.
14:23 Et on avait un système, en plus, qui s'auto-apprenait.
14:26 C'était un peu la même chose que ce qu'on disait tout à l'heure, c'est que quand on cliquait sur un lien,
14:30 plutôt qu'un autre, en fait, il était ré-indexé au-dessus des autres.
14:33 Il y avait un système incroyable, qui coûtait très peu cher.
14:35 C'est une cache-machine basée sur des algorithmes assez bien pensés, et finalement, assez peu coûteux.
14:41 L'ALIA, c'est l'inverse. Ce ne sont pas des algorithmes, ce sont des données qu'il faut en permanence mettre à jour.
14:47 Ça coûte une fortune à organiser, on ne sait pas exactement combien.
14:52 Alors, on peut imaginer que le coût qui a été investi, au départ, on parlait de 2 milliards,
14:56 puis ensuite un investissement de 10 milliards de Microsoft.
15:00 En fait, c'est un avant. D'un point de vue marketing, c'est déjà, j'allais dire, amorti.
15:06 Mais c'est vrai que cette question se pose, parce que désormais, beaucoup de gens veulent faire tourner ces applications ailleurs
15:14 que chez OpenAI et chez Microsoft.
15:16 Et là, se pose la question de savoir qui a accès au plus.
15:19 Il y a une crise des puces, aujourd'hui, impossible de trouver les fameux A100 ou H100.
15:24 La plupart des startups qui se sont lancées aujourd'hui vous disent, en off, je cherche de l'espace de compute,
15:31 parce qu'aujourd'hui, je ne sais pas où en faire. La France est devenue la plaque tournante.
15:34 Parce qu'apparemment, certains acteurs ont acheté beaucoup de puces l'année dernière, et donc, ont eu le nez creux.
15:40 Mais c'est vrai que la question du coût, et notamment la question du coût pour l'entreprise,
15:46 et après, se pose aussi la question du bénéfice pour l'entreprise, se pose.
15:50 Et pour l'instant, ça reste des données un peu floues. Je crois que flou est le bon terme.
15:56 Bon, il y a quand même beaucoup de flou, mais on essaie de répondre aux questions.
15:58 On répondra à Steph. Qu'a de plus la version payante ?
16:02 Je dirais que la caractéristique la plus intéressante, c'est le nombre de mots générés.
16:08 C'est passé de 2000 à 25 000.
16:10 Donc, ça veut dire qu'on peut commencer à envisager, à voir, par exemple, des scénarii, etc.
16:15 Attention, je l'ai déjà dit, mais ça ne remplace pas ceux qui écrivent des scénarii.
16:22 C'est juste une aide. Il ne faut pas oublier, c'est un outil.
16:25 Maintenant, que cet outil fournisse une possibilité d'avoir 25 000 mots sur lesquels on retravaille,
16:32 voire on relance avec d'autres promptes, ça, c'est autre chose.
16:35 Et puis, c'est plus rapide. Il y a des plugins, etc.
16:39 C'est mieux intégré, en fait, dans nos outils de travail quotidien.
16:44 Oui, ça a gagné en puissance.
16:46 Mais on a oublié de dire quelque chose, parce que le thème, il me semble que c'était les IA génératives.
16:50 Et moi, je serais plus modérée sur le fait que OpenAI soit les plus avancées.
16:55 Parce que peut-être sur la partie texte, parce que c'est ça qu'ils ont vraiment annoncé,
16:59 mais les IA génératives, c'est aussi des IA qui peuvent générer du code, générer des images, etc.
17:04 Alors là, les gens confondent parce qu'ils disent "Non, mais maintenant, ChatGPT génère des images".
17:09 Non, ça prend en entrée des images.
17:11 C'est-à-dire qu'on peut donner un tableau, on peut donner une courbe,
17:14 au lieu de poser une requête, une question en texte, et il va répondre par un texte.
17:19 Donc, bien sûr, ils ont leur partie générative d'images.
17:22 Après, il y a des IA génératives dédiées.
17:24 D'Ali, mais là, je ne pense pas qu'ils soient les meilleurs.
17:27 Et en fait, l'idée, ce serait d'avoir quelque chose qui va tout croiser.
17:31 Et je pense que même des entreprises avec beaucoup moins de moyens
17:36 vont produire des résultats meilleurs toujours sur des plus petits domaines en attaquant autre chose.
17:41 Et de toute façon, ça, ce sera sûrement une question d'après.
17:45 Et c'est peut-être là que nous, on a une place à prendre aujourd'hui en France et en Europe.
17:49 Merci beaucoup. On arrive déjà à la fin de notre séquence.
17:52 Allez, c'est l'heure de notre rendez-vous avec les cryptos.