SMART TECH - ChatGPT, OpenAI… qu’en sait-on réellement ?

B SMART

il y a 2 ans

Derrière l’IA générative la plus célèbre au monde, se cache la start-up américaine OpenAI. Une société dans laquelle Microsoft continue d’investir des milliards de dollars. Si les prouesses de son logiciel ChatGPT n’ont pas fini de faire parler, que sait-on exactement de son histoire ? Les IA génératives fonctionnent-elles toutes de la même façon ? L’Europe a-t-elle une chance dans ce marché ? Nos experts tentent de répondre à toutes vos questions sur le sujet.

Catégorie

🗞

News

Transcription

Afficher la transcription complète de la vidéo

00:00 Alors que sait-on d'OpenAI et de ChatGPT ? Quelles sont vos questions à ce sujet sur ces IA génératives qui arrivent très nombreuses ?

00:12 Il n'y a évidemment pas que ChatGPT, on va s'intéresser à tout ce sujet ensemble avec mes experts aujourd'hui, Véronique Ventos. Bonjour Véronique.

00:18 Bonjour Madame Delphine, madame Tarik, je suis ravie d'être ici, comme d'habitude sur ce plateau.

00:24 Génial, cofondatrice de Noucaille qui est une startup de l'IA basée en France et qui travaille sur une IA explicable et aussi économique en énergie.

00:34 Et puis avec vous Tarik Krim, Tarik Krim qui est un fidèle de Smartech également. Bonjour Tarik, fondateur de Cybernetica.

00:40 C'est un projet global sur lequel tu travailles, à la fois un blog, une maison d'édition, un think tank pour réfléchir à l'évolution du numérique.

00:48 Avec les questions géopolitiques puisque désormais tout est conditionné, toute la complexité du monde est conditionnée par la géopolitique et il n'y a pas que la technologie, c'est la combinaison des deux.

00:58 Alors on va commencer, tiens je vais commencer par une première question déjà. Est-ce que vous, vous utilisez des IA génératives pour vous aider comme des assistantes ? Allez Tarik.

01:07 Pas beaucoup, je vais être très honnête. Je m'amuse un peu avec Midjourney qui est la version graphique qui est assez fascinant, il faut dire, qui marche très bien.

01:17 J'utilisais un peu JGPT il y a quelques années, quelques mois et maintenant beaucoup moins.

01:25 Je me rends compte en fait que j'aime écrire, j'aime bien l'idée d'écrire.

01:31 Quand je l'utilise c'est essentiellement pour des fonctions de manipulation de texte, c'est-à-dire par exemple résumer un texte.

01:37 Pour le traduire j'utilise autre chose, j'utilise Deeple qui est à mon avis bien plus efficace.

01:42 Et voilà, donc je ne suis pas un très grand utilisateur.

01:45 Ok, de temps en temps. Et Véronique ?

01:47 Alors moi, nous ne les utilisons pas pour nous aider à générer du code, du texte, etc.

01:54 Par contre on les utilise au quotidien parce que, je l'avais dit à la fin d'une interview, je l'avais dit, ce n'est pas tout de critiquer ou de dire on peut faire ça, on va le faire.

02:03 Et là, on a eu la bonne surprise de commencer à travailler sur intégrer un module d'IA générative dans nos IA à nouvelle génération.

02:13 Et je ne pourrais pas trop développer mais entre les mois qui ont suivi, très peu de mois, on a avancé et on a surtout signé un contrat.

02:21 Alors sur un domaine, c'est les renseignements, donc je ne peux pas trop en parler mais ça va nous permettre d'avancer vite.

02:27 Donc évidemment, on les utilise et puis on fait ce qu'on a promis de faire, on les couple de manière à pouvoir les dompter, aider l'homme, garder l'homme dans la boucle, fournir des explications.

02:38 Et ça c'est possible que sur un petit domaine. On ne fera pas un chat GPT avec de la sémantique sur les infos du monde entier.

02:47 Très spécialisé.

02:48 Voilà, c'est ça.

02:49 Alors on va commencer par un peu de pédagogie autour d'OpenAI.

02:52 Qu'est-ce qu'on sait de l'entité OpenAI, de la fondation, la société ? Qui veut répondre là-dessus ?

02:57 Tariq ?

02:58 Beaucoup de marketing, je pense. Ça a démarré il y a quelques années.

03:01 À l'époque, il y avait Reid Hoffman, Elon Musk, pas mal de gens autour d'une fondation.

03:06 Et puis à un moment donné, il s'est passé une chose incroyable.

03:10 C'est que Google a sorti un papier sur les transformers, le fameux T de chat GPT.

03:16 Et au départ, OpenAI travaillait sur des outils pour apprendre à des ordinateurs à jouer à Space Invaders.

03:22 Et puis du jour au lendemain, on est passé à GPT.

03:25 Et puis plus tard, la version commerciale, qui était un produit quand même très abouti, qui était chat GPT,

03:31 qui a eu un succès immédiat et qui a en fait, d'une certaine manière, reconfiguré entièrement à la fois OpenAI,

03:38 qui est devenue une for profit.

03:40 Donc même si elle dit qu'elle est capée, mais ça reste une boîte maintenant.

03:42 Elle peut faire des profits, mais c'est plafonné.

03:44 Oui, on verra. En tout cas, c'est ce qui est annoncé.

03:47 Donc en tout cas, c'est une société aujourd'hui, donc américaine, installée à San Francisco, avec 400 salariés.

03:55 Donc ça a grossi extrêmement vite.

03:57 Et beaucoup d'argent, énormément d'argent de Microsoft, qui a fait d'une pierre deux coups.

04:01 La première, c'est que du jour au lendemain, ils sont passés de plutôt ringard à super cool.

04:07 Et surtout, ont complètement déstabilisé le géant Google, qui désormais se retrouve,

04:14 alors qu'ils ont développé la technologie au départ, à suivre, je dirais, sur les traces de Microsoft.

04:22 Donc c'est un coup marketing extraordinaire.

04:25 Alors, tu as commencé à révéler ce que voulait dire le T dans le chat GPT.

04:29 Qu'est-ce que c'est, GPT ?

04:31 Alors, GPT, c'est très précis. C'est donc des méthodes qui permettent de prédire le prochain mot dans le cadre d'une phrase.

04:40 Voilà. Donc c'est vraiment basé sur de l'entraînement, sur des stats.

04:45 Donc en fait, il va y avoir des probabilités que le prochain mot, je dis une phrase, et que le prochain mot soit ça.

04:51 Donc ça, c'est la partie GPT, où il y a eu beaucoup de travaux, beaucoup d'avancées.

04:55 Et ensuite...

04:57 Alors juste pour les lettres, parce qu'on parle d'IA générative, parce que le G, c'est pour générative.

05:02 Le P pour Pre-trained.

05:04 Et donc le T pour Transformer.

05:07 Dans Pre-trained, ça veut dire que ce sont des IA qui sont pré-entraînées.

05:11 Tout à fait.

05:12 Avec quel jeu de données ?

05:14 Alors, ça, c'est la vraie question.

05:16 En fait, on a découvert, on fait mine de découvrir, évidemment, on a indexé le web.

05:22 Il y a un très bon article du Washington Post, il y a quelques mois, qui expliquait un peu les différentes sources.

05:28 Mais il y a une source dont personne ne veut parler, c'est qu'effectivement, on a récupéré probablement,

05:34 je parle au conditionnel, même si le conditionnel ne l'est pas forcément,

05:37 l'ensemble de la littérature sous forme piratée.

05:40 Donc l'ensemble des livres téléchargeables, en PDF, des documents.

05:45 Et c'est ce qui a construit, effectivement...

05:48 Ce qui aurait nécessité des demandes d'autorisation ?

05:51 Absolument, peut-être des droits d'auteur également.

05:53 Il y a plein de questions.

05:55 Ce n'est pas le cas pour Google, qui, il faut le rappeler, avait numérisé des millions de livres.

05:59 A l'époque, on pensait qu'ils allaient mettre ces livres gratuitement sur l'Internet.

06:03 Ça n'a pas été le cas.

06:04 Ce qu'ils ont fait, en fait, c'est qu'ils ont utilisé ça pour créer Google Translate.

06:08 Et pour affiner Google Translate.

06:10 Mais c'est vrai qu'aujourd'hui, la question qui se pose, c'est que si on n'a plus accès,

06:13 parce que désormais, le New York Times, le Washington Post,

06:15 je crois qu'une grande partie des sites français sont également en train de fermer l'accès

06:20 aux robots d'OpenAI et des autres.

06:23 Si on ne travaille pas avec des données réelles, on va être obligé de travailler avec des données synthétiques.

06:27 Et donc, on rentre dans quelqu'un qui parlait de "data cannibalism",

06:31 c'est-à-dire qu'on est en train de générer des contenus qui vont ensuite servir à générer des contenus,

06:37 qui vont ensuite servir à générer des contenus.

06:39 Et à la fin, on aura une sorte de soupe infâme qui n'a plus véritablement de saveur.

06:43 Et c'est un des enjeux aujourd'hui, c'est comment avoir accès à l'ensemble des données qualitatives.

06:48 - Et on n'est pas du tout dans le cadre d'une intelligence artificielle qui répond à des questions,

06:52 qui va chercher des réponses sur le web, dans le nom toujours "Générative Transformer".

06:58 Comment ça fonctionne alors ?

07:00 - Alors, juste pour compléter, tout est exact.

07:04 Ce qui s'est passé effectivement, c'est qu'ils annoncent qu'ils ont préentraîné jusqu'à une certaine date.

07:10 Donc ça, c'est tout le "problème".

07:13 Mais en fait, ce que j'ai appris plus tard, et c'est là où ils vont encore avoir une longueur d'avance,

07:20 c'est que les données les plus intéressantes qu'ils ont pu récupérer,

07:23 c'est depuis qu'ils ont donné accès gratuitement aux utilisateurs.

07:27 Parce que les utilisateurs ont fait des requêtes, ils ont fait des remarques,

07:30 et ça, moi je ne le savais pas, ils les ont récupérées.

07:33 Et avec ça, en fait, ils récupèrent quelque part, mais sans qu'on ait donné l'autre...

07:38 Certainement, on a cliqué tous sur "j'accepte", mais on n'a pas compris que...

07:43 - Alors, on savait qu'on entraînait l'outil à être plus pertinent,

07:46 en affinant, en lui posant davantage de questions précises pour obtenir la réponse qu'on souhaitait.

07:50 - Je ne suis pas sûre.

07:52 Et alors, ce que j'ai appris, c'est que récemment, ils avaient créé "ChatGPT Enterprise"

07:57 en disant "cette fois-ci, on est complètement sûr des conversations cryptées,

08:04 on promet de ne pas utiliser de données commerciales, etc."

08:07 - La question, c'est avec qui c'est partagé ? C'est-à-dire qu'on sait qu'on l'entraîne pour nous,

08:10 mais avec qui est partagé l'ensemble des données qu'on fournit,

08:14 tout ce qu'on rédige finalement dans "ChatGPT" ?

08:16 - Tout à fait. Alors, il y a eu des fuites, il y a eu des fuites,

08:19 il y a eu des gros problèmes avec des gens qui ont testé des choses

08:23 qui étaient un petit peu trop stratégiques pour des gros sociétés.

08:27 - Et pour nous expliquer juste le fonctionnement, par quel subterfuge, finalement,

08:33 parce que ça semble un petit peu magique, on pose une question, il apporte une réponse,

08:36 alors que ce n'est pas sa façon de fonctionner, il ne va pas chercher une réponse.

08:40 - Alors, la première chose, c'est qu'il ne sait même pas qu'on lui pose une question.

08:44 Donc, il peut répondre à une question par une question.

08:47 Alors, il n'y a pas que le pré-entraînement, c'est-à-dire que le pré-entraînement,

08:52 effectivement, c'est pour coupler "je prédis un mot de manière statistique"

08:56 avec du traitement de la langue nat, donc tu sais exactement...

09:01 - Du langage naturel, oui.

09:02 - Du traitement du langage naturel, désolée.

09:04 Et à partir de là, effectivement, on va construire des phrases,

09:07 mais il y a énormément de travail en amont avec des histoires de ponte, et également après.

09:12 Et ça, c'est très intéressant, c'est-à-dire que derrière, il y a différentes méthodes

09:17 pour éviter, peut-être pas les chimères, parce que ça, je crois qu'il y a un papier qui est sorti

09:22 pour dire qu'ils n'arriveront jamais à les supprimer, mais au minimum les trucs toxiques.

09:26 Donc, il y a des méthodes automatiques, c'est ce qu'on appelle l'apprentissage par renforcement,

09:30 c'est facile, c'est Pavlov, c'est bien, pas bien.

09:34 Et finalement, ils se sont aperçus que le meilleur apprentissage était à réaliser par des humains.

09:40 Donc, il y a des Kenyans qui, malheureusement, ont été payés 2 euros de l'heure,

09:45 et qui ont tagué toxiques, pas toxiques, etc.

09:50 Donc, les sorties qu'on voit, en fait, elles ont beaucoup évolué ou elles vont changer

09:54 par rapport à des humains qui ont décidé que c'était pas bien.

09:59 Et c'est là où Elon Musk était furieux en disant "oui, c'est orienté, c'est du politiquement correct, etc.

10:06 Nous, on veut pas faire ça". Donc, en fait, si on fait taguer, si on fait faire du RL pour dire bien, pas bien

10:11 par des gens qui ont une autre vision du monde, du futur du monde, ça va donner d'autres sorties.

10:16 Alors, Chajipiti n'a absolument pas conscience de ça, bien entendu,

10:19 puisqu'elle génère des suites de mots stochastiques qui sont probablement les mieux.

10:25 Et le problème...

10:27 - Mais après, ça recoupe des discussions qu'on a eues ensemble, Tariq Krim sur la culture, finalement,

10:33 qui est véhiculée à travers ces outils dont on n'a pas forcément conscience.

10:37 Je voulais qu'on réponde aussi à la question de BG, qui nous a posé sur Internet

10:42 "Chajipiti, l'IA générative la plus avancée ?"

10:46 Est-ce qu'il vous semble qu'aujourd'hui, c'est ce qu'on fait de mieux en matière d'IA générative ?

10:50 - Probablement. Je voulais juste rajouter un point sur la question de l'IA générative.

10:54 En fait, on ne sait toujours pas pourquoi ça marche aussi bien.

10:58 On comprend pourquoi ça marche.

11:00 - C'est un problème.

11:01 - On a défini les choses, on a simplement abandonné et bourriné, c'est le terme français correct.

11:07 On est allé récupérer des tonnes de données, mis énormément de puissance de calcul,

11:11 et puis on a eu des outils qui marchent, qui marchent plutôt bien, mais on ne sait pas exactement pourquoi.

11:18 Donc il faut quand même rappeler ça.

11:21 La raison pour laquelle OpenAI, à mon avis, est la meilleure des plateformes aujourd'hui,

11:26 parce qu'il en existe plusieurs, Google a la sienne,

11:29 qui était au départ pas terrible et qui commence à devenir plutôt bonne,

11:33 il y a les modèles open source, qu'on peut récupérer, qu'on peut installer sur des services comme Hugging Face,

11:38 ou installer chez soi, même si pour l'instant les systèmes ne sont pas vraiment plug and play.

11:43 Mais il faut bien comprendre, et c'est ce qui a été expliqué tout à l'heure,

11:46 c'est qu'on peut voir aussi une AI générative, comme OpenAI, en tout cas sur le texte,

11:53 comme un service qui peut être soit un peu maniaco-dépressif, on va dire,

11:58 qui est d'un côté un peu mélo, qui n'est pas très efficace.

12:02 Donc s'il est peu efficace et peu impressionnant, les gens disent "bon, ça ne marche pas ce truc",

12:08 et puis s'il est trop intense, là évidemment il fait la une du New York Times.

12:13 - Et ça inquiète tout le monde.

12:15 - Voilà, et tout le travail c'est de mettre Chad J. Peete dans une zone de confort

12:22 où il délivre quelque chose d'assez simple, assez attendu, mais solide,

12:29 parce que c'est un peu l'idée de la technologie, c'est de revendre une expérience intéressante,

12:37 mais réplicable à l'infini.

12:39 Et le problème de l'AI, c'est que cette réplicabilité n'est pas toujours garantie.

12:44 Il y a toujours un moment où on parlait des chimères ou d'hallucinations,

12:47 où le produit part en live et raconte n'importe quoi,

12:50 et donc ça limite évidemment son usage dans des domaines non contraints,

12:55 c'est-à-dire le médical, la défense, plein de domaines où on ne peut pas se permettre ce genre de choses

13:01 sont évidemment pour l'instant a priori à l'écart de technologies comme celle-ci.

13:06 - Allez, question d'Arnaud qui nous demande "mais combien investit Microsoft ?"

13:10 - Alors ça, je vais regarder, mais ça va pas être... d'abord c'est très flou, ça va pas être les bons chiffres.

13:17 C'est de l'ordre de 10 millions de dollars.

13:20 - Milliards ! - Milliards, pardon.

13:22 - 10 milliards ? - 10 milliards de dollars, bien sûr.

13:24 Mais le truc, c'est que derrière, c'est beaucoup plus, parce que...

13:30 Alors pareil, il n'y a pas de preuve, mais ça tourne un petit peu.

13:33 Ils font des offres, justement, c'est-à-dire ils font des offres sur les services qu'ils peuvent apporter pour continuer à entraîner.

13:41 Et ça, c'est très cher.

13:43 - Oui. - C'est...

13:45 - Ça a une valeur. - Ça a une valeur, parce que si on n'a pas ces tarifs,

13:49 on doit payer plein pot, et c'est toujours le problème.

13:53 C'est vraiment des IA extrêmement consommatrices en énergie, etc.

13:58 À l'utilisation, pour le pré-traitement, voilà.

14:01 Et c'est dommage qu'il n'y ait pas plus de questions là-dessus, parce que c'est un vrai sujet.

14:05 - On n'a pas de transparence, finalement, sur les investisseurs.

14:08 - J'avais posé la question à Sam Altman, quand il était venu à Paris.

14:11 - Oui, donc le PDG d'OpenAI.

14:13 - Combien ça coûte ? En fait, personne ne sait combien ça coûte, vraiment.

14:17 Le problème qu'on a avec ces technologies, c'est qu'en fait, autant que Google, on savait que ça ne coûterait quasiment rien.

14:23 Et on avait un système, en plus, qui s'auto-apprenait.

14:26 C'était un peu la même chose que ce qu'on disait tout à l'heure, c'est que quand on cliquait sur un lien,

14:30 plutôt qu'un autre, en fait, il était ré-indexé au-dessus des autres.

14:33 Il y avait un système incroyable, qui coûtait très peu cher.

14:35 C'est une cache-machine basée sur des algorithmes assez bien pensés, et finalement, assez peu coûteux.

14:41 L'ALIA, c'est l'inverse. Ce ne sont pas des algorithmes, ce sont des données qu'il faut en permanence mettre à jour.

14:47 Ça coûte une fortune à organiser, on ne sait pas exactement combien.

14:52 Alors, on peut imaginer que le coût qui a été investi, au départ, on parlait de 2 milliards,

14:56 puis ensuite un investissement de 10 milliards de Microsoft.

15:00 En fait, c'est un avant. D'un point de vue marketing, c'est déjà, j'allais dire, amorti.

15:06 Mais c'est vrai que cette question se pose, parce que désormais, beaucoup de gens veulent faire tourner ces applications ailleurs

15:14 que chez OpenAI et chez Microsoft.

15:16 Et là, se pose la question de savoir qui a accès au plus.

15:19 Il y a une crise des puces, aujourd'hui, impossible de trouver les fameux A100 ou H100.

15:24 La plupart des startups qui se sont lancées aujourd'hui vous disent, en off, je cherche de l'espace de compute,

15:31 parce qu'aujourd'hui, je ne sais pas où en faire. La France est devenue la plaque tournante.

15:34 Parce qu'apparemment, certains acteurs ont acheté beaucoup de puces l'année dernière, et donc, ont eu le nez creux.

15:40 Mais c'est vrai que la question du coût, et notamment la question du coût pour l'entreprise,

15:46 et après, se pose aussi la question du bénéfice pour l'entreprise, se pose.

15:50 Et pour l'instant, ça reste des données un peu floues. Je crois que flou est le bon terme.

15:56 Bon, il y a quand même beaucoup de flou, mais on essaie de répondre aux questions.

15:58 On répondra à Steph. Qu'a de plus la version payante ?

16:02 Je dirais que la caractéristique la plus intéressante, c'est le nombre de mots générés.

16:08 C'est passé de 2000 à 25 000.

16:10 Donc, ça veut dire qu'on peut commencer à envisager, à voir, par exemple, des scénarii, etc.

16:15 Attention, je l'ai déjà dit, mais ça ne remplace pas ceux qui écrivent des scénarii.

16:22 C'est juste une aide. Il ne faut pas oublier, c'est un outil.

16:25 Maintenant, que cet outil fournisse une possibilité d'avoir 25 000 mots sur lesquels on retravaille,

16:32 voire on relance avec d'autres promptes, ça, c'est autre chose.

16:35 Et puis, c'est plus rapide. Il y a des plugins, etc.

16:39 C'est mieux intégré, en fait, dans nos outils de travail quotidien.

16:44 Oui, ça a gagné en puissance.

16:46 Mais on a oublié de dire quelque chose, parce que le thème, il me semble que c'était les IA génératives.

16:50 Et moi, je serais plus modérée sur le fait que OpenAI soit les plus avancées.

16:55 Parce que peut-être sur la partie texte, parce que c'est ça qu'ils ont vraiment annoncé,

16:59 mais les IA génératives, c'est aussi des IA qui peuvent générer du code, générer des images, etc.

17:04 Alors là, les gens confondent parce qu'ils disent "Non, mais maintenant, ChatGPT génère des images".

17:09 Non, ça prend en entrée des images.

17:11 C'est-à-dire qu'on peut donner un tableau, on peut donner une courbe,

17:14 au lieu de poser une requête, une question en texte, et il va répondre par un texte.

17:19 Donc, bien sûr, ils ont leur partie générative d'images.

17:22 Après, il y a des IA génératives dédiées.

17:24 D'Ali, mais là, je ne pense pas qu'ils soient les meilleurs.

17:27 Et en fait, l'idée, ce serait d'avoir quelque chose qui va tout croiser.

17:31 Et je pense que même des entreprises avec beaucoup moins de moyens

17:36 vont produire des résultats meilleurs toujours sur des plus petits domaines en attaquant autre chose.

17:41 Et de toute façon, ça, ce sera sûrement une question d'après.

17:45 Et c'est peut-être là que nous, on a une place à prendre aujourd'hui en France et en Europe.

17:49 Merci beaucoup. On arrive déjà à la fin de notre séquence.

17:52 Allez, c'est l'heure de notre rendez-vous avec les cryptos.

Recommandations

12:20

À suivre

SMART IMMO - La Proptech en force au MIPIM

B SMART