• avant-hier
FRnOG 41 - Pierre Guillaume & Philippe Bourcier : Au secours, l'IA m'a tuer

Catégorie

🤖
Technologie
Transcription
00:00Bonjour à tous, merci Philippe. Avec Philippe, on vous a préparé une petite
00:05introduction à l'intelligence artificielle. C'est très schématique,
00:09c'est vraiment les fondamentaux de l'IA sur l'aspect théorique et aussi une
00:14petite partie infrastructure juste après. Alors concrètement, avant de
00:19commencer, qu'est-ce que c'est l'intelligence artificielle ?
00:22C'est les basiques. Alors l'intelligence artificielle s'est
00:26découpée en plusieurs sous-domaines. Avant l'arrivée de la vague de l'IA
00:30générative et de chat GPT, on ne parlait pas trop dans le monde de l'IA,
00:36on ne parlait pas trop d'IA, on parlait surtout de machine learning et c'est ce
00:38premier domaine qui existe depuis longtemps.
00:41L'idée du machine learning, c'est qu'on va chercher à construire des modèles
00:47qui vont apprendre à résoudre un problème à partir de la data. Donc on va
00:50avoir de la donnée, il y a différents types d'apprentissage, on va avoir de la
00:53donnée et on va entraîner ces modèles à partir de cette donnée-là.
00:56C'est globalement un modèle, c'est une fonction mathématique avec ce qu'on
01:00appelle des paramètres d'apprentissage qui sont des nombres flottants, des
01:03nombres à virgule et par une succession d'opérations d'algebra linéaire par
01:07exemple, on va obtenir un résultat. Ensuite, on a un sous-domaine du machine
01:11learning qui est le deep learning dans lequel on parle plutôt de réseaux de
01:15neurones, réseaux de neurones profonds. On pourra revenir un peu dessus juste
01:19après et l'idée ici, c'est que ça a surtout trouvé des applications dans le
01:22monde de l'image, de la vidéo, de l'audio, du texte, etc.
01:26On a le domaine du NLP, traitement du langage naturel, où là c'est l'ensemble
01:30des algorithmes qui s'appliquent sur du texte et le croisement de tout ça c'est
01:35les LLM, l'IA générative et l'IA conversationnelle avec ChatGPT, DeepSeek
01:41et tout ce que vous connaissez. Alors dans les LLM, LLM ça veut dire large
01:45language model, les gros modèles de langue, on a aussi un autre type de
01:49modèles qu'on appelle les SLM, les small language model. Alors il n'y a pas
01:54vraiment de distinction précise entre les deux mais les SLM globalement ça
02:00peut tourner sur vos téléphones ou sur vos ordinateurs alors que les LLM ça
02:04tourne plutôt sur sur des serveurs. On vous a mis quelques petits exemples
02:07ici, voilà globalement. Globalement un SLM ça coûte moins cher à faire tourner,
02:17c'est plus spécialisé, ça peut être des modèles spécialisés sur
02:20l'extraction d'informations par exemple, là où des large language model sont plus
02:24gros et plus coûteux à mettre en place.
02:28Je reviens juste avant, le 12B que vous voyez en haut à gauche par exemple,
02:3212B c'est le nombre de paramètres d'apprentissage qu'a votre modèle, donc
02:3612B ça veut dire qu'il a 12 milliards de paramètres d'apprentissage, donc on
02:39est déjà sur des modèles d'une certaine taille.
02:42Alors concrètement, il faut qu'on rentre un peu dans les détails de la théorie,
02:47toute la théorie, alors c'est un peu de géométrie, des vecteurs, mécanisme
02:51d'attention, des layers de réseaux de neurones, et là on peut faire un modèle.
02:55Alors ça paraît complexe comme ça, ça l'est un peu, mais tout vient,
03:00enfin pas vraiment, mais le point de bascule de l'IA générative vient d'un
03:04papier qui s'appelle attention is all you need, fait par google en 2017.
03:09En réalité ils n'ont rien inventé, ils ont surtout rassemblé des briques
03:13technologiques qu'on avait avant, mais les briques technologiques qu'ils ont
03:16mis en lumière via ce papier, c'est ce qu'on appelle les mécanismes d'attention
03:20qui permettent d'indiquer mathématiquement au modèle, dans ce
03:25bloc de texte que je t'envoie au modèle, voilà les mots qui sont
03:29importants. Et sinon on a des couches de réseaux de neurones qui sont des
03:32architectures qui s'inspirent un peu du fonctionnement des neurones du
03:36cerveau humain qui sont liés entre eux avec tout un tas de paramètres
03:39d'apprentissage. Je passe volontairement vite parce qu'on a peu de temps
03:43pour une introduction. Le fonctionnement d'un modèle, très schématiquement, vous
03:47envoyez du texte en input, en entrée, vous avez une liste de layers ici
03:52qu'on appelle transformers-décodeurs puisque ces modèles on appelle ça des
03:56transformers. L'input passe dans une succession de couches comme ça et est
04:03transformé. Chaque mot est découpé, en fait votre texte est découpé en ce qu'on
04:07appelle des tokens qui sont des bouts de mots et chacun chacun de ces bouts de
04:10mots est transformé en vecteur numérique, représentation numérique de
04:14nombres flottants. Et qu'est-ce que ça veut dire ça ? Ces vecteurs c'est
04:18la représentation numérique sémantique de votre token, ça passe dans
04:23une succession d'opérations. On a ensuite une couche ici qui est écrite
04:27dite MLP mais c'est une couche de réseaux de neurones qui à la fin vous
04:31donne une distribution de probabilités. Alors je sais c'est peut-être
04:36difficile à comprendre comme ça mais l'idée c'est que chaque fois que vous
04:40envoyez votre texte et que vous allez essayer de générer un nouveau token ou
04:43un nouveau bout de mot, en fait le modèle va essayer de prédire quel est le
04:47token le plus probable pour la suite. Et donc si le modèle connaît dans son
04:52dictionnaire 200 000 mots, à la fin vous allez avoir un vecteur de taille 200 000
04:56avec à chaque fois une distribution, la probabilité d'apparition de chacun des
04:59tokens. Et donc vous pouvez choisir parmi le ou les plus probable pour faire votre
05:05génération. Globalement ces modèles ils sont très gros, ils sont très durs à
05:12manipuler et donc il y a pas mal d'optimisation qui ont été mises en
05:15place par la communauté et notamment la communauté de l'open source. Et la plus
05:19importante c'est ce qu'on appelle la quantification. Alors on a dit que nos
05:23paramètres d'apprentissage c'est des nombres flottants, historiquement avant
05:26l'ère des gros modèles et de l'IA générative, les modèles stockaient
05:31leurs paramètres d'apprentissage sur des flots de 32, maintenant c'est plutôt des
05:34flots de 16 parce qu'on n'a pas trop de pertes de performance et on
05:39descend même à, on les quantifie sur 8 bits maintenant, voire 4 bits, voire 1,5
05:44bits dans certains cas. Et très souvent on utilise des modèles en intuit
05:50parce qu'on perd pas trop de performance, moins de 1% et on divise quand même la
05:55taille du modèle par 2 par rapport à des flots de 16.
06:00Si vous voulez faire tourner vous-même un modèle dans le cloud,
06:03moi je vous le, enfin sauf cas spécifique, je vous le déconseille, ça coûte très
06:08cher. Pour un petit modèle à 8 bits, donc la MA 3.1 8 bits que vous voyez juste en
06:12haut, c'est un paramètre, c'est un modèle à 8 milliards de paramètres
06:15d'apprentissage, quantifié en Q8, donc sur 8 bits, c'est déjà au moins 8, 9
06:21gigas et c'est un tout petit modèle. Sur un 70 bits en Q4, au moins 40 gigas et sur
06:28un modèle 400 bits de méta, la MA 3.1, on est sur plus de 400 gigas et c'est plus
06:35de 10 000 euros par mois d'infrastructure chez Scaleway par exemple.
06:40Ok, c'est cool tout ça, mais comment on entraîne un modèle ?
06:44Et bien en fait, comment on entraîne un modèle d'IA générative ?
06:48Globalement, la pipeline d'entraînement d'un modèle, elle peut être découpée en
06:51trois parties. La première, ce qu'on appelle le self-supervised learning,
06:57donc l'idée c'est que là, on va passer une grosse quantité de données à notre
07:01modèle, donc l'intégralité des données d'internet, puisque c'est ce qui a été
07:06utilisé par OpenAI et Anthropic par exemple, on passe toute cette data et en
07:11fait le modèle va s'entraîner à prédire le prochain mot à chaque fois,
07:14on va cacher des mots et le modèle va s'entraîner comme ça à prédire les
07:18prochains mots, ça va lui permettre de comprendre la
07:20la sémantique du texte. Ensuite, deuxième étape, on va faire ce
07:24qu'on appelle de l'apprentissage via human feedback, on va demander au modèle
07:29de générer deux outputs et il va y avoir un humain qui va choisir, ok cet
07:33output il est mieux que l'autre. Et ça, c'est ce qui a fait que ChatGPT a aussi
07:39bien marché, parce qu'évidemment plein de gens faisaient du self-supervised
07:42learning avant et RLHF, cette deuxième étape, c'est ça qui a vraiment fait
07:48exploser les performances. Et ensuite, on a une troisième étape de fine tuning,
07:52ici on a une liste de promptes et de réponses et on veut que notre modèle
07:57apprenne à partir des promptes à donner les réponses, c'est ce qui s'appelle le
08:01fine tuning, vous pouvez le faire sur des données propriétaires aussi.
08:05Ok, là c'est une autre petite slide, on peut la passer rapidement, mais pour
08:09montrer le principe de génération, on a du texte en entrée du modèle, il génère
08:13un token, on réinjecte le token généré dans l'entrée et ainsi de suite,
08:17c'est un processus itératif. Ok, ces modèles, c'est cool, c'est
08:24performant, mais il y a plein de limites. La première, c'est que c'est entraîné
08:27uniquement sur des données publiques, donc pas sur vos données propriétaires
08:31privées, c'est d'ailleurs un gros besoin des
08:35providers de modèles. La deuxième problématique, c'est que comme
08:40ça coûte très cher d'entraîner les modèles, en fait, ils
08:44ne sont pas à jour des dernières actualités, en général ça dépend des
08:48modèles, mais ça peut coûter 100 millions de dollars un entraînement d'un
08:51modèle chez OpenAI, et ensuite c'est très gourmand en mémoire GPU, et donc
08:57on n'a pas envie d'entraîner tous les jours des modèles, et c'est là que
08:59rentre en compte ce qu'on appelle le RAG, peut-être que vous en avez déjà
09:02entendu parler, c'est un peu un buzzword en ce moment, c'est pour
09:07Retrieval Augmented Generation, là l'idée elle est très simple, c'est comme le
09:12modèle on ne veut pas l'entraîner tous les jours, et bien on va trouver des
09:15moyens de connecter un modèle à de la donnée, et notamment de la donnée
09:18propriétaire. Comment ça fonctionne ? Vous pouvez globalement séparer en deux
09:22parties la pipeline du RAG, la première si vous avez une base documentaire, ça
09:27peut être des pdf, des documents powerpoint, des docx, peu importe, des
09:32fichiers excel ou des mails, et vous voulez indexer ces documents là, donc
09:37vous allez d'abord les découper en ce qu'on appelle des chunks, c'est des bouts
09:40de documents, chacun des chunks on va calculer ce qu'on appelle un embedding,
09:44c'est le vecteur dont on a parlé juste avant qui est utilisé par ces
09:48modèles, qui est en fait la représentation numérique sémantique d'un bout
09:52de texte, et ensuite on va envoyer ces chunks dans une base de données
09:57vectorielle qui va en fait indexer ces vecteurs par relation de
10:01similarité. Deuxième étape de la pipeline, on a une requête utilisateur, on va
10:07aller chercher dans cette base de données vectorielle les chunks les plus
10:10proches de la requête utilisateur, plus proches sémantiquement, et on va les
10:14injecter dans le contexte du modèle à la volée pour que le modèle ait accès à
10:18l'information et puisse répondre à la question utilisateur. C'est un moyen, ça
10:21paraît simple comme ça, mais il y a plein de petites problématiques que vous
10:25pouvez rencontrer, notamment la gestion de différents types de formats de
10:29fichiers. Et je vais maintenant laisser la main à Philippe pour la suite de la
10:34présentation.
10:42Du coup on va parler du hardware. Sur le hardware, on a
10:50deux types de machines.
10:54On a deux types de configurations de
11:01machines possibles. On a dans du serveur classique, enfin plutôt du 4U parce qu'il
11:06faut il faut de la place, il faut pousser de l'air aussi, du coup on va pouvoir
11:10mettre des cartes PCIe. Donc là, on est sur Nvidia, mais en
11:16gros c'est des cartes sur slot classique en deux dual slots, et puis c'est des
11:23cartes qu'on peut jumeler. Donc vous voyez le petit truc noir là qui brille, ça
11:27c'est ce qu'on appelle des Nvelik. Donc c'est le fameux bus propriétaire
11:32Nvidia, c'est des Lanes PCI Express en gros, mais qui servent à faire communiquer la
11:37RAM entre deux cartes. Je vous expliquerai après à quoi ça sert.
11:42Et puis pour les vrais plus gros joueurs, on va dire, on a le SXM. Dans le monde de
11:51l'OCP, ça existe aussi, ça s'appelle l'OCP OAM, mais Nvidia en fait pas, mais c'est
11:54plutôt pour les pour les successeurs de Nvidia, puisque un jour il y aura d'autres
11:59fabricants qui vont faire des GPU, des NPU en tout cas, qui seront
12:04tout aussi valables. Ça viendra, c'est une histoire de
12:08logiciel essentiellement. Et en fait, c'est quoi
12:14la différence, les SXM ? C'est en gros, on vient intégrer ça. Donc déjà ça se
12:20met que sur des machines dédiées à l'IA, et que sur des serveurs dédiés à l'IA,
12:24donc il y a un connecteur spécial, etc. Et c'est une grappe de 8 GPU
12:31directement qu'on va venir fixer comme ça sur une carte-mère.
12:36Et ce qui est intéressant, c'est que le bus Nvelik est beaucoup plus
12:41performant, et il est aussi entre les huit cartes, alors que le Nvelik
12:44classique, c'est soit deux cartes, soit quatre cartes sur les dernières
12:47versions. Donc du coup, c'est quand même en termes de scalabilité, de
12:51performance, les gens qui font de l'IA vraiment à 100%, ils prennent
12:56ce genre de configuration. Et alors je voulais montrer sur le hardware aussi
12:58cette autre graphe, on va dire, c'est sur la consommation.
13:03Tout le monde fait, la consommation, l'IA, c'est incroyable, ça va être 2% de
13:08l'énergie planétaire, etc. Enfin peu importe, les chiffres sont
13:12complètement sortis du chapeau, concrètement. Ça c'est des chiffres un
13:15petit peu plus crédibles, c'est une étude qui est publiée dans Nature. Et donc ce
13:20qu'on peut voir, c'est que par exemple, le job le plus gourmand en termes de
13:24génération, c'est générer une image. Générer une vidéo, c'est encore plus
13:27courant, vous allez me dire, oui c'est une suite d'images. Et en fait, ça consomme
13:32quoi ? C'est 519 Wh, et ça c'est l'équivalent d'à peu près la
13:38moitié de la batterie d'un de vos PC portables.
13:41C'est ce que dit le graphe. Et si on va, alors là c'est un peu caché, mais en
13:46gros, la génération de textes, donc des choses un peu plus classiques, c'est la
13:50moitié de ça. Et puis si on fait juste la summarisation, par exemple, donc
13:54t'envoies un pas de tes textes, tu veux juste une conclusion ou un truc comme ça,
13:58ça c'est beaucoup beaucoup moins lourd, et donc c'est beaucoup moins gourmand.
14:03Donc voilà, ça c'est la réalité, on va dire, sur la partie consommation.
14:07L'infra-training. Donc on a vu, du coup, c'est le côté
14:14data center, un peu ce que ça donnait. C'est assez marrant, parce
14:20qu'en fait, l'infra-training, c'est beaucoup de réseaux, parce qu'en fait,
14:25il y a une vraie problématique. Donc sur ce graphe, ce qu'on voit, c'est
14:28au milieu, là, on a les GPU, ensuite ça remonte en PCI Express vers le CPU, et là
14:34en haut, on a du réseau. C'est du réseau InfiniBand, ou c'est du réseau Ethernet,
14:38c'est plutôt pour la partie stockage. Et en bas, on a encore du réseau. Et ça, c'est
14:44du réseau propriétaire très spécifique. Alors on a parlé un petit peu tout à
14:48l'heure de la table ronde. En gros, c'est du réseau NVLink avec des
14:52NVSwitch de NVIDIA. Mais si on n'est pas chez NVIDIA, le trigramme
14:59qu'on a utilisé tout à l'heure, je crois c'est PXL, un truc comme ça.
15:05En gros, c'est ce qui sert à désagréger de la RAM dans les super
15:09calculateurs, désagréger la RAM de compute, du storage, tout en ayant des
15:14Lanes PCI Express sur du réseau, sur de la fibre classique. Et donc, ce qu'il
15:22faut comprendre, c'est que ces clusters de calcul d'IA, c'est
15:26vraiment 60% compute. C'est des chiffres à la, c'est moi qui les
15:32ai sortis du chapeau, mais concrètement, il y a quand même une vraie réalité.
15:36C'est vraiment beaucoup de réseaux. Et d'ailleurs, on le voit là, ça c'est une
15:38baie à droite. Donc ici, ce qu'on voit en rouge, c'est la partie fourniture de
15:44puissance, transformation de puissance. C'est en rouge. En vert, ici, c'est la
15:50partie compute. Donc on a en haut et en bas. Et en bleu, là au milieu, ça c'est le
15:54réseau. Donc ça en fait un des réseaux. C'est vraiment très
15:59intense en termes de réseau. Et puis en plus, c'est du 800G, voire du 1TB à 6TB.
16:05C'est du gros réseau.
16:11Encore cinq minutes. Donc du coup, l'infra-différence.
16:18Donc on va avoir une requête.
16:22Oui, c'est l'infra-training. L'infra-différence. La différence, c'est
16:25que c'est beaucoup plus simple. Ça peut, en tout cas. Puisque du coup, on va être
16:30plutôt sur... Donc j'ai une requête, j'ai un serveur. Et là, le game, c'est de faire
16:36tenir ça sur le nombre de GPU qu'on peut faire tenir dans un serveur.
16:39Donc il y a deux stratégies. Il y a deux qui peuvent être adoptées et qui
16:46peuvent même être combinées. Donc la première stratégie, c'est le split
16:49des layers. Donc comme a expliqué Pierre, il y a plein de
16:54layers dans un modèle. Et donc ce qu'on peut faire, c'est on va dire
16:57sur le GPU 1, on va mettre les layers 1 à 15. Et puis sur le GPU 2, on va
17:02mettre les layers 15 à 32. Et du coup, en fait, ce qui va se passer, c'est que
17:07la requête, elle va passer d'abord sur le premier GPU, puis sur le deuxième GPU.
17:10Puis hop, on a une réponse. Donc ça, c'est possible. Ça, c'est ce que j'ai mis en
17:14rouge, là, les petites flèches en rouge. Donc on peut splitter les layers. Puis
17:17alors, on peut splitter sur plein de GPU. Donc c'est un gros, gros modèle de 700
17:20milliards de paramètres. On met 8 GPU et puis on est tranquille.
17:25Donc ça, c'est bien. Par contre, en termes de scalabilité, c'est pas
17:29foufou. C'est pas optimal, on va dire. Parce que du coup, il y a un GPU qui
17:34travaille. Puis après, il y a le suivant. Puis après, il y a le suivant. Donc c'est un peu
17:36dommage. Du coup, il y a un autre moyen. Quand on a des GPU NVIDIA, bon, c'est un peu
17:41le leader et puis un peu le seul du marché aujourd'hui qui peut vraiment
17:46rendre ce service-là. Eh bien, en fait, on peut du coup utiliser NVLink. Donc j'en
17:52ai déjà parlé. Le NVLink, c'est le truc qui permet de relier les GPU entre eux.
17:56Mais du coup, plus par le bus PCI Express, mais par un bus qui est séparé.
18:01Donc d'un côté, le split des layers, ça utilise le bus PCI Express. De l'autre
18:04côté, on peut avoir relié la RAM de chaque GPU à travers le NVLink. Et du
18:09coup, on peut combiner les deux. Du coup, là, j'ai mis en jaune, là, quand on
18:13combine les deux. Si on a 8 GPU dans la machine et que chaque GPU a 141 gigas de
18:20RAM, eh bien, ça fait 1 Tera de capacité d'hébergement d'un modèle.
18:25C'est déjà des très très gros modèles. Donc voilà, ça c'est un peu le
18:30fonctionnement pour la partie inférence. Voilà, du coup, ça c'était un peu le
18:38titre, comment on dit, un peu provoque de la presse. C'était au secours, l'IA
18:45m'a tué. Ben non, vous n'allez pas être remplacés par l'IA. Par contre, vous
18:51allez gagner en productivité sur plein de tâches. Parce que l'IA, dans les
18:54métiers de l'infra, c'est quoi ? C'est la génération automatisée de
18:59configuration, de règles de Firewall. Qui n'est jamais intervenu sur un FreeBSD ?
19:05Salut Pierre ! Et se dire, oh là là, je me souviens plus la syntaxe IPFW. Heureusement,
19:10c'est la meilleure de toutes, mais on est d'accord. Et puis après, on se
19:17retrouve sur un Linux pour IPTables. Et puis après, ah bah tiens, maintenant c'est
19:21NFT. Donc voilà, si on doit jouer comme ça avec plein de Firewall et qu'on
19:28oublie à chaque fois sa syntaxe, franchement, les modèles d'IA sont
19:32parfaits pour faire ça. Je pense à Cloud, mais à plein d'autres, la plupart sont
19:36adaptés. On va pouvoir utiliser ça pour faire de la root cause analysis de
19:41sources uniques ou multiples de logs. Donc typiquement, tu as un crash sur ton
19:46infra et tu as un pipeline de logs qui arrive vers une IA. L'IA va pouvoir te
19:51dire, bon bah là, il y a l'optique, a priori, elle a flanché sur tel routeur, ça a
19:56déclenché tel truc, ça a fait une bascule, tu es en train de saturer tel lien,
20:00fais quelque chose. Et ça c'est cool, parce que ça veut dire potentiellement
20:04moins de réveil aussi la nuit, parce que si tu branches ton monitoring là-dessus,
20:07enfin bref, ça peut être sympa. Et puis l'aide aux supports techniques,
20:12donc ça c'est plus, on parlait du RAG tout à l'heure, quand on combine le RAG
20:16avec un LLM, donc le RAG va chercher l'info, le LLM il recrache l'info de
20:21manière utile pour l'utilisateur, on peut faire des trucs genre des chatbots,
20:25tout ce qui est niveau 1, en gros, du support, tu peux rendre ça à travers un
20:31smart search engine ou un chatbot qui va pouvoir te faire ce service plus
20:38facilement. Le futur,
20:42ah oui, bon il va être l'heure, donc le futur, la fin des GPU, donc en fait
20:50on a beaucoup parlé d'NVIDIA, parce qu'aujourd'hui c'est un peu l'acteur
20:53principal et tu peux pas trop faire sans, mais il y a quand même des acteurs.
20:59Aux Etats-Unis, il y a déjà Cerebras et Grok qui font des choses, qui
21:04fonctionnent, bon le ticket d'entrée c'est 300 000, donc il faut quand même
21:09s'accrocher, mais c'est, et puis c'est des machines un peu spécifiques, Grok eux,
21:14ils ont fait un GPU avec très peu de mémoire et ils en ont fait plein, plein,
21:17plein, plein sur un même silicone et du coup ça fonctionne en parallèle, enfin
21:21c'est très spécial, c'est très propriétaire aussi, donc il faut s'aventurer quoi.
21:26Cerebras, ils font aussi des choses, Edge, ils sortent leur premier silicone je
21:31crois fin de l'année, il va y avoir des français aussi qui font des choses, donc
21:35voilà, la concurrence avance et puis on peut imaginer qu'AMD un jour
21:39réussira à se dépatouiller de son logiciel. Et puis du coup, on a aussi des
21:45meilleurs modèles, donc typiquement, je sais pas si vous avez entendu parler, il
21:49y a Google qui vient de sortir Gemma 3, c'est un modèle 27 milliards qui tutoie
21:54les modèles qui avaient plus de 100 milliards de paramètres, donc d'un côté
22:00on a la loi de Moore qui nous aide tous les jours,
22:02d'autre côté on a aussi la loi du développeur qui fait des meilleurs codes
22:06tous les jours, alors pas dans tous les domaines, mais dans l'IA, c'est
22:10vraiment, on part de loin et on arrive vers de l'optimisation, vous avez entendu
22:14parler de DeepSeek, DeepSeek c'est exactement ça aussi, alors leur
22:17innovation c'était sur justement la rapidité d'entraînement du modèle,
22:21je peux vous parler vite fait d'Inception AI qui fait des DLLM, c'est-à-dire
22:26qu'au lieu de faire du mot à mot, comme on a vu tout à l'heure, eux ils arrivent à
22:30générer comme on génère une image, et donc ton texte il apparaît en une seule
22:35fois, c'est assez bluffant, vous pouvez aller voir sur internet
22:38Inception AI Labs, Inception Labs AI, donc c'est des DLLM, et puis il y a
22:46l'AGI, l'AGI ça c'est un rêve, aujourd'hui on est à peu près au
22:49niveau 3, en gros des IA qui sont à 90% de l'intelligence de n'importe quel
22:56humain, à peu près, mais c'est un peu ça la métrique, c'est un truc que
23:05Google a imaginé, l'AGI, et l'idée c'est de dire en fait plus on va monter
23:11dans les niveaux, plus ça va être bluffant, et au niveau 5, qui est le dernier
23:16niveau, là il y a absolument toujours tout le monde, y compris sur des tâches
23:22où il faut faire quelque chose, donc ce qu'on appelle l'agentique, la partie
23:27agent, et puis alors il y a Yann Lequin, lui il parle plutôt du human level AI,
23:33je vous laisserai aller regarder, mais pour arriver à ce fameux niveau 5, il va
23:38encore se passer pas mal d'années, et donc on est encore tranquille sur pas
23:42mal de tâches, et sinon vas-y je te laisse faire la conclusion.
23:48Merci Philippe, très rapidement, sinon on fait quoi dans la vie ?
23:53Nous on a lancé Vauban, Vauban AI, et l'idée c'est de faciliter
23:58l'intégration des solutions d'IA, et surtout sans compromis de sécurité, dans
24:04les applications métiers, et donc notamment la mise en place d'une API de
24:08RAG en deux appels d'API, pour pousser ces documents, et pour faire la
24:14requête complètement chiffrée, QuantumSafe, etc, et Plug & Play.
24:21Et c'est souverain ? Souverain bien sûr !

Recommandations