FRnOG 41 - Pierre Guillaume & Philippe Bourcier : Au secours, l'IA m'a tuer

Vidéos des réunions FRnOG

avant-hier

Catégorie

🤖

Technologie

Transcription

Afficher la transcription complète de la vidéo

00:00Bonjour à tous, merci Philippe. Avec Philippe, on vous a préparé une petite

00:05introduction à l'intelligence artificielle. C'est très schématique,

00:09c'est vraiment les fondamentaux de l'IA sur l'aspect théorique et aussi une

00:14petite partie infrastructure juste après. Alors concrètement, avant de

00:19commencer, qu'est-ce que c'est l'intelligence artificielle ?

00:22C'est les basiques. Alors l'intelligence artificielle s'est

00:26découpée en plusieurs sous-domaines. Avant l'arrivée de la vague de l'IA

00:30générative et de chat GPT, on ne parlait pas trop dans le monde de l'IA,

00:36on ne parlait pas trop d'IA, on parlait surtout de machine learning et c'est ce

00:38premier domaine qui existe depuis longtemps.

00:41L'idée du machine learning, c'est qu'on va chercher à construire des modèles

00:47qui vont apprendre à résoudre un problème à partir de la data. Donc on va

00:50avoir de la donnée, il y a différents types d'apprentissage, on va avoir de la

00:53donnée et on va entraîner ces modèles à partir de cette donnée-là.

00:56C'est globalement un modèle, c'est une fonction mathématique avec ce qu'on

01:00appelle des paramètres d'apprentissage qui sont des nombres flottants, des

01:03nombres à virgule et par une succession d'opérations d'algebra linéaire par

01:07exemple, on va obtenir un résultat. Ensuite, on a un sous-domaine du machine

01:11learning qui est le deep learning dans lequel on parle plutôt de réseaux de

01:15neurones, réseaux de neurones profonds. On pourra revenir un peu dessus juste

01:19après et l'idée ici, c'est que ça a surtout trouvé des applications dans le

01:22monde de l'image, de la vidéo, de l'audio, du texte, etc.

01:26On a le domaine du NLP, traitement du langage naturel, où là c'est l'ensemble

01:30des algorithmes qui s'appliquent sur du texte et le croisement de tout ça c'est

01:35les LLM, l'IA générative et l'IA conversationnelle avec ChatGPT, DeepSeek

01:41et tout ce que vous connaissez. Alors dans les LLM, LLM ça veut dire large

01:45language model, les gros modèles de langue, on a aussi un autre type de

01:49modèles qu'on appelle les SLM, les small language model. Alors il n'y a pas

01:54vraiment de distinction précise entre les deux mais les SLM globalement ça

02:00peut tourner sur vos téléphones ou sur vos ordinateurs alors que les LLM ça

02:04tourne plutôt sur sur des serveurs. On vous a mis quelques petits exemples

02:07ici, voilà globalement. Globalement un SLM ça coûte moins cher à faire tourner,

02:17c'est plus spécialisé, ça peut être des modèles spécialisés sur

02:20l'extraction d'informations par exemple, là où des large language model sont plus

02:24gros et plus coûteux à mettre en place.

02:28Je reviens juste avant, le 12B que vous voyez en haut à gauche par exemple,

02:3212B c'est le nombre de paramètres d'apprentissage qu'a votre modèle, donc

02:3612B ça veut dire qu'il a 12 milliards de paramètres d'apprentissage, donc on

02:39est déjà sur des modèles d'une certaine taille.

02:42Alors concrètement, il faut qu'on rentre un peu dans les détails de la théorie,

02:47toute la théorie, alors c'est un peu de géométrie, des vecteurs, mécanisme

02:51d'attention, des layers de réseaux de neurones, et là on peut faire un modèle.

02:55Alors ça paraît complexe comme ça, ça l'est un peu, mais tout vient,

03:00enfin pas vraiment, mais le point de bascule de l'IA générative vient d'un

03:04papier qui s'appelle attention is all you need, fait par google en 2017.

03:09En réalité ils n'ont rien inventé, ils ont surtout rassemblé des briques

03:13technologiques qu'on avait avant, mais les briques technologiques qu'ils ont

03:16mis en lumière via ce papier, c'est ce qu'on appelle les mécanismes d'attention

03:20qui permettent d'indiquer mathématiquement au modèle, dans ce

03:25bloc de texte que je t'envoie au modèle, voilà les mots qui sont

03:29importants. Et sinon on a des couches de réseaux de neurones qui sont des

03:32architectures qui s'inspirent un peu du fonctionnement des neurones du

03:36cerveau humain qui sont liés entre eux avec tout un tas de paramètres

03:39d'apprentissage. Je passe volontairement vite parce qu'on a peu de temps

03:43pour une introduction. Le fonctionnement d'un modèle, très schématiquement, vous

03:47envoyez du texte en input, en entrée, vous avez une liste de layers ici

03:52qu'on appelle transformers-décodeurs puisque ces modèles on appelle ça des

03:56transformers. L'input passe dans une succession de couches comme ça et est

04:03transformé. Chaque mot est découpé, en fait votre texte est découpé en ce qu'on

04:07appelle des tokens qui sont des bouts de mots et chacun chacun de ces bouts de

04:10mots est transformé en vecteur numérique, représentation numérique de

04:14nombres flottants. Et qu'est-ce que ça veut dire ça ? Ces vecteurs c'est

04:18la représentation numérique sémantique de votre token, ça passe dans

04:23une succession d'opérations. On a ensuite une couche ici qui est écrite

04:27dite MLP mais c'est une couche de réseaux de neurones qui à la fin vous

04:31donne une distribution de probabilités. Alors je sais c'est peut-être

04:36difficile à comprendre comme ça mais l'idée c'est que chaque fois que vous

04:40envoyez votre texte et que vous allez essayer de générer un nouveau token ou

04:43un nouveau bout de mot, en fait le modèle va essayer de prédire quel est le

04:47token le plus probable pour la suite. Et donc si le modèle connaît dans son

04:52dictionnaire 200 000 mots, à la fin vous allez avoir un vecteur de taille 200 000

04:56avec à chaque fois une distribution, la probabilité d'apparition de chacun des

04:59tokens. Et donc vous pouvez choisir parmi le ou les plus probable pour faire votre

05:05génération. Globalement ces modèles ils sont très gros, ils sont très durs à

05:12manipuler et donc il y a pas mal d'optimisation qui ont été mises en

05:15place par la communauté et notamment la communauté de l'open source. Et la plus

05:19importante c'est ce qu'on appelle la quantification. Alors on a dit que nos

05:23paramètres d'apprentissage c'est des nombres flottants, historiquement avant

05:26l'ère des gros modèles et de l'IA générative, les modèles stockaient

05:31leurs paramètres d'apprentissage sur des flots de 32, maintenant c'est plutôt des

05:34flots de 16 parce qu'on n'a pas trop de pertes de performance et on

05:39descend même à, on les quantifie sur 8 bits maintenant, voire 4 bits, voire 1,5

05:44bits dans certains cas. Et très souvent on utilise des modèles en intuit

05:50parce qu'on perd pas trop de performance, moins de 1% et on divise quand même la

05:55taille du modèle par 2 par rapport à des flots de 16.

06:00Si vous voulez faire tourner vous-même un modèle dans le cloud,

06:03moi je vous le, enfin sauf cas spécifique, je vous le déconseille, ça coûte très

06:08cher. Pour un petit modèle à 8 bits, donc la MA 3.1 8 bits que vous voyez juste en

06:12haut, c'est un paramètre, c'est un modèle à 8 milliards de paramètres

06:15d'apprentissage, quantifié en Q8, donc sur 8 bits, c'est déjà au moins 8, 9

06:21gigas et c'est un tout petit modèle. Sur un 70 bits en Q4, au moins 40 gigas et sur

06:28un modèle 400 bits de méta, la MA 3.1, on est sur plus de 400 gigas et c'est plus

06:35de 10 000 euros par mois d'infrastructure chez Scaleway par exemple.

06:40Ok, c'est cool tout ça, mais comment on entraîne un modèle ?

06:44Et bien en fait, comment on entraîne un modèle d'IA générative ?

06:48Globalement, la pipeline d'entraînement d'un modèle, elle peut être découpée en

06:51trois parties. La première, ce qu'on appelle le self-supervised learning,

06:57donc l'idée c'est que là, on va passer une grosse quantité de données à notre

07:01modèle, donc l'intégralité des données d'internet, puisque c'est ce qui a été

07:06utilisé par OpenAI et Anthropic par exemple, on passe toute cette data et en

07:11fait le modèle va s'entraîner à prédire le prochain mot à chaque fois,

07:14on va cacher des mots et le modèle va s'entraîner comme ça à prédire les

07:18prochains mots, ça va lui permettre de comprendre la

07:20la sémantique du texte. Ensuite, deuxième étape, on va faire ce

07:24qu'on appelle de l'apprentissage via human feedback, on va demander au modèle

07:29de générer deux outputs et il va y avoir un humain qui va choisir, ok cet

07:33output il est mieux que l'autre. Et ça, c'est ce qui a fait que ChatGPT a aussi

07:39bien marché, parce qu'évidemment plein de gens faisaient du self-supervised

07:42learning avant et RLHF, cette deuxième étape, c'est ça qui a vraiment fait

07:48exploser les performances. Et ensuite, on a une troisième étape de fine tuning,

07:52ici on a une liste de promptes et de réponses et on veut que notre modèle

07:57apprenne à partir des promptes à donner les réponses, c'est ce qui s'appelle le

08:01fine tuning, vous pouvez le faire sur des données propriétaires aussi.

08:05Ok, là c'est une autre petite slide, on peut la passer rapidement, mais pour

08:09montrer le principe de génération, on a du texte en entrée du modèle, il génère

08:13un token, on réinjecte le token généré dans l'entrée et ainsi de suite,

08:17c'est un processus itératif. Ok, ces modèles, c'est cool, c'est

08:24performant, mais il y a plein de limites. La première, c'est que c'est entraîné

08:27uniquement sur des données publiques, donc pas sur vos données propriétaires

08:31privées, c'est d'ailleurs un gros besoin des

08:35providers de modèles. La deuxième problématique, c'est que comme

08:40ça coûte très cher d'entraîner les modèles, en fait, ils

08:44ne sont pas à jour des dernières actualités, en général ça dépend des

08:48modèles, mais ça peut coûter 100 millions de dollars un entraînement d'un

08:51modèle chez OpenAI, et ensuite c'est très gourmand en mémoire GPU, et donc

08:57on n'a pas envie d'entraîner tous les jours des modèles, et c'est là que

08:59rentre en compte ce qu'on appelle le RAG, peut-être que vous en avez déjà

09:02entendu parler, c'est un peu un buzzword en ce moment, c'est pour

09:07Retrieval Augmented Generation, là l'idée elle est très simple, c'est comme le

09:12modèle on ne veut pas l'entraîner tous les jours, et bien on va trouver des

09:15moyens de connecter un modèle à de la donnée, et notamment de la donnée

09:18propriétaire. Comment ça fonctionne ? Vous pouvez globalement séparer en deux

09:22parties la pipeline du RAG, la première si vous avez une base documentaire, ça

09:27peut être des pdf, des documents powerpoint, des docx, peu importe, des

09:32fichiers excel ou des mails, et vous voulez indexer ces documents là, donc

09:37vous allez d'abord les découper en ce qu'on appelle des chunks, c'est des bouts

09:40de documents, chacun des chunks on va calculer ce qu'on appelle un embedding,

09:44c'est le vecteur dont on a parlé juste avant qui est utilisé par ces

09:48modèles, qui est en fait la représentation numérique sémantique d'un bout

09:52de texte, et ensuite on va envoyer ces chunks dans une base de données

09:57vectorielle qui va en fait indexer ces vecteurs par relation de

10:01similarité. Deuxième étape de la pipeline, on a une requête utilisateur, on va

10:07aller chercher dans cette base de données vectorielle les chunks les plus

10:10proches de la requête utilisateur, plus proches sémantiquement, et on va les

10:14injecter dans le contexte du modèle à la volée pour que le modèle ait accès à

10:18l'information et puisse répondre à la question utilisateur. C'est un moyen, ça

10:21paraît simple comme ça, mais il y a plein de petites problématiques que vous

10:25pouvez rencontrer, notamment la gestion de différents types de formats de

10:29fichiers. Et je vais maintenant laisser la main à Philippe pour la suite de la

10:34présentation.

10:42Du coup on va parler du hardware. Sur le hardware, on a

10:50deux types de machines.

10:54On a deux types de configurations de

11:01machines possibles. On a dans du serveur classique, enfin plutôt du 4U parce qu'il

11:06faut il faut de la place, il faut pousser de l'air aussi, du coup on va pouvoir

11:10mettre des cartes PCIe. Donc là, on est sur Nvidia, mais en

11:16gros c'est des cartes sur slot classique en deux dual slots, et puis c'est des

11:23cartes qu'on peut jumeler. Donc vous voyez le petit truc noir là qui brille, ça

11:27c'est ce qu'on appelle des Nvelik. Donc c'est le fameux bus propriétaire

11:32Nvidia, c'est des Lanes PCI Express en gros, mais qui servent à faire communiquer la

11:37RAM entre deux cartes. Je vous expliquerai après à quoi ça sert.

11:42Et puis pour les vrais plus gros joueurs, on va dire, on a le SXM. Dans le monde de

11:51l'OCP, ça existe aussi, ça s'appelle l'OCP OAM, mais Nvidia en fait pas, mais c'est

11:54plutôt pour les pour les successeurs de Nvidia, puisque un jour il y aura d'autres

11:59fabricants qui vont faire des GPU, des NPU en tout cas, qui seront

12:04tout aussi valables. Ça viendra, c'est une histoire de

12:08logiciel essentiellement. Et en fait, c'est quoi

12:14la différence, les SXM ? C'est en gros, on vient intégrer ça. Donc déjà ça se

12:20met que sur des machines dédiées à l'IA, et que sur des serveurs dédiés à l'IA,

12:24donc il y a un connecteur spécial, etc. Et c'est une grappe de 8 GPU

12:31directement qu'on va venir fixer comme ça sur une carte-mère.

12:36Et ce qui est intéressant, c'est que le bus Nvelik est beaucoup plus

12:41performant, et il est aussi entre les huit cartes, alors que le Nvelik

12:44classique, c'est soit deux cartes, soit quatre cartes sur les dernières

12:47versions. Donc du coup, c'est quand même en termes de scalabilité, de

12:51performance, les gens qui font de l'IA vraiment à 100%, ils prennent

12:56ce genre de configuration. Et alors je voulais montrer sur le hardware aussi

12:58cette autre graphe, on va dire, c'est sur la consommation.

13:03Tout le monde fait, la consommation, l'IA, c'est incroyable, ça va être 2% de

13:08l'énergie planétaire, etc. Enfin peu importe, les chiffres sont

13:12complètement sortis du chapeau, concrètement. Ça c'est des chiffres un

13:15petit peu plus crédibles, c'est une étude qui est publiée dans Nature. Et donc ce

13:20qu'on peut voir, c'est que par exemple, le job le plus gourmand en termes de

13:24génération, c'est générer une image. Générer une vidéo, c'est encore plus

13:27courant, vous allez me dire, oui c'est une suite d'images. Et en fait, ça consomme

13:32quoi ? C'est 519 Wh, et ça c'est l'équivalent d'à peu près la

13:38moitié de la batterie d'un de vos PC portables.

13:41C'est ce que dit le graphe. Et si on va, alors là c'est un peu caché, mais en

13:46gros, la génération de textes, donc des choses un peu plus classiques, c'est la

13:50moitié de ça. Et puis si on fait juste la summarisation, par exemple, donc

13:54t'envoies un pas de tes textes, tu veux juste une conclusion ou un truc comme ça,

13:58ça c'est beaucoup beaucoup moins lourd, et donc c'est beaucoup moins gourmand.

14:03Donc voilà, ça c'est la réalité, on va dire, sur la partie consommation.

14:07L'infra-training. Donc on a vu, du coup, c'est le côté

14:14data center, un peu ce que ça donnait. C'est assez marrant, parce

14:20qu'en fait, l'infra-training, c'est beaucoup de réseaux, parce qu'en fait,

14:25il y a une vraie problématique. Donc sur ce graphe, ce qu'on voit, c'est

14:28au milieu, là, on a les GPU, ensuite ça remonte en PCI Express vers le CPU, et là

14:34en haut, on a du réseau. C'est du réseau InfiniBand, ou c'est du réseau Ethernet,

14:38c'est plutôt pour la partie stockage. Et en bas, on a encore du réseau. Et ça, c'est

14:44du réseau propriétaire très spécifique. Alors on a parlé un petit peu tout à

14:48l'heure de la table ronde. En gros, c'est du réseau NVLink avec des

14:52NVSwitch de NVIDIA. Mais si on n'est pas chez NVIDIA, le trigramme

14:59qu'on a utilisé tout à l'heure, je crois c'est PXL, un truc comme ça.

15:05En gros, c'est ce qui sert à désagréger de la RAM dans les super

15:09calculateurs, désagréger la RAM de compute, du storage, tout en ayant des

15:14Lanes PCI Express sur du réseau, sur de la fibre classique. Et donc, ce qu'il

15:22faut comprendre, c'est que ces clusters de calcul d'IA, c'est

15:26vraiment 60% compute. C'est des chiffres à la, c'est moi qui les

15:32ai sortis du chapeau, mais concrètement, il y a quand même une vraie réalité.

15:36C'est vraiment beaucoup de réseaux. Et d'ailleurs, on le voit là, ça c'est une

15:38baie à droite. Donc ici, ce qu'on voit en rouge, c'est la partie fourniture de

15:44puissance, transformation de puissance. C'est en rouge. En vert, ici, c'est la

15:50partie compute. Donc on a en haut et en bas. Et en bleu, là au milieu, ça c'est le

15:54réseau. Donc ça en fait un des réseaux. C'est vraiment très

15:59intense en termes de réseau. Et puis en plus, c'est du 800G, voire du 1TB à 6TB.

16:05C'est du gros réseau.

16:11Encore cinq minutes. Donc du coup, l'infra-différence.

16:18Donc on va avoir une requête.

16:22Oui, c'est l'infra-training. L'infra-différence. La différence, c'est

16:25que c'est beaucoup plus simple. Ça peut, en tout cas. Puisque du coup, on va être

16:30plutôt sur... Donc j'ai une requête, j'ai un serveur. Et là, le game, c'est de faire

16:36tenir ça sur le nombre de GPU qu'on peut faire tenir dans un serveur.

16:39Donc il y a deux stratégies. Il y a deux qui peuvent être adoptées et qui

16:46peuvent même être combinées. Donc la première stratégie, c'est le split

16:49des layers. Donc comme a expliqué Pierre, il y a plein de

16:54layers dans un modèle. Et donc ce qu'on peut faire, c'est on va dire

16:57sur le GPU 1, on va mettre les layers 1 à 15. Et puis sur le GPU 2, on va

17:02mettre les layers 15 à 32. Et du coup, en fait, ce qui va se passer, c'est que

17:07la requête, elle va passer d'abord sur le premier GPU, puis sur le deuxième GPU.

17:10Puis hop, on a une réponse. Donc ça, c'est possible. Ça, c'est ce que j'ai mis en

17:14rouge, là, les petites flèches en rouge. Donc on peut splitter les layers. Puis

17:17alors, on peut splitter sur plein de GPU. Donc c'est un gros, gros modèle de 700

17:20milliards de paramètres. On met 8 GPU et puis on est tranquille.

17:25Donc ça, c'est bien. Par contre, en termes de scalabilité, c'est pas

17:29foufou. C'est pas optimal, on va dire. Parce que du coup, il y a un GPU qui

17:34travaille. Puis après, il y a le suivant. Puis après, il y a le suivant. Donc c'est un peu

17:36dommage. Du coup, il y a un autre moyen. Quand on a des GPU NVIDIA, bon, c'est un peu

17:41le leader et puis un peu le seul du marché aujourd'hui qui peut vraiment

17:46rendre ce service-là. Eh bien, en fait, on peut du coup utiliser NVLink. Donc j'en

17:52ai déjà parlé. Le NVLink, c'est le truc qui permet de relier les GPU entre eux.

17:56Mais du coup, plus par le bus PCI Express, mais par un bus qui est séparé.

18:01Donc d'un côté, le split des layers, ça utilise le bus PCI Express. De l'autre

18:04côté, on peut avoir relié la RAM de chaque GPU à travers le NVLink. Et du

18:09coup, on peut combiner les deux. Du coup, là, j'ai mis en jaune, là, quand on

18:13combine les deux. Si on a 8 GPU dans la machine et que chaque GPU a 141 gigas de

18:20RAM, eh bien, ça fait 1 Tera de capacité d'hébergement d'un modèle.

18:25C'est déjà des très très gros modèles. Donc voilà, ça c'est un peu le

18:30fonctionnement pour la partie inférence. Voilà, du coup, ça c'était un peu le

18:38titre, comment on dit, un peu provoque de la presse. C'était au secours, l'IA

18:45m'a tué. Ben non, vous n'allez pas être remplacés par l'IA. Par contre, vous

18:51allez gagner en productivité sur plein de tâches. Parce que l'IA, dans les

18:54métiers de l'infra, c'est quoi ? C'est la génération automatisée de

18:59configuration, de règles de Firewall. Qui n'est jamais intervenu sur un FreeBSD ?

19:05Salut Pierre ! Et se dire, oh là là, je me souviens plus la syntaxe IPFW. Heureusement,

19:10c'est la meilleure de toutes, mais on est d'accord. Et puis après, on se

19:17retrouve sur un Linux pour IPTables. Et puis après, ah bah tiens, maintenant c'est

19:21NFT. Donc voilà, si on doit jouer comme ça avec plein de Firewall et qu'on

19:28oublie à chaque fois sa syntaxe, franchement, les modèles d'IA sont

19:32parfaits pour faire ça. Je pense à Cloud, mais à plein d'autres, la plupart sont

19:36adaptés. On va pouvoir utiliser ça pour faire de la root cause analysis de

19:41sources uniques ou multiples de logs. Donc typiquement, tu as un crash sur ton

19:46infra et tu as un pipeline de logs qui arrive vers une IA. L'IA va pouvoir te

19:51dire, bon bah là, il y a l'optique, a priori, elle a flanché sur tel routeur, ça a

19:56déclenché tel truc, ça a fait une bascule, tu es en train de saturer tel lien,

20:00fais quelque chose. Et ça c'est cool, parce que ça veut dire potentiellement

20:04moins de réveil aussi la nuit, parce que si tu branches ton monitoring là-dessus,

20:07enfin bref, ça peut être sympa. Et puis l'aide aux supports techniques,

20:12donc ça c'est plus, on parlait du RAG tout à l'heure, quand on combine le RAG

20:16avec un LLM, donc le RAG va chercher l'info, le LLM il recrache l'info de

20:21manière utile pour l'utilisateur, on peut faire des trucs genre des chatbots,

20:25tout ce qui est niveau 1, en gros, du support, tu peux rendre ça à travers un

20:31smart search engine ou un chatbot qui va pouvoir te faire ce service plus

20:38facilement. Le futur,

20:42ah oui, bon il va être l'heure, donc le futur, la fin des GPU, donc en fait

20:50on a beaucoup parlé d'NVIDIA, parce qu'aujourd'hui c'est un peu l'acteur

20:53principal et tu peux pas trop faire sans, mais il y a quand même des acteurs.

20:59Aux Etats-Unis, il y a déjà Cerebras et Grok qui font des choses, qui

21:04fonctionnent, bon le ticket d'entrée c'est 300 000, donc il faut quand même

21:09s'accrocher, mais c'est, et puis c'est des machines un peu spécifiques, Grok eux,

21:14ils ont fait un GPU avec très peu de mémoire et ils en ont fait plein, plein,

21:17plein, plein sur un même silicone et du coup ça fonctionne en parallèle, enfin

21:21c'est très spécial, c'est très propriétaire aussi, donc il faut s'aventurer quoi.

21:26Cerebras, ils font aussi des choses, Edge, ils sortent leur premier silicone je

21:31crois fin de l'année, il va y avoir des français aussi qui font des choses, donc

21:35voilà, la concurrence avance et puis on peut imaginer qu'AMD un jour

21:39réussira à se dépatouiller de son logiciel. Et puis du coup, on a aussi des

21:45meilleurs modèles, donc typiquement, je sais pas si vous avez entendu parler, il

21:49y a Google qui vient de sortir Gemma 3, c'est un modèle 27 milliards qui tutoie

21:54les modèles qui avaient plus de 100 milliards de paramètres, donc d'un côté

22:00on a la loi de Moore qui nous aide tous les jours,

22:02d'autre côté on a aussi la loi du développeur qui fait des meilleurs codes

22:06tous les jours, alors pas dans tous les domaines, mais dans l'IA, c'est

22:10vraiment, on part de loin et on arrive vers de l'optimisation, vous avez entendu

22:14parler de DeepSeek, DeepSeek c'est exactement ça aussi, alors leur

22:17innovation c'était sur justement la rapidité d'entraînement du modèle,

22:21je peux vous parler vite fait d'Inception AI qui fait des DLLM, c'est-à-dire

22:26qu'au lieu de faire du mot à mot, comme on a vu tout à l'heure, eux ils arrivent à

22:30générer comme on génère une image, et donc ton texte il apparaît en une seule

22:35fois, c'est assez bluffant, vous pouvez aller voir sur internet

22:38Inception AI Labs, Inception Labs AI, donc c'est des DLLM, et puis il y a

22:46l'AGI, l'AGI ça c'est un rêve, aujourd'hui on est à peu près au

22:49niveau 3, en gros des IA qui sont à 90% de l'intelligence de n'importe quel

22:56humain, à peu près, mais c'est un peu ça la métrique, c'est un truc que

23:05Google a imaginé, l'AGI, et l'idée c'est de dire en fait plus on va monter

23:11dans les niveaux, plus ça va être bluffant, et au niveau 5, qui est le dernier

23:16niveau, là il y a absolument toujours tout le monde, y compris sur des tâches

23:22où il faut faire quelque chose, donc ce qu'on appelle l'agentique, la partie

23:27agent, et puis alors il y a Yann Lequin, lui il parle plutôt du human level AI,

23:33je vous laisserai aller regarder, mais pour arriver à ce fameux niveau 5, il va

23:38encore se passer pas mal d'années, et donc on est encore tranquille sur pas

23:42mal de tâches, et sinon vas-y je te laisse faire la conclusion.

23:48Merci Philippe, très rapidement, sinon on fait quoi dans la vie ?

23:53Nous on a lancé Vauban, Vauban AI, et l'idée c'est de faciliter

23:58l'intégration des solutions d'IA, et surtout sans compromis de sécurité, dans

24:04les applications métiers, et donc notamment la mise en place d'une API de

24:08RAG en deux appels d'API, pour pousser ces documents, et pour faire la

24:14requête complètement chiffrée, QuantumSafe, etc, et Plug & Play.

24:21Et c'est souverain ? Souverain bien sûr !

Recommandations

24:45

À suivre

FRnOG 41 - (sound fixed) Pierre Beyssac & Bill Woodcock : Centipede-RTK & Millipede: Centimeter-Level Outdoor Geolocation

Vidéos des réunions FRnOG

16:10

FRnOG 41 - Nine : Mais c’est quoi ?

Vidéos des réunions FRnOG

29:07

Adressage et transition IPv6 chez Bouygues Telecom

ARCEP

1:10:13

« Satellites et environnement » / Session 6 (plénière) : quelles solutions techniques pour limiter la multiplication des déchets spatiaux ?

ARCEP

2:20

J'alerte l'Arcep - présentation de la nouvelle version de la plateforme de signalement (février 2021)

ARCEP

15:24

FRnOG 41 - Andrey Slastenov : eBPF in modern networks

Vidéos des réunions FRnOG

15:25

FRnOG 41 - Ashley Stephenson : DDoS - from SYN-flood to HTTP/3

Vidéos des réunions FRnOG

13:28

FRnOG 41 - Charles Huot : Une nouvelle génération de centre de données, les AI infrastructure factory

Vidéos des réunions FRnOG

19:56

FRnOG 41 - Emmanuel Faure : JO PARIS 2024 / Enjeux des Télécommunications

Vidéos des réunions FRnOG

38:29

FRnOG 41 - Table-Ronde : Futur du Transport et de l'Optique ?

Vidéos des réunions FRnOG

13:24

FRnOG 41 - Raoul Sokoudjou : Complémentarité Architecture OTN/Photonique et IP/MPLS

Vidéos des réunions FRnOG

24:45

FRnOG 41 - Pierre Beyssac & Bill Woodcock : Centipede-RTK & Millipede: Centimeter-Level Outdoor Geolocation

Vidéos des réunions FRnOG

15:06

FRnOG 41 - Grégory Perrot : Air Force Wan, le réseau DWDM next gen sur l'infra RTE

Vidéos des réunions FRnOG

17:26

FRnOG 41 - Laurent Guiraud : Increasing Capacity in WDM/OTN Optical Transmission System

Vidéos des réunions FRnOG

15:04

FRnOG 40 - Ionathan Noblins : Introduction aux enjeux de la directive NIS2 pour le secteur des télécommunications

Vidéos des réunions FRnOG

26:56

FRnOG 40 - Gregory Cauchie : Confessions d’un greenwasher

Vidéos des réunions FRnOG

14:45

FRnOG 40 - Jérôme Nicolle : Câbles Sous-Marins dans les Antilles

Vidéos des réunions FRnOG

23:09

FRnOG 40 - Thomas Holterbach : GILL, a new BGP routes collection platform

Vidéos des réunions FRnOG

20:58

FRnOG 40 - Pim van Pelt : VPP: A 100Gbps/100Mpps+ BGP/OSPF router with a single IPv4 address

Vidéos des réunions FRnOG

58:37

FRnOG 40 - Table-Ronde: Défis et Enjeux de l'IA (Infrastructure, Puissance, Souveraineté et Antitrust dans l'Ère des LLMs)

Vidéos des réunions FRnOG

12:51

FRnOG 40 - Olivier Lambert : Plateforme de Virtualisation Open-Source

Vidéos des réunions FRnOG

15:04

FRnOG 40 - Valentin D'Emmanuele : 5G Privée vs Wi-Fi, Révolution de la Connectivité pour les Entreprises

Vidéos des réunions FRnOG

13:43

FRnOG 40 - Thien Duc Nguyen : “Allo, c’est coupé ! Ça remonte quand ?” – ReX d'un incident national

Vidéos des réunions FRnOG

41:09

FRnOG 39 - Table-Ronde - Hardware startups in France, is it even possible ? avec Erfane Arwani (Biomemory), Franscesco Manegatti (NcodIN), Khaled Maalej (Vsora), Philippe Notton (SiPearl), Joel Courtois (P4S)

Vidéos des réunions FRnOG

7:22

FRnOG 39 - Khaled Maalej : Software friendly solution for new levels of supercomputing

Vidéos des réunions FRnOG