FRnOG 41 - Charles Huot : Une nouvelle génération de centre de données, les AI infrastructure factory
Catégorie
🤖
TechnologieTranscription
00:00Bonsoir ou bonjour, il y a quelques semaines on a annoncé, suite à l'action AI Action Summit qui s'est tenue à Paris,
00:16l'installation en France du plus gros supercalculateur dédié à l'intelligence artificielle déployé par la société Mistral AI.
00:25Il se trouve qu'on a la chance chez Éclairiant d'être le data center qui va accueillir cette machine qui a des proportions inhabituelles.
00:35Et donc l'idée, Philippe m'a demandé de venir faire rapidement une présentation de ce site et de ce que nous faisons.
00:42Donc le site il est situé au sud de Paris, à Bruyères-le-Châtel, à côté d'un endroit où il y a déjà beaucoup de simulations et de gros calculateurs.
00:53Celui de la direction des applications militaires du CEA, celui du très grand centre de calcul de la recherche française et enfin celui du centre commun de recherche technologique.
01:03Donc nous on est dans la même emprise et donc on est au sein d'un parc de 92 hectares juste en face de Terratech.
01:15Le site ressemble, ici c'était le photoshop du centre, au final il ressemble vraiment à ça.
01:22C'est un data center qui est sans mur, sans béton et où les calculateurs vont être déployés sur des plateformes extérieures dans des modules.
01:34C'est la même technologie qui est utilisée aujourd'hui pour déployer la machine exasquelle allemande U-Leash, la machine Jupiter qui est le premier exasquelle européen.
01:44C'est la même technologie qui est utilisée également par le CEA pour la direction des applications militaires.
01:49L'intérêt étant de fournir une grande modularité dans la mise à disposition d'infrastructures pour accueillir ces machines très particulières.
02:00Le site a une cible de 100 mégawatts, la machine de Mistral elle seule en fait 40.
02:10C'est un site qui est souverain dans le sens où l'ensemble des infrastructures ont été financées par de l'argent privé d'entreprises françaises.
02:17Il est naturellement sécurisé, peut-être pas autant que les sites de Cherteuil mais en tous les cas, raisonnablement.
02:27Et naturellement comme tous les nouveaux centres d'hébergement qui sortent aujourd'hui, ils doivent minimiser leur empreinte RSE.
02:37On a beaucoup travaillé sur ce sujet-là et pour un sujet qui vous concerne peut-être plus précisément,
02:44on a travaillé avec une entreprise de votre association pour s'assurer que le centre était bien connecté par 4 fibres 72 paires.
02:55D'un côté chez Telehaus à Manilamo et de l'autre chez Data4 à Marcoussis.
03:02La particularité de ce centre c'est que tous les équipements techniques, que ce soit l'électricité pour la transformation électrique,
03:11que ce soit les groupes froids, que ce soit les groupes électrogènes ou les modules pour l'informatique, tout est livré en container.
03:18C'est livré par camion et c'est posé sur la plateforme.
03:22Ici on a un exemple de la partie électrique, puissance électrique.
03:27Au-delà des alimentations qui sont livrées par Enedis de 2 fois 20 MW et ensuite des alimentations qui seront livrées par RTE en début 2027 de 60 MW supplémentaires,
03:40on a une série de groupes électrogènes, on en a 8 pour un total de 20 MW.
03:50La particularité de ces machines-là c'est qu'on ne peut pas les comparer à des machines traditionnelles de gestion pour lesquelles la notion de redondance est fondamentale.
04:00Ici si un cluster de calcul s'arrête, pendant une heure on va perdre le cluster de calcul proprement dit,
04:09mais il suffit de sauvegarder la partie data, la partie réseau et la partie administration pour pouvoir relancer la machine.
04:16Donc on n'a pas cette obsession du niveau de tiering, en tous les cas ce n'est pas la même chose.
04:20Imaginez que sur des machines, tout à l'heure quelqu'un a évoqué la machine XCRI de 100 000 GPU,
04:26c'est une machine qui va consommer à peu près de 250 MW, imaginez s'il faut tout redonder, tout sauvegarder avec des batteries.
04:36Là il y a un vrai travail qui est fait auprès des utilisateurs de ce genre de machines pour réfléchir à une autre façon de mesurer la redondance.
04:46Après ces machines sont particulières, dans un datacenter traditionnel, celui que vous utilisez dans les télécoms notamment,
04:54vous avez des machines avec des baies qui vont faire entre 2 et 5 kW à la baie, peut être dans certains cas un peu plus, mais ça reste raisonnable.
05:04Aujourd'hui sur la machine Mistral, la baie fait 150 kW, c'est 20 à 30 fois plus que ce qu'on trouve dans un datacenter traditionnel.
05:13A l'occasion des annonces qui ont été faites par Jensen Young la semaine dernière à Saint-José,
05:18il prévoit que les nouvelles baies de chez NVIDIA vont faire 300 kW et on espère atteindre les 1 MW à la baie un peu après 2030.
05:30Je vous garantis que 150 kW à la baie, ça chauffe.
05:38On ne va donc pas refroidir de la même manière ces équipements, on va les refroidir avec des systèmes qui s'appellent en l'occurrence sur cette machine là du DLC,
05:51en direct liquid cooling, où on va pouvoir utiliser un peu comme le radiateur de votre voiture,
05:57un système où on va pouvoir pulser de l'air avec des ventilateurs à la sortie des racks.
06:03Il se trouve que sur cette machine là, on a en plus des racks réseau qui sont très gros,
06:12on a des racks réseau qui sont à plus de 30 kW à la baie,
06:15et donc on est obligé, derrière chacun des racks, de mettre des portes froides pour extraire toute la chaleur qu'on n'a pas pu extraire en DLC.
06:24La machine qui est déployée, c'est une machine DEL, donc il y a plusieurs centaines de racks DEL qui vont être déployés,
06:32et le ratio entre ce qu'on peut extraire comme froid avec le DLC et ce qu'on peut extraire avec le reste de clim est de l'ordre de 85-85-15,
06:42donc il y a quand même besoin d'extraire de la chaleur avec des compresseurs.
06:48Sinon, le centre se déploie comme un Lego, on a des plateformes, on n'a pas de contraintes de murs, on n'a pas de contraintes de passages,
07:01le site est sur deux niveaux, donc les plateformes sur lesquelles on va poser l'IT sont à grosso modo à 3,5 mètres,
07:08et donc on va pouvoir déposer notre compute, notre partie admin ici dans des couleurs différentes,
07:14la partie UPS et logistique pour toute la partie mise en place des racks avant de les mettre dans la partie compute,
07:22et on voit que l'espace cooling est à peu près aussi important que tout le reste,
07:26ça c'est aussi une particularité de ces systèmes là, la partie informatique aujourd'hui représente à peine un tiers de la surface du centre,
07:36alors que dans un datacenter traditionnel la surface dédiée à l'IT c'est à peu près de l'ordre de 80%,
07:41ici 30% est dédiée à l'IT, 30 à 40% est dédiée au refroidissement, et à peu près 30% est dédiée à la partie transformation électrique et batterie.
07:53Ces proportions vont encore changer, au fur et à mesure la partie IT va diminuer,
08:00la partie la plus difficile à faire diminuer c'est le cooling, parce qu'il nous faut des espaces d'échanges thermiques qui soient importants,
08:07et donc on pense qu'à l'avenir la proportion sera plutôt 15% de l'IT, 35% de transformation électrique, et 50% pour la partie refroidissement.
08:19Ici on peut un peu détailler l'aménagement, on voit les tours aéroprégirantes, les groupes froids d'un côté,
08:29et donc c'est assez facile de déployer ces infrastructures, ce qu'on sait c'est que chaque machine de calcul sera différente d'une autre,
08:38donc il faut se garder cette flexibilité, et encore même pour une machine équivalente, lorsqu'on est chez un constructeur ou sans un autre,
08:44c'est très complexe, entre les premiers schémas qu'on a dessinés un peu après l'été, et les schémas de ce qui va être déployé dans le courant du mois de juin,
08:55sur la plateforme pour Mistral, les racks ont gagné 3,5 mètres, dans un centre classique, vous n'auriez pas pu casser les murs, etc.
09:10Ici on a eu de la chance, pourquoi Mistral est arrivé chez nous ? Parce qu'on était le seul centre aujourd'hui disponible en Europe, en tout cas en France,
09:18sur lequel on pouvait acquérir une machine de cette puissance dans le temps et dans les délais qui étaient impartis.
09:25Après les modules, le concept de modularité se déploie complètement, et en fonction de la taille, on va choisir, on fait fabriquer les modules sur mesure,
09:36et on va les accoupler les uns aux autres, de façon à ce qu'on puisse facilement prestager les choses en usine, et venir rapidement déployer.
09:46Ici on va déployer les 70 modules que constitue finalement le centre, la partie de cette machine, ça va être déployé en moins d'un mois.
09:55Encore une fois, quelques éléments capacitaires, des capacités d'hébergement qui aujourd'hui vont jusqu'à 200 kW à la baie,
10:06puissance totale de 100 MW répartie sur 4 plateformes de 2500 m² chacune, on peut refroidir à l'air, à l'huile, par immersion, on peut refroidir en DLC,
10:19ça aussi, on n'est pas capable aujourd'hui de savoir comment les systèmes seront produits dans 3 ans, dans 5 ans, donc on ne veut pas s'enfermer dans une techno particulière,
10:29il faut rester ouvert, et la notion de module est ce qui nous intéresse le plus.
10:35La connectivité, j'en ai parlé, on a fait tirer 39 km de câbles de fibres par SIPARTECH et 39 km par SFR pour se connecter à TELEHOUSE3,
10:47on a fait tirer 2 fois 10 km toujours par SFR et par SIPARTECH vers Manilamo et Data4,
10:54nous ne choisissons pas l'opérateur pour le compte, c'est MISRA qui choisira quel opérateur va opérer ces fibres noires.
11:03Au final, ça donne quelque chose qui ressemble pratiquement à ça, on est en extérieur, au milieu d'une forêt et on voit la partie couverte, c'est la partie purement Haïti,
11:15et on a la partie refroidissement, en dessous de cet espace là, on a toute la partie de transformation électrique.
11:22Au total, la partie Haïti est sur 2500 m², à côté on a le froid sur à peu près autant de surface,
11:30et en dessous de la partie froide, c'est tout ce qui est pompe et distribution d'eau chaude et d'eau froide,
11:38et sous la partie Haïti, il y a tous les aspects qui sont liés à la transformation électrique sur aussi 2500 m².
11:46On travaille de façon très proche des fabricants, à la fois d'équipements qui nous permettent de déployer l'infrastructure pour le froid, pour l'électricité, etc.
11:58Et on travaille de façon proche aussi des fabricants des ordinateurs et des fabricants de chips, que ce soit Dell ou Nvidia,
12:04parce qu'à chaque fois on est sur des formules 1, c'est du spécifique, et donc il se trouve qu'on a la chance que notre centre s'adapte bien à ça.
12:14Avec 40 MW de calcul, on a rempli le centre pour les trois prochaines années, donc on attend l'arrivée maintenant des 60 MW supplémentaires d'RTE en 2027
12:24pour pouvoir exploiter l'autre partie du centre, et en attendant on déploie un nouveau centre dans la Sarthe,
12:31où là on se déploie dans une ancienne usine qui était en dépôt de bilan, une ancienne usine de papeterie,
12:40donc là c'est un rétrofit industriel, et l'intérêt c'est que pour nous on a déjà les alimentations électriques, les lignes RTE qui sont déjà tirées sur place,
12:49il ne s'agit plus maintenant que de les réactiver, et donc là on va déployer à partir de janvier 2026 un premier ensemble de 30 MW,
12:58et puis 30 supplémentaires d'ici la fin de l'année 2026 pour une cible qui sera à 120 MW.
13:06C'est des chiffres qui sont très importants, mais qui correspondent aujourd'hui aux demandes que nous avons pour les sociétés qui veulent déployer,
13:16notamment les cloud service providers qui déploient ces grosses infrastructures où on parle de milliers ou de dizaines de milliers de GPU.
13:23Voilà, merci de votre attention.