• il y a 5 mois
Moshi est la première intelligence artificielle de Kyutai, le laboratoire de recherche lancé par Xavier Niel, Rodolphe Saadé et Eric Schmidt en novembre 2023. Il s’agit du premier modèle capable de répondre à des questions orales en temps réel, avec une rapidité digne d’un être humain. Kyutai devance OpenAI, qui a repoussé la sortie de son ChatGPT Voice à l’automne.
En mai 2024, avec la nouvelle version de ChatGPT Voice alimentée par le modèle GPT-4o, OpenAI présentait au monde la première intelligence artificielle capable d’analyser la voix en temps réel. Plus besoin de transformer un son en un texte écrit (c’est de cette façon que fonctionnent Siri ou Google Assistant), les modèles de demain seront capables de reconnaître directement des bruits et de deviner ce que vous allez dire ensuite, quitte à aller plus vite que le cerveau humain. Pris dans différentes polémiques (dont l’imitation de la voix de Scarlett Johansson), OpenAI a repoussé la sortie du nouveau ChatGPT Voice à l’automne.
Et puis, par surprise le 3 juillet, le laboratoire français Kyutai a dévoilé son propre modèle vocal, baptisé Moshi. Lui aussi peut répondre à la voix en temps réel, grâce à une capacité d’analyse native de la voix. Moshi, qui est un projet open source à but non commercial, est disponible en test sur le site de Kyutai. Pour rappel, il s’agit d’un laboratoire fondé notamment par Xavier Niel, qui rêve de rivaliser avec les géants américains et chinois.
Transcription
00:00Xavier Niel est-il plus fort que Chad GPT ? Alors je sais pas si vous avez déjà entendu parler de Qtie, c'est une entreprise d'intelligence
00:05artificielle créée par le patron de Free, et ils viennent de dévoiler Moshi qui est un assistant vocal capable de répondre à des questions en temps
00:11réel. Vous allez voir c'est hyper impressionnant, je vous laisse écouter cette démo en anglais.
00:25Ce qui est fort avec Moshi est qu'il ne génère pas du texte écrit mais directement du son, ce qui lui permet en fait de
00:29deviner ce que vous allez dire en avance et donc d'anticiper ce qu'il faut répondre.
00:33Il est aussi rapide que le cerveau humain selon son créateur,
00:36c'est bluffant, et comme il génère du son et pas du texte, il est capable d'imiter plus de 70 émotions humaines.
00:41Bon alors bien sûr Moshi ça nous rappelle Chad GPT Voice qui a été annoncé en mai 2024, mais il y a une différence de taille, c'est que
00:47Moshi est déjà disponible, tout le monde peut aller l'essayer sur son téléphone ou sur son ordinateur.
00:50Aujourd'hui il faut être connecté à internet, dans le futur Moshi ça marchera directement
00:54local, vous allez voir que dans tous les cas c'est super rapide même s'il raconte souvent n'importe quoi.
00:57Tout ça pour dire qu'on enterre souvent la France avec l'intelligence artificielle,
01:00mais que Xavier Niel vient de prouver qu'avec tu tailles, on a de quoi rivaliser.

Recommandations