ScalewayAller à la connexionAller au contenu principalAller au pied de page

Nouveau type d’IA

Moshi est un modèle conversationnel (Speech-to-Speech) de nouvelle génération, conçu pour comprendre et répondre de manière fluide et naturelle à des conversations complexes, tout en apportant une expressivité et une spontanéité inédites.
Contrairement aux IA traditionnelles, il offre des interactions vocales instantanées, enrichies d'une synthèse vocale qui ajoute une dimension humaine et émotionnelle à chaque échange.

L’Open Science par Kyutai

Construit par Kyutai, un laboratoire de recherche français dédié à l'IA financé en partie par le fondateur de Scaleway, Moshi s’inscrit dans une démarche d’Open Science. Cette approche permet à la communauté et aux entreprises de tirer parti des dernières avancées en IA, tout en favorisant l'innovation et la personnalisation à grande échelle. Moshi représente le futur des applications conversationnelles, accessible à tous.

Accessible sans effort

Grâce à notre service Managed Inference, déployer Moshi dans l’écosystème Scaleway se fait sans effort. Ce modèle bénéficie d'une isolation complète des calculs d’inférence et du réseau, garantissant des performances optimales indépendamment de l’activité des autres utilisateurs ainsi qu’une confidentialité complète de l’audio. Sans aucune limitation de débit, Moshi est prêt à offrir des interactions vocales dynamiques à tout moment.

Caractéristiques principales

Open Source

L’Open Science est au cœur de la philosophie de Kyutai et Moshi. Vous pouvez explorer l'intégralité de l'article de recherche pour comprendre en profondeur Moshi, et accéder au code source sous licence Apache 2 pour l'inférence. De plus, personnalisez les performances en ajustant vous-même les poids du modèle, disponibles sous licence CC BY 4.0.

Un modele Speech-to-Speech complet

Moshi est un modèle de conversation Speech-to-Speech avancé, qui reçoit la voix de l'utilisateur et génère à la fois du texte et une réponse vocale. Son mécanisme de monologue interne novateur améliore la cohérence et la qualité des discours produits, renforçant sa capacité à raisonner et à répondre avec précision.

Une intonation émotionnelle

Moshi est capable de moduler son intonation pour s’adapter à divers contextes émotionnels. Que vous lui demandiez de vous chuchoter une histoire mystérieuse ou de parler avec l'énergie d'un pirate intrépide, il peut exprimer plus de 92 intonations différentes, ajoutant ainsi une dimension émotionnelle puissante et immersive aux conversations.

Fluide de bout en bout

Moshi s’intègre nativement avec le protocole WebSockets, permettant une gestion en temps réel des entrées et sorties vocales. Cela garantit des interactions naturelles, continues et expressives, sans latence perceptible.

Conçu et entraîné en France

Pour rendre l’entraînement de Moshi possible, Kyutai a utilisé notre supercalculateur Nabu2023. Ce cluster, composé de 1016 GPUs Nvidia H100 (~4 PFLOPS) est hébergé à DC5, reconnu pour son refroidissement performant, dans la région proche de Paris.

Traitement acoustique fin

Le modèle acoustique Mimi, intégré à Moshi, traite l’audio en temps réel à 24 kHz et le réduit à une bande passante de 1,1 kbps, tout en maintenant une latence ultra-faible de 80ms. Malgré ce taux de compression élevé, Mimi surpasse les codecs non-streaming tels que SpeechTokenizer (50 Hz, 4 kbps) et SemantiCodec (50 Hz, 1,3 kbps), offrant une expérience fluide et fidèle.

Un modèle à l’état-de-l’art

Les systèmes actuels de dialogue vocal reposent sur des chaînes de composants indépendants (détection d'activité vocale, reconnaissance vocale, traitement textuel, et synthèse vocale). Cela entraîne une latence de plusieurs secondes et des pertes d'informations non linguistiques, comme les émotions ou les sons non verbaux. De plus, ces systèmes segmentent les dialogues en tours de parole, ignorant les interruptions ou le chevauchement des voix.

L’approche de Kyutai avec Moshi est de résoudre ces problèmes en générant directement du discours (audio et texte) à partir de la parole de l’utilisateur, sans passer par du texte intermédiaire.

Pour cela la voix de l'utilisateur et celle de l'IA sont modélisées séparément, ce qui permet des dialogues plus naturels et dynamiques. Le modèle prédit d'abord le texte, avant de générer les sons, améliorant ainsi la qualité linguistique et permettant une reconnaissance vocale et une synthèse vocale en temps réel. Avec une latence théorique de 160ms, Moshi est le premier modèle de langage vocal en full duplex et en temps réel.

Plongée en profondeur dans Moshi

Un modèle ouvert - la tarification

Trois modèles sont publiés: le codec audio Mimi, ainsi que deux modèles de Moshi pré-entrainés avec voix générées artificiellement: une masculine baptisée Moshiko et une voix synthétique féminine appelée Moshika.

Tous ces modèles ont été publiés sous la licence CC BY 4.0. Cette dernière permet à d'autres de distribuer, fine-tuner, de modifier ces modèles, même à des fins commerciales, à condition qu'ils en attribuent le mérite de la création originale à Kyutai.

ModèleLangues supportéesQuantificationGPUPrix
MoshikoAnglais (M)FP8L4-1-24G0.93€/hour
MoshikoAnglais (M)FP8, BF16H100-1-80G3.40€/hour
MoshikaAnglais (F)FP8L4-1-24G0.93€/hour
MoshikaAnglais (F)FP8, BF16H100-1-80G3.40€/hour

L’article de recherche complet peut également être lu pour tout comprendre de ce modèle et de son entraînement.

Deployer Moshi en 2 etapes

Utilisez nos clients pour interagir avec Moshi

Foire aux questions

Quelles sont les limitations actuelles de Moshi ?

Moshi a une fenêtre contextuelle limitée et les conversations supérieures à 5 minutes seront interrompues. Il dispose également d'une base de connaissances limitée de 2018 à 2023, ce qui peut entraîner des réponses répétitives ou incohérentes lors d'interactions prolongées.

Comment utiliser le service Managed Inference de Scaleway avec Moshi ?

Vous trouverez ici guide complet sur le démarrage , y compris des détails sur le déploiement, la sécurité et la facturation. Si vous avez besoin d'aide supplémentaire, n'hésitez pas à nous contacter via la communauté slack #inference-beta.

Quel est le safety score de Moshi ?

Afin d’évaluer une toxicité lors de la génération de contenu, le benchmark ALERT, de Simone Tedeschi, a été appliqué sur Moshi, le score de Moshi est de 83.05 (Falcon: 88.11, GPT-4: 99.18). Un score plus élevé représente un modèle moins “toxique”.