Choisissez parmi des modèles prêts à l’emploi
Qu'est-ce qui accélère l'inférence ? L'optimisation du modèle. C'est pourquoi Scaleway fournit une bibliothèque évolutive de modèles optimisés pour nos GPUs. Des modèles de langage et d’embedding.
Servez des modèles d'IA générative et répondez à tous les prompts de vos utilisateurs européens en toute sécurité. Une transition simple depuis OpenAI vers un cloud souverain.
Qu'est-ce qui accélère l'inférence ? L'optimisation du modèle. C'est pourquoi Scaleway fournit une bibliothèque évolutive de modèles optimisés pour nos GPUs. Des modèles de langage et d’embedding.
Quelle que soit votre utilisation, vous payez le même prix -prévisible- pour des tokens illimités. Ce prix dépend de l'infrastructure dédiée qui sert votre modèle et qui est facturée à l'heure.
Maintenez un contrôle complet sur les données : vos prompts et les réponses ne sont pas stockées, ne peuvent être consultées par Scaleway ou par des tiers. Vos données sont exclusivement les vôtres et restent en Europe !
Modèle multimodal capable d'analyser vos images et d'offrir des informations sans compromettre le suivi de vos instructions. Un modèle réalisé par Mistral AI et distribué sous la licence Apache 2.0.
Llama 3.1 de Meta est la dernière itération de la famille Llama en libre accès, conçue pour un déploiement et un développement efficaces sur des GPU plus petits. Les modèles Llama sont adaptés aux dialogues dynamiques et à la génération de texte créatif. Conçu avec les dernières avancées en matière d'efficacité et de scalabilité, il excelle dans les tâches de raisonnement complexe et de codage. Son mécanisme avancé de Grouped-Query Attention assure une puissance de traitement inégalée, en faisant l'outil ultime pour les applications de chat et bien plus encore.
Llama-3.1-70b-instruct de Meta est le modèle le plus puissant de la famille Llama, avec 70 milliards de paramètres pour une génération de texte inégalée. Idéal pour les applications d'IA avancées, il excelle dans les dialogues dynamiques, les raisonnements complexes et les tâches de codage compliquées. Son mécanisme d'attention aux requêtes groupées garantit un traitement efficace, ce qui en fait le meilleur choix pour un déploiement haut de gamme.
Un modèle de 12 milliards de paramètres publié par Mistral AI en collaboration avec Nvidia, et distribué sous la licence Apache 2.0. Nemo offre une très grande fenêtre de context pouvant aller jusqu'à 128k tokens, particulièrement utile pour les applications RAG.
Entraîné sur Nabuchodonosor 2023 de Scaleway, Mixtral-8x7B est un modèle de type Sparse Mixture of Experts génératif de pointe. Il a été travaillé pour surpasser les performances du modèle Llama 2 70B dans une cas d'usage.
Un modèle d’embedding avancé qui traduit les données en vecteurs, capturant les relations complexes pour un meilleur traitement de l'information. Parfait pour mettre en place votre système RAG (Retrieval-Augmented Generation).
Model | Quantization | GPU | Price | Approx. per month |
Llama3.1-8b-instruct | BF16, FP8 | L4-1-24G | €0.93/heure | ~€679/mois |
Llama3.1-70b-instruct | FP8 | H100-1-80G | €3.40/heure | ~€2482/mois |
Llama3.1-70b-instruct | BF16, FP8 | H100-2-80G | €6.68/heure | ~€4876/mois |
Mistral-7b-instruct-v0.3 | BF16 | L4-1-24G | €0.93/heure | ~€679/mois |
Pixtral-12b-2409 | BF16 | H100-1-80G | €3.40/heure | ~€2482/mois |
Mistral-nemo-instruct-2407 | FP8 | H100-1-80G | €3.40/heure | ~€2482/mois |
Mixtral-8x7b-instruct-v0.1 | FP8 | H100-1-80G | €3.40/heure | ~€2482/mois |
Mixtral-8x7b-instruct-v0.1 | FP16 | H100-2-80G | €6.68/heure | ~€4876/mois |
BGE-Multilingual-Gemma2 | FP32 | L4-1-24G | €0.93/heure | ~€679/mois |
Plus de modèles et conditions tarifaires disponibles sur cette page
Vos LLMs sont accessibles via une connexion sécurisée grâce à un réseau privé régional résilient.
Nous rendons vos accès compatibles avec la gestion des identités et des accès de Scaleway (IAM), afin que vos déploiements soient conformes aux exigences de votre architecture d'entreprise.
Identifiez les goulots d'étranglement dans vos déploiements, visualisez les demandes d'inférence en temps réel et faites même état de votre consommation d'énergie grâce à l'intégration de solution d'observabilité entièrement managée
Vous trouverez ici un guide complet sur le démarrage, y compris des détails sur le déploiement, la sécurité et la facturation.
Si vous avez besoin d'aide supplémentaire, n'hésitez pas à nous contacter via la communauté slack #inference-beta.
Les services d'IA de Scaleway mettent en œuvre des mesures de sécurité robustes pour garantir la confidentialité et l'intégrité des données des clients. Nos mesures et politiques sont publiées dans notre documentation.
Scaleway vous permet de transitionner simplement toutes vos applications utilisant OpenAI. Vous pouvez utiliser les librairies officielles OpenAI, par exemple le client Python, pour interagir avec vos déploiements de Scaleway Managed Inference. Les APIs et paramètres supportés sont ici.
Managed Inference vous permets de déployer des modèles d'IA sur une infrastructure de production, scalable et sécurisée.
D'autre part, Scaleway propose une offre serverless, avec une sélection de modèles mutualisés tarifés par million de tokens consommés. Découvrez ce service sur la page Generative APIs.
Faites-nous part des bons et des mauvais côtés de votre expérience ici. Merci !