ScalewayAller à la connexionAller au contenu principalAller au pied de page

NOUVEAU: Des GPU dédiés avec la gamme Dedibox GPU !

Choisissez parmi des modèles prêts à l’emploi

Qu'est-ce qui accélère l'inférence ? L'optimisation du modèle. C'est pourquoi Scaleway fournit une bibliothèque évolutive de modèles optimisés pour nos GPUs. Des modèles de langage et d’embedding.

Profitez de tokens illimités à un prix prédictible

Quelle que soit votre utilisation, vous payez le même prix -prévisible- pour des tokens illimités. Ce prix dépend de l'infrastructure dédiée qui sert votre modèle et qui est facturée à l'heure.

Utilisez un Cloud Européen complétement sécurisé

Maintenez un contrôle complet sur les données : vos prompts et les réponses ne sont pas stockées, ne peuvent être consultées par Scaleway ou par des tiers. Vos données sont exclusivement les vôtres et restent en Europe !

Modèles de langage et d'embedding open weights

Pixtral-12b-2409

Modèle multimodal capable d'analyser vos images et d'offrir des informations sans compromettre le suivi de vos instructions. Un modèle réalisé par Mistral AI et distribué sous la licence Apache 2.0.

Prix prédictible

Choisissez parmi des modèles optimisés prêts à l'emploi et obtenez immédiatement un point d’accès dédié. Vous êtes facturé en fonction de l'utilisation du type de GPU que vous choisissez.



ModelQuantizationGPUPriceApprox. per month
Llama3.1-8b-instructBF16, FP8L4-1-24G€0.93/heure~€679/mois
Llama3.1-70b-instructFP8H100-1-80G€3.40/heure~€2482/mois
Llama3.1-70b-instructBF16, FP8H100-2-80G€6.68/heure~€4876/mois
Mistral-7b-instruct-v0.3BF16L4-1-24G€0.93/heure~€679/mois
Pixtral-12b-2409BF16H100-1-80G€3.40/heure~€2482/mois
Mistral-nemo-instruct-2407FP8H100-1-80G€3.40/heure~€2482/mois
Mixtral-8x7b-instruct-v0.1FP8H100-1-80G€3.40/heure~€2482/mois
Mixtral-8x7b-instruct-v0.1FP16H100-2-80G€6.68/heure~€4876/mois
BGE-Multilingual-Gemma2FP32L4-1-24G€0.93/heure~€679/mois

Plus de modèles et conditions tarifaires disponibles sur cette page

Bénéficiez d’un écosystème Cloud européen sécurisé

Virtual Private Cloud

Vos LLMs sont accessibles via une connexion sécurisée grâce à un réseau privé régional résilient.

En savoir plus

Access Management

Nous rendons vos accès compatibles avec la gestion des identités et des accès de Scaleway (IAM), afin que vos déploiements soient conformes aux exigences de votre architecture d'entreprise.

En savoir plus

Cockpit

Identifiez les goulots d'étranglement dans vos déploiements, visualisez les demandes d'inférence en temps réel et faites même état de votre consommation d'énergie grâce à l'intégration de solution d'observabilité entièrement managée

En savoir plus

Foire aux questions

Comment lancer ce service?

Vous trouverez ici un guide complet sur le démarrage, y compris des détails sur le déploiement, la sécurité et la facturation.
Si vous avez besoin d'aide supplémentaire, n'hésitez pas à nous contacter via la communauté slack #inference-beta.

Quels sont les protocoles de sécurité de Scaleway pour ses services d'IA ?

Les services d'IA de Scaleway mettent en œuvre des mesures de sécurité robustes pour garantir la confidentialité et l'intégrité des données des clients. Nos mesures et politiques sont publiées dans notre documentation.

Quelle est la compatibilité avec les librairies et APIs OpenAI?

Scaleway vous permet de transitionner simplement toutes vos applications utilisant OpenAI. Vous pouvez utiliser les librairies officielles OpenAI, par exemple le client Python, pour interagir avec vos déploiements de Scaleway Managed Inference. Les APIs et paramètres supportés sont ici.

Quels sont les avantages par rapport aux services de LLM par APIs?
  • Isolation complète des ressources afin de garantir un contrôle maximal pour les applications sensibles.
  • Performances constantes et prévisibles, non affectées par l'activité des autres utilisateurs.
  • Pas de rate limits strictes : l'utilisation est uniquement limitée par la charge que votre déploiement peut supporter.
  • Accès à une plus large gamme de modèles.
  • Plus rentable en cas d'utilisation élevée.
Avez-vous des modèles mutualisés, payables aux tokens consommés?

Managed Inference vous permets de déployer des modèles d'IA sur une infrastructure de production, scalable et sécurisée.

D'autre part, Scaleway propose une offre serverless, avec une sélection de modèles mutualisés tarifés par million de tokens consommés. Découvrez ce service sur la page Generative APIs.

J'ai une demande, où puis-je la partager ?

Faites-nous part des bons et des mauvais côtés de votre expérience ici. Merci !

Commencez avec des tutoriels