ScalewayAller à la connexionAller au contenu principalAller au pied de page

L'inférence IA : scalabilité et une agilité renforcées

Déployez votre infrastructure d'IA managées avec des GPU dédiés et des modèles optimisés.
Grâce à des GPU dédiés hautes performances, vous accélérez le traitement de vos workloads IA intensifs et traitements complexes, tout en réduisant vos coûts. Bénéficiez de résultats plus rapides et plus précis, tout en optimisant la gestion de vos applications critiques.

Déployez des modèles optimisés – dont le vôtre

Choisissez parmi une bibliothèque de modèles comprenant des LLM quantifiés, des vLM, des embeddings et bien d'autres, ou, prochainement, déployez votre propre modèle (par exemple, Hugging Face). Évitez la complexité de la quantification des poids ouverts et profitez d'une inférence efficace.

Débit garanti avec des instances dédiées

L'infrastructure GPU dédiée garantit des performances constantes et prévisibles, avec des tokens illimités à un tarif horaire fixe. Cette architecture assure des vitesses d'inférence stables, essentielles pour des applications sensibles à la latence, comme les chatbots.

Réseau privé sécurisé dans un cloud européen

Accédez à vos points de terminaison IA via une connexion privée et à faible latence au sein du réseau privé virtuel (VPC) de Scaleway. La souveraineté des données est garantie : vos requêtes et réponses restent privées, exclusivement stockées en Europe, et inaccessibles à des tiers.

Modèles de langage et d'embedding open weights

Pixtral-12b-2409

Modèle multimodal capable d'analyser vos images et d'offrir des informations sans compromettre le suivi de vos instructions. Un modèle réalisé par Mistral AI et distribué sous la licence Apache 2.0.

Prix prédictible

Choisissez parmi des modèles optimisés prêts à l'emploi et obtenez immédiatement un point d’accès dédié. Vous êtes facturé en fonction de l'utilisation du type de GPU que vous choisissez.



ModelQuantizationGPUPriceApprox. per month
Llama3.1-8b-instructBF16, FP8L4-1-24G€0.93/heure~€679/mois
Llama3.1-70b-instructFP8H100-1-80G€3.40/heure~€2482/mois
Llama3.1-70b-instructBF16, FP8H100-2-80G€6.68/heure~€4876/mois
Mistral-7b-instruct-v0.3BF16L4-1-24G€0.93/heure~€679/mois
Pixtral-12b-2409BF16H100-1-80G€3.40/heure~€2482/mois
Mistral-nemo-instruct-2407FP8H100-1-80G€3.40/heure~€2482/mois
BGE-Multilingual-Gemma2FP32L4-1-24G€0.93/heure~€679/mois
Qwen2.5-coder-32b-instructINT8H100-1-80G€3.40/heure~€2482/mois

Plus de modèles et conditions tarifaires disponibles sur cette page

Bénéficiez d’un écosystème Cloud européen sécurisé

Virtual Private Cloud

Vos LLMs sont accessibles via une connexion sécurisée grâce à un réseau privé régional résilient.

En savoir plus

Access Management

Nous rendons vos accès compatibles avec la gestion des identités et des accès de Scaleway (IAM), afin que vos déploiements soient conformes aux exigences de votre architecture d'entreprise.

En savoir plus

Cockpit

Identifiez les goulots d'étranglement dans vos déploiements, visualisez les demandes d'inférence en temps réel et faites même état de votre consommation d'énergie grâce à l'intégration de solution d'observabilité entièrement managée

En savoir plus

Foire aux questions

Comment lancer ce service?

Vous trouverez ici un guide complet sur le démarrage, y compris des détails sur le déploiement, la sécurité et la facturation.
Si vous avez besoin d'aide supplémentaire, n'hésitez pas à nous contacter via la communauté slack #inference-beta.

Quels sont les protocoles de sécurité de Scaleway pour ses services d'IA ?

Les services d'IA de Scaleway mettent en œuvre des mesures de sécurité robustes pour garantir la confidentialité et l'intégrité des données des clients. Nos mesures et politiques sont publiées dans notre documentation.

Quelle est la compatibilité avec les librairies et APIs OpenAI?

Scaleway vous permet de transitionner simplement toutes vos applications utilisant OpenAI. Vous pouvez utiliser les librairies officielles OpenAI, par exemple le client Python, pour interagir avec vos déploiements de Scaleway Managed Inference. Les APIs et paramètres supportés sont ici.

Quels sont les avantages par rapport aux services de LLM par APIs?
  • Isolation complète des ressources afin de garantir un contrôle maximal pour les applications sensibles.
  • Performances constantes et prévisibles, non affectées par l'activité des autres utilisateurs.
  • Pas de rate limits strictes : l'utilisation est uniquement limitée par la charge que votre déploiement peut supporter.
  • Accès à une plus large gamme de modèles.
  • Plus rentable en cas d'utilisation élevée.
Avez-vous des modèles mutualisés, payables aux tokens consommés?

Managed Inference vous permets de déployer des modèles d'IA sur une infrastructure de production, scalable et sécurisée.

D'autre part, Scaleway propose une offre serverless, avec une sélection de modèles mutualisés tarifés par million de tokens consommés. Découvrez ce service sur la page Generative APIs.

J'ai une demande, où puis-je la partager ?

Faites-nous part des bons et des mauvais côtés de votre expérience ici. Merci !

Quels sont les différents types d'inférences IA ?

Deux grandes catégories d'inférence se distinguent dans le domaine de l'intelligence artificielle.

  • L'inférence déductive applique des règles générales pour aboutir à des conclusions spécifiques, comme un système expert médical qui diagnostique une pathologie à partir de symptômes.
  • L'inférence inductive, quant à elle, fonctionne à l'inverse en déduisant des principes généraux à partir d'observations particulières. Un réseau neuronal qui apprend à reconnaître des visages après avoir analysé des milliers de photos représente un excellent exemple.

Ces deux approches se déclinent selon différents modes de déploiement : l'inférence par lots pour traiter de grands volumes de données, et l'inférence en temps réel pour des applications nécessitant des réponses instantanées, comme les véhicules autonomes.

Commencez avec des tutoriels