ScalewayAller à la connexionAller au contenu principalAller au pied de page

Deployment Tarifs

Servez des modèles d'IA générative et répondez aux demandes des consommateurs finaux européens en toute sécurité

Managed Inference

Choisissez un modèle prêt à l'emploi et obtenez immédiatement un point d'accès dédié pour son inférence. Vous êtes facturé en fonction de l'utilisation du GPU que vous choisissez.

ModèleQuantizationGPUPrixApprox. par mois
Llama3.1-8b-instructBF16, FP8L4-1-24G€0.93/heure~€679/mois
Llama3.1-70b-instructFP8H100-1-80G€3.40/heure~€2482/mois
Llama3.1-70b-instructBF16, FP8H100-2-80G€6.68/heure~€4876/mois
Llama3.1-Nemotron-70b-instructFP8H100-1-80G€3.40/heure~€2482/mois
Llama3.1-Nemotron-70b-instructFP8H100-2-80G€6.68/heure~€4876/mois
Mistral-7b-instruct-v0.3BF16L4-1-24G€0.93/heure~€679/mois
Mistral-nemo-instruct-2407FP8H100-1-80G€3.40/heure~€2482/mois
Pixtral-12b-2409BF16H100-1-80G€3.40/heure~€2482/mois
Mixtral-8x7b-instruct-v0.1FP8H100-1-80G€3.40/heure~€2482/mois
Mixtral-8x7b-instruct-v0.1FP16H100-2-80G€6.68/heure~€4876/mois
Molmo-72b-2409FP8H100-2-80G€6.68/heure~€4876/mois
Sentence-t5-xxlFP32L4-1-24G€0.93/heure~€679/mois
BGE-Multilingual-Gemma2FP32L4-1-24G€0.93/heure~€679/mois
Qwen2.5-coder-32b-instructINT8H100-1-80G€3.40/heure~€2482/mois
Qwen2.5-coder-32b-instructINT8H100-2-80G€6.68/heure~€4876/mois
Mentions légales

Prix hors taxes
La facturation commence lorsque au moins un point de terminaison dédié est prêt à être utilisé.