Tarifs | Scaleway

Managed Inference

Choisissez un modèle prêt à l'emploi et obtenez immédiatement un point d'accès dédié pour son inférence. Vous êtes facturé en fonction de l'utilisation du GPU que vous choisissez.

Modèle	Quantization	GPU	Prix	Approx. par mois
Llama3.1-8b-instruct	BF16, FP8	L4-1-24G	€0.93^/heure	~€679^/mois
Llama3.1-70b-instruct	FP8	H100-1-80G	€3.40^/heure	~€2482^/mois
Llama3.1-70b-instruct	BF16, FP8	H100-2-80G	€6.68^/heure	~€4876^/mois
Llama3.1-Nemotron-70b-instruct	FP8	H100-1-80G	€3.40^/heure	~€2482^/mois
Llama3.1-Nemotron-70b-instruct	FP8	H100-2-80G	€6.68^/heure	~€4876^/mois
Mistral-7b-instruct-v0.3	BF16	L4-1-24G	€0.93^/heure	~€679^/mois
Mistral-nemo-instruct-2407	FP8	H100-1-80G	€3.40^/heure	~€2482^/mois
Pixtral-12b-2409	BF16	H100-1-80G	€3.40^/heure	~€2482^/mois
Mixtral-8x7b-instruct-v0.1	FP8	H100-1-80G	€3.40^/heure	~€2482^/mois
Mixtral-8x7b-instruct-v0.1	FP16	H100-2-80G	€6.68^/heure	~€4876^/mois
Molmo-72b-2409	FP8	H100-2-80G	€6.68^/heure	~€4876^/mois
Sentence-t5-xxl	FP32	L4-1-24G	€0.93^/heure	~€679^/mois
BGE-Multilingual-Gemma2	FP32	L4-1-24G	€0.93^/heure	~€679^/mois
Qwen2.5-coder-32b-instruct	INT8	H100-1-80G	€3.40^/heure	~€2482^/mois
Qwen2.5-coder-32b-instruct	INT8	H100-2-80G	€6.68^/heure	~€4876^/mois

Mentions légales

Prix hors taxes
La facturation commence lorsque au moins un point de terminaison dédié est prêt à être utilisé.

Aller à la page produit Créez votre compte

Deployment Tarifs

Managed Inference