Managed Inference
Choisissez un modèle prêt à l'emploi et obtenez immédiatement un point d'accès dédié pour son inférence. Vous êtes facturé en fonction de l'utilisation du GPU que vous choisissez.
Modèle | Quantization | GPU | Prix | Approx. par mois |
---|---|---|---|---|
Llama3.1-8b-instruct | BF16, FP8 | L4-1-24G | €0.93/heure | ~€679/mois |
Llama3.1-70b-instruct | FP8 | H100-1-80G | €3.40/heure | ~€2482/mois |
Llama3.1-70b-instruct | BF16, FP8 | H100-2-80G | €6.68/heure | ~€4876/mois |
Llama3.1-Nemotron-70b-instruct | FP8 | H100-1-80G | €3.40/heure | ~€2482/mois |
Llama3.1-Nemotron-70b-instruct | FP8 | H100-2-80G | €6.68/heure | ~€4876/mois |
Mistral-7b-instruct-v0.3 | BF16 | L4-1-24G | €0.93/heure | ~€679/mois |
Mistral-nemo-instruct-2407 | FP8 | H100-1-80G | €3.40/heure | ~€2482/mois |
Pixtral-12b-2409 | BF16 | H100-1-80G | €3.40/heure | ~€2482/mois |
Mixtral-8x7b-instruct-v0.1 | FP8 | H100-1-80G | €3.40/heure | ~€2482/mois |
Mixtral-8x7b-instruct-v0.1 | FP16 | H100-2-80G | €6.68/heure | ~€4876/mois |
Molmo-72b-2409 | FP8 | H100-2-80G | €6.68/heure | ~€4876/mois |
Sentence-t5-xxl | FP32 | L4-1-24G | €0.93/heure | ~€679/mois |
BGE-Multilingual-Gemma2 | FP32 | L4-1-24G | €0.93/heure | ~€679/mois |
Qwen2.5-coder-32b-instruct | INT8 | H100-1-80G | €3.40/heure | ~€2482/mois |
Qwen2.5-coder-32b-instruct | INT8 | H100-2-80G | €6.68/heure | ~€4876/mois |
Mentions légales
Prix hors taxes
La facturation commence lorsque au moins un point de terminaison dédié est prêt à être utilisé.