Generative APIs

Servez les modèles d'IA les plus récents via une API et payez au million de tokens.

API compatibles avec OpenAI

Intégrez facilement vos outils existants, tels que les bibliothèques OpenAI et les SDK LangChain. Nos API fonctionnent directement avec vos workflows actuels, y compris des adaptateurs pour la génération augmentée par récupération (RAG).

Utilisation économique au token

Optimisez votre budget grâce à un modèle de facturation à l’usage, calculé par million de tokens. Idéale pour des charges de travail variables ou des projets exploratoires.

Test rapide des modèles

Déployez et testez des modèles d’IA en seulement quelques minutes. Notre processus d’intégration simplifié et notre architecture serverless permettent un déploiement instantané, favorisant des itérations rapides et une configuration minimale.

Pour une IA souveraine où vos données restent à vous, et uniquement en Europe.

Tout le nécessaire pour créer des applications avec l'IA générative

: Fournissez des informations actualisées à votre modèle d'IA génératif à l'aide de la technique Retrieval-Augmented Generation (RAG). Récupérez des données à partir de sources de données d'entreprise et à enrichissez vos prompts avec. Vous obtiendrez des réponses plus pertinentes et plus précises.

La RAG est simple avec Scaleway : embeddings, base de données vectorielles, Langchain, voici votre guide étape par étape.

: Un agent est une entité qui agit pour produire un effet spécifique. Lorsqu’un agent est connecté à des systèmes via des API, il peut interagir au sein du système pour exécuter des actions. Scaleway Generative APIs permettent aux modèles d'effectuer des tâches en plusieurs étapes à l'aide des systèmes ou des sources de données de votre organisation. Qu'il s'agisse de répondre aux demandes des clients sur l'état d'une livraison ou de traiter des réservations, ces modèles peuvent bénéficier d'un accès sécurisé à vos services par le biais de fonctions serverless. Un agent autonome interprète la demande de l'utilisateur et déclenche automatiquement les API et les bases de données nécessaires à la réalisation de la tâche.

: Opérer des assistants multimodaux basés sur le langage (copilote, chatbot, etc.): ils comprennent les demandes des utilisateurs, décomposent automatiquement les tâches, engagent un dialogue pour recueillir plus d'informations et augmentent la productivité pour de très nombreuses tâches. Les tâches les plus courantes? Traduire, résumer, analyser, créer..., et bien d'autres encore.

: Les modèles OCR traditionnels ont du mal avec les tâches nécessitant la compréhension à la fois du texte et des visuels, mais les modèles multimodaux vision-langage (VLM) disponibles via Scaleway comblent cette lacune. Les VLM sont parfaits pour des fichiers comme les documents scannés et les diagrammes techniques. Un outil puissant pour le traitement de contenu mixte.

: Analyser des enregistrements d'appels/vidéos en toute sécurité afin d'identifier les besoins, les risques et les sujets clés. Les capacités de synthèse vocale prochainement offertes par APIs, combinées à de puissants LLM, aideront les géants des télécommunications en Europe à améliorer la qualité de leurs services tout en fournissant aux agents du support client des informations extrêmement précieuses.

Prix des modèles

Profitez d'un essai gratuit : chaque nouveau client bénéficie de 1 000 000 tokens gratuits. Vous commencez à payer à partir du 1 000 001ᵉ token.

Model	Type	Input tokens	Output tokens
llama-3.1-8b-instruct	Text generation	€0.20^{/million tokens}	€0.20^{/million tokens}
llama-3.1-70b-instruct	Text generation	€0.90^{/million tokens}	€0.90^{/million tokens}
llama-3.3-70b-instruct	Text generation	€0.90^{/million tokens}	€0.90^{/million tokens}
mistral-nemo-instruct-2407	Text generation	€0.20^{/million tokens}	€0.20^{/million tokens}
qwen2.5-coder-32b-instruct	Code Generation	€0.90^{/million tokens}	€0.90^{/million tokens}
pixtral-12b-2409	Image analysis	€0.20^{/million tokens}	€0.20^{/million tokens}
bge-multilingual-gemma2	Embedding	€0.20^{/million tokens}	N/A
deepseek-r1-distill-llama-70b	Text Generation	€0.90^{/million tokens}	€0.90^{/million tokens}

Accès immédiat aux modèles des principaux laboratoires d'IA

Commencez à utiliser Generative APIs

Une expérience développeur simplifiée, et une IA performante.

Des prix compétitifs

Scaleway offre un studio d'IA compétitif qui vous permet d'expérimenter rapidement différents modèles d'IA. Une fois satisfait des réponses, il suffit d'exporter le code fourni et de reproduire à l'échelle !

Se connecter au bac à sable Generative APIs

Team open weight

Scaleway supporte activement la distribution des meilleurs modèles open weight ou open source, dont les performances en matière de raisonnement et de fonctionnalités rivalisent désormais avec celles de modèles propriétaires tels que GPTx ou Claude.

Voir les modèles supportés

Très faible latence

Les utilisateurs finaux en Europe bénéficient d'un temps de réponse inférieur à 200 ms pour obtenir les premiers tokens, idéal pour des dialogues interactifs et des applications agentiques, même lorsque le contexte est très long.

Envoyez votre première requête API

Outputs structurés

Notre mode JSON ou notre schéma JSON intégrés peuvent transformer les divers résultats non structurés des LLM en données structurées exploitables, particulièrement fiables et lisibles par une machine.

Comment utiliser des outputs structurés

Appels de fonctions

Les modèles d'IA générative servis par Scaleway peuvent se connecter à des outils externes notamment grâce aux Serverless Functions. Intégrez les LLM avec des fonctions personnalisées ou des API, et créez facilement des applications capables de s'interfacer avec des systèmes externes.

Comment utiliser les appels de fonctions

Prêt pour la production

La stack d’inférence de Scaleway fonctionne sur une infrastructure hautement sécurisée et fiable en Europe. Conçue pour soutenir vos prototypes et exécuter votre production, cette stack complète Managed Inference complète les API génératives pour les cas d’usage nécessitant un débit garanti, en offrant une infrastructure dédiée.

Lire nos mesures de sécurité

Voir plus de détails dans la documentation

Conçu pour remplacer directement les API d'OpenAI

# Import modules
from openai import OpenAI
import os

# Initialize the OpenAI client using Scaleway
client = OpenAI(
    api_key=os.environ.get("SCW_API_KEY"),
    base_url='https://api.scaleway.ai/v1' 
)

# Create a chat completion request
completion = client.chat.completions.create(
    messages=[
        {
            'role': 'user',
            'content': 'Sing me a song about Xavier Niel'
        }
    ],
    model='mistral-nemo-instruct-2407'
)

Commencez avec des tutoriels

Comment utiliser les modèles de texteUtilisation de l'API Chat pour générer et manipuler des conversations.
Comment utiliser les modèles d'embeddingUtilisation de l'API Embeddings pour générer des représentations vectorielles de vos données.
Comment créer votre première application RAGRAG étape par étape avec LangChain et Scaleway Generative APIs
Comment traiter les images avec un modèle de visionUtilisation de Pixtral pour des outputs structurés
Comment implémenter des appels de fonctionsConstruire un assistant voyages avec appel de fonctions sur Llama 3.1
Interface intuitive pour mettre fin au shadow ITDéployez Open WebUI pour exploiter de puissants modèles d'IA dans une interface conviviale et auto-hébergée.

Tutorials

Foire aux questions

Qu'est ce que Scaleway Generative APIs ?

Generative APIs est un service donnant accès à des modèles d'IA d'avant-garde, issus de laboratoires de recherche de premier plan, via un simple appel d'API.

Comment puis-je accéder à Scaleway Generative APIs ?

L'accès à ce service est ouvert à tous les clients Scaleway. Vous pouvez accéder aux modèles par le bac à sable en ligne et par API, voir ici le guide d'accès pour commencer rapidement.

Quelle est la tarification de Scaleway Generative APIs ?

Ce service est totalement gratuit pendant son accès bêta. Une fois en disponibilité générale, les APIs seront avec une tarification "pay-as-you-go", c'est à dire payable au tokens, votre consommation sera facturée par million de tokens.

Où sont situés les serveurs d'inférence de Scaleway ?

Nous hébergeons actuellement tous les modèles d'IA dans un centre de données sécurisé situé en France, à Paris uniquement. Cette situation pourrait changer à l'avenir, fonction de vos besoins.

Est-ce que je peux utiliser les librairies d'OpenAI ?

Scaleway vous permet d'effectuer une transition sans couture pour vos applications qui utilisent déjà OpenAI. Vous pouvez utiliser n'importe laquelle des bibliothèques officielles OpenAI, par exemple le client OpenAI Python ou le SDK Azure OpenAI, pour interagir avec les APIs Scaleway. Vous trouverez ici les API et les paramètres pris en charge par ce service.

Quelle est la différence avec Scaleway Managed Inference ?

Scaleway Generative APIs est un service serverless, vous n'avez pas besoin de créer de déploiement sur des GPUs. C'est probablement la façon la plus simple de commencer : Nous avons tout pré-configuré, de sorte que vous ne payez que par millions de tokens consommés, et vous n'attendez pas le démarrage.
Scaleway Managed Inference est destiné à déployer des modèles sélectionnés (ou vos propres modèles issus de Hugging Face), avec la quantification et les instances de votre choix. Vous obtiendrez un débit prévisible, et un niveau de sécurité renforcé : isolation de vos applications dans votre réseau privé, contrôle d'accès par IP...

Ces deux services d'IA proposent des modèles de languages et multimodaux (compréhension d'images), la compatibilité avec OpenAI et des fonctionnalités importantes telles que des outputs structurés.

Quelles sont les limites et les quotas de Generative APIs?

Tout modèle servi via les APIs Génératives de Scaleway est soumis à des limites de :

Tokens par minute ;
Requêtes par minute.

Ajoutez votre carte bancaire et complétez le processus KYC pour bénéficier des limites officielles.
Consultez la documentation dédiée pour en savoir plus.

RAG

Agents autonomes

Assistants virtuels basés sur des LLM

Traitement d'images

Transcription audio (bientôt)