Choisissez parmi les LLM prêts à être servis
Qu'est-ce qui accelère l'inférence ? L'optimisation du modèle d'IA utilisé est un leviers. Pour être utilisé rapidement, un modèle doit être optimisé pour les machines (GPU) qui l'exécutent.
Ce n'est pas toujours une mince affaire, et le processus peut prendre beaucoup de temps. C'est pourquoi Scaleway fournit une bibliothèque de modèles évolutifs, avec des LLM optimisés.