Pratique · Modèles ouverts

LLM open source : comment ça marche et ce que ça coûte

31 mai 2026 · 8 min de lecture · Mis à jour le 17 juin 2026

Un robot d'IA en équilibre entre une boîte ouverte (engrenages, déverrouillée) et une boîte fermée (cadenas) : le choix entre un modèle open source auto-hébergé et un modèle fermé.

Un LLM open source, c'est un LLM que tu peux télécharger et faire tourner sur ta propre machine, sans payer au token. Mais le coût ne disparaît pas pour autant, il se déplace : certes, il n'y a plus d'abonnement ni de facture à l'usage, mais cela demande une machine suffisamment musclée et un peu d'électricité. Sur certaines tâches ces modèles ouverts rivalisent aujourd'hui avec des modèles fermés de pointe, mais peuvent rester un cran derrière sur d'autres.

« Open source » ou « open weight » ?

Un point vocabulaire d'abord. La plupart des modèles qu'on appelle « open source » sont en réalité open weight, et ce n'est pas la même chose. Pour les modèles open weight, tu récupères les poids (les paramètres entraînés, le résultat de l'entraînement), mais pas les données qui ont servies à cet entraînement ni le code complet qui l'a rendu possible. En somme, tu récupères un produit. Reste que, selon la définition admise pour l'IA open source par l'Open Source Initiative, pour qu'un modèle soit considéré ouvert, il faut aussi des informations détaillées sur les données. Et presque aucun modèle grand public ne passe ce test : Llama, Qwen, DeepSeek ou Mistral diffusent leurs poids, pas leurs données. Les rares modèles vraiment open source (comme OLMo) ne sont pas ceux qui trustent les classements.

Autre nuance, la licence. « Open » ne veut pas dire « tout permis ». Llama sort sous une licence maison : au-delà de 700 millions d'utilisateurs actifs par mois, il faut un accord avec Meta. D'autres (Qwen, Mistral récemment) passent sous des licences plus permissives comme Apache 2.0. Avant de bâtir un produit dessus, lis la licence.

Pour ton usage courant, retiens l'essentiel : tu peux télécharger le modèle, le faire tourner et l'adapter. C'est ça qui change tout par rapport à un modèle fermé.

Les gros modèles ouverts en 2026

Le paysage début 2026 tourne autour de quelques familles.

  • Llama (Meta), la famille qui a popularisé l'open weight.
  • Qwen (Alibaba), solide sur le code et le raisonnement, sous Apache 2.0.
  • DeepSeek, réputé pour un rapport qualité-prix imbattable.
  • Mistral, l'acteur français, apprécié pour des modèles compacts et efficaces.
  • gpt-oss (OpenAI), sortis en août 2025 sous licence Apache 2.0 · ses premiers modèles à poids ouverts depuis GPT-2.

Fait marquant : une bonne partie des meilleurs modèles ouverts viennent aujourd'hui de laboratoires chinois (DeepSeek, Qwen, et d'autres comme GLM ou Kimi).

Détail technique utile, beaucoup de ces modèles sont des MoE (Mixture-of-Experts) : au lieu d'activer tous leurs paramètres à chaque token, ils n'en activent qu'une fraction. Un modèle « de 120 milliards de paramètres » peut donc coûter à faire tourner comme un bien plus petit.

L'écart avec les modèles fermés de pointe s'est nettement réduit sur beaucoup de tâches. Sur les plus difficiles, le haut du panier fermé garde souvent une longueur d'avance, et c'est justement là qu'il faut lire les classements avec prudence (voir La vérité sur les benchmarks LLM).

Est-ce qu'on paie toujours au token ?

Ça dépend d'où tourne le modèle. Un token, c'est l'unité que les LLM facturent : un petit morceau de mot, l'IA découpe tout texte en tokens et compte ce qu'elle lit et écrit. Avec un modèle open source, il y a deux façons de l'utiliser, et une seule fait disparaître cette facture.

Tu l'héberges toi-même, sur ton ordinateur ou sur un serveur que tu loues. Là, pas de prix au token : tu paies la machine et l'électricité, point. Que tu génères un million de mots ou dix, le coût marginal est quasi nul.

Tu passes par l'API d'un hébergeur (DeepSeek, Together, Fireworks, Groq, OpenRouter). Là, tu paies toujours au token, comme avec un modèle fermé. La différence, c'est le prix : servir un modèle ouvert coûte souvent une fraction du tarif d'un modèle fermé de pointe. Pour une grosse charge mensuelle, la même quantité de texte peut passer de l'ordre du millier d'euros à quelques dizaines.

Quelle machine il faut

La contrainte numéro un, c'est la mémoire de la carte graphique (la VRAM). Une règle simple : multiplie le nombre de milliards de paramètres par environ 0,6 pour estimer les Go nécessaires en 4 bits.

Taille du modèleQuantifié 4 bitsPrécision pleine (16 bits)
7-8 milliards~5 Go~14-16 Go
13 milliards~8 Go~26 Go
70 milliards~40 Go~140 Go

Le mot-clé, c'est quantification. Compresser un modèle de 16 à 4 bits divise sa mémoire par trois ou quatre, contre une perte de qualité souvent inférieure à 1 %. C'est ce qui rend l'IA locale possible sur du matériel grand public. Le format le plus courant pour ça s'appelle GGUF.

Concrètement : un modèle de 7 à 8 milliards de paramètres tourne sur une carte graphique de gamer récente. gpt-oss-20b est annoncé pour tenir dans 16 Go de mémoire, soit un bon portable. Les Mac Apple Silicon ont un avantage ici · leur mémoire unifiée permet à un Mac de 32 ou 64 Go de charger des modèles plus gros qu'une carte graphique classique du même budget.

LM Studio, Ollama : en pratique

Faire tourner un modèle en local tient aujourd'hui en une après-midi, pas en un projet d'infrastructure. Deux outils dominent.

  • LM Studio · une application de bureau (Windows, Mac, Linux) avec une interface graphique. Tu cherches un modèle, tu le télécharges, tu discutes avec dans la foulée. Bonus : elle expose un serveur local compatible avec l'API d'OpenAI, donc tes scripts existants marchent en changeant juste l'adresse.
  • Ollama · l'équivalent en ligne de commande, très apprécié des développeurs.

Les deux reposent sur le même moteur sous le capot (llama.cpp) et lisent les modèles au format GGUF. Pour trouver les modèles à télécharger, tu passes presque toujours par le même endroit : Hugging Face.

Hugging Face, le hub

Hugging Face, c'est la plateforme centrale où la communauté partage les modèles ouverts · une sorte de GitHub de l'IA. Elle héberge plus de deux millions de modèles, des jeux de données et des démos, le tout téléchargeable gratuitement.

En pratique, quand LM Studio ou Ollama « télécharge un modèle », il va le chercher là. Hugging Face fournit aussi les bibliothèques de code (comme transformers) qui servent à charger et faire tourner ces modèles quand tu veux mettre les mains dedans.

L'électricité, le vrai coût

Moins cher que tu ne crois à l'usage, plus cher que tu ne crois à l'achat. Une carte graphique grand public consomme quelques centaines de watts quand elle calcule, et le coût électrique d'une réponse se compte en fractions de centime. L'électricité n'est pas ce qui rend l'IA locale chère.

Le vrai coût, c'est le matériel et ton temps. Une carte capable de faire tourner un modèle confortable représente un investissement, et la mise en place demande un peu d'apprentissage. D'où la règle économique simple : l'auto-hébergement ne bat l'API qu'à fort volume et régulier. Pour un usage ponctuel ou en dents de scie, une API revient presque toujours moins cher, parce que tu ne paies que ce que tu consommes au lieu d'amortir une machine.

Ouvert ou fermé : comment trancher

Open weight (auto-hébergé)Modèle fermé (API)
CoûtMatériel + électricité, rien au tokenAu token, zéro matériel
Tes donnéesRestent sur ta machinePartent chez le fournisseur
Capacité de pointeExcellente, parfois un cran derrière sur le plus durEn tête sur les tâches les plus dures
Mise en routeÀ ta chargeImmédiate
ContrôleTotal : version figée, adaptation possibleLe fournisseur décide des mises à jour et des retraits
Hors-ligneOuiNon

Un cas concret. Sophie, chez Maisons&Mobilia, veut classer automatiquement des milliers d'emails clients par type de demande. Tâche répétitive, données sensibles, gros volume : un modèle ouvert auto-hébergé est idéal · les emails ne quittent pas l'entreprise et le coût ne grimpe pas avec le volume. Le même jour, son collègue Antoine doit rédiger une note de synthèse délicate, une seule fois : là, une API de pointe fermée a tout son sens, sans rien installer.

La bonne question n'est pas « lequel est meilleur », mais « lequel pour quelle tâche ».

Aller plus loin

Avant de te fier à un classement qui annonce que tel modèle ouvert « bat » tel modèle fermé, lis La vérité sur les benchmarks LLM : ces scores se manipulent plus facilement qu'on ne le croit. Et si les bases (LLM, token, coût) sont encore floues, la différence entre un chatbot et un agent IA les pose en clair.

Pour manipuler ces notions en français, sans coder, l'app saisir.ai te fait comprendre l'IA par petites touches, cinq minutes par jour.

Questions fréquentes

Un LLM open source, c'est gratuit ?
Le modèle se télécharge gratuitement, et si tu l'héberges toi-même, tu ne paies rien au token. Restent un coût matériel (une carte graphique ou un Mac avec assez de mémoire) et un peu d'électricité. Via l'API d'un hébergeur, tu paies au token, souvent bien moins cher qu'un modèle fermé de pointe.
Quelle config faut-il pour faire tourner un LLM chez soi ?
Pour un modèle de 7 à 8 milliards de paramètres quantifié en 4 bits, environ 5 Go de mémoire vidéo suffisent, soit une carte graphique de gamer récente ou un Mac Apple Silicon. Règle simple : multiplie le nombre de milliards de paramètres par 0,6 pour estimer les Go en 4 bits. Les gros modèles (70 milliards) demandent autour de 40 Go.
Quelle différence entre open source et open weight ?
Open weight veut dire que les poids du modèle sont téléchargeables. Open source au sens strict, selon la définition publiée par l'Open Source Initiative le 28 octobre 2024, exige en plus des informations détaillées sur les données d'entraînement. La plupart des modèles dits « ouverts » (Llama, Qwen, DeepSeek, Mistral) sont en réalité open weight.
Les modèles open source valent-ils les modèles fermés ?
Sur beaucoup de tâches courantes, l'écart s'est fortement réduit en 2025-2026. Sur les tâches les plus difficiles, les modèles fermés de pointe gardent souvent l'avantage. Le bon choix dépend de ta tâche, de ton budget et de tes contraintes de confidentialité.
C'est quoi Hugging Face ?
C'est la plateforme de référence pour partager et télécharger des modèles d'IA ouverts, une sorte de GitHub de l'IA, avec plus de deux millions de modèles, des jeux de données et des outils gratuits. LM Studio et Ollama y récupèrent les modèles que tu installes.

Termes du glossaire