Marre de jongler avec les API payantes et les boîtes noires pour tes projets d’agents IA ? Un nouveau monstre open source vient de débarquer, et tu peux le tester gratuitement dès maintenant, sans rien installer.
Le modèle, c’est GLM-5, développé par Z.ai. Et la plateforme qui te le sert sur un plateau, c’est Modal. Leur alliance est un vrai game-changer. Pas juste pour la puissance du modèle, mais surtout pour l’accès ultra-simple qu’il t’offre pour créer des agents complexes.
L’Open Source ne rattrape plus, il te facilite la vie
On connaît tous le dilemme. D’un côté, la simplicité des API propriétaires comme OpenAI ou Anthropic : tu prends une clé, tu fais un appel, ça marche. De l’autre, les modèles open source surpuissants que tu dois te battre à faire tourner sur tes propres machines, si t’as la chance d’avoir le matos.
Ce temps est en train de changer. GLM-5 sur Modal est aussi simple à appeler qu’une API, mais avec la transparence et la flexibilité d’un modèle en poids ouverts (licence MIT, pour les puristes).
Mais le point clé, le truc qui change tout, c’est ça : Modal offre un endpoint public gratuit pour tester GLM-5 jusqu’à fin avril 2026. Oui, tu as bien lu. La barrière à l’entrée pour expérimenter avec un modèle de pointe vient de tomber à zéro.
Soyons clairs : c’est une réponse directe à la domination de ce qui se fait de mieux côté proprio, comme GPT-5.3 ou Claude Opus 4.6. Mais la bataille ne se joue plus seulement sur les benchmarks. Elle se joue sur le terrain de l’expérience développeur.
Pourquoi ce monstre de 700 Go est agile comme une plume sur le cloud
Quand tu entends ~700 Go en 8-bit, tu te dis que c’est mort pour ton PC. Et tu as raison. C’est le genre de modèle qui demande un rack de serveurs, pas un simple GPU.
Alors, comment ils font pour que ça réponde vite ? Grâce à deux optimisations techniques majeures, expliquées sans bullshit :
- Mixture-of-Experts (MoE) : Imagine que le modèle n’est pas un seul gros cerveau, mais une équipe de spécialistes. Quand tu lui poses une question, seul l’expert pertinent pour ta tâche s’active. Ça économise une puissance de calcul folle et ça accélère les choses.
- DeepSeek Sparse Attention : Le modèle ne lit pas chaque mot de ton prompt avec la même intensité. Il apprend à se concentrer sur ce qui est vraiment important. C’est crucial pour les agents qui doivent gérer des contextes très longs, comme lire une doc de 200 pages.
Le rôle de Modal dans tout ça ? C’est eux qui gèrent le cauchemar logistique. Ils font tourner le monstre sur 8 GPU B200 en parallèle. Toi, tu ne vois que le résultat : une réponse qui fuse entre 30 et 75 tokens par seconde. Pas mal pour un modèle de cette taille.
Concrètement, tu le branches où pour commencer à jouer ?
C’est là que ça devient vraiment intéressant. Le point d’entrée le plus simple, c’est que l’API est compatible avec celle d’OpenAI. Tu peux donc tester GLM-5 dans tes scripts existants en changeant juste deux lignes : l’URL de base et la clé.
Voici un exemple en Python pour te montrer à quel point c’est simple :
import os
from openai import OpenAI
# C'est tout ce qui change !
client = OpenAI(
api_key=os.environ.get("MODAL_API_KEY"),
base_url="https://api.modal.com/v1",
)
# Le reste de ton code est identique
completion = client.chat.completions.create(
model="glm/glm-5",
messages=[
{
"role": "system",
"content": "You are a helpful assistant.",
},
{
"role": "user",
"content": "Explique-moi le principe de Mixture-of-Experts (MoE) en 3 phrases.",
},
],
)
print(completion.choices[0].message.content)
Au-delà de tes propres scripts, GLM-5 est déjà prêt à l’emploi dans plusieurs frameworks pour construire des agents autonomes :
- OpenCode : Idéal pour les tâches complexes de génération et de modification de code. Tu changes juste une ligne dans ton fichier de config.
- OpenClaw : Le framework parfait si tu veux construire des agents qui peuvent utiliser des outils externes (API, commandes shell, etc.). C’est le cœur de la promesse pour les agents autonomes.
- Vercel AI SDK : Pour l’intégrer en quelques minutes dans tes applications web Next.js ou React.
Par exemple, pour basculer sur GLM-5 dans un projet OpenCode, ton fichier de config ressemblerait à ça :
# config.yaml
llm:
model: modal/glm/glm-5
api_key: "votre_cle_api_modal"
base_url: "https://api.modal.com/v1"
C’est tout. Tu lances ton agent, et il tourne maintenant avec GLM-5.
On passe de la course aux benchmarks à la course à l’usage
Honnêtement, je pense que ce n’est pas juste une annonce de modèle de plus. C’est le signal que la guerre de l’IA change de terrain.
Jusqu’à maintenant, l’open source passait son temps à prouver qu’il pouvait rivaliser avec les modèles proprios en performance brute, en alignant les scores sur des benchmarks obscurs. Maintenant, il prouve qu’il peut rivaliser en expérience développeur.
La vraie innovation ici, c’est l’alliance d’un modèle de pointe (GLM-5) avec une plateforme « serverless » (Modal) qui rend l’expérimentation et le déploiement triviaux. Fini les galères de `conda`, de drivers CUDA et de VRAM saturée.
Pour toi, ça veut dire une chose : construire des agents IA sophistiqués, capables de lire une doc, d’écrire du code et de le débugger, n’est plus réservé aux entreprises avec des budgets cloud énormes. Le ticket d’entrée pour créer ton propre « Devin » personnel vient de chuter drastiquement.

