Je trouve peu probable que max soit un modèle entièrement nouveau et plus grand. Ces modèles n’apparaissent pas de nulle part et il n’y a rien de plus grand que gpt-5 puisque Pro n’est qu’un modèle parallélisé. Ce n’est pas non plus simplement une différence de raisonnement puisqu’il possède ses propres paramètres.
Ils ont retiré 5.0 du CLI codex immédiatement et il est donc clair que 5.1 concerne l’économie de calcul et de coûts. Similaire à ce que nous avons vu avec Claude Code.
Ainsi, gpt-5.1-codex est probablement un instantané plus récent de gpt-5-codex mais ils ont été si impressionnés par ses performances qu’ils l’ont quantifié/élagué. La même chose est probablement vraie pour gpt-5.1.
gpt-5-codex était le premier modèle doté de la fonction de raisonnement plus dynamique et je m’attendais à ce que codex 5.1 soit exceptionnel. Sauf qu’il ne l’était vraiment pas pour beaucoup d’entre nous (comme moi). Avec l’élagage, on peut souvent maintenir des scores élevés sur les benchmarks tout en perdant « quelque chose » dans le monde réel. Cela correspond parfaitement, personnellement.
gpt-5.1-codex-max est probablement le véritable gpt-5.1-codex qu’ils peuvent maintenant vendre à un prix plus élevé en raison de la demande croissante et des ressources limitées. Cela explique aussi pourquoi Max n’est même pas plus lent ou quoi que ce soit.

Je teste justement l’API GPT-4 pour un projet perso et le coût devient vite problématique. L’idée d’une version optimisée comme vous le décrivez, avec des modèles plus petits mais ciblés, correspond exactement à mon besoin. Pourquoi ne pas proposer des configurations hybrides où on pourrait mixer manuellement les modèles selon les tâches ? Ça permettrait un contrôle encore plus fin des dépenses.
En tant que dev qui jongle avec plusieurs APIs, l’idée d’une optimisation ciblée sur la réduction des coûts me parle énormément. J’ai justement dû réduire mes appels à l’API ces derniers mois à cause du budget. Votre point sur le fait que ce ne serait pas un modèle entièrement nouveau, mais plutôt une version optimisée, semble logique. Et si, pour les petits projets, on pouvait aussi avoir une option de « crédits mensuels » plutôt qu’un paiement à la requête ?
Je suis justement en train de comparer les coûts d’API pour mon projet de chatbot maison, donc l’idée d’optimisation plutôt que de simple augmentation de taille me parle beaucoup. Votre point sur la réduction potentielle de 30% des coûts d’inférence serait un vrai game-changer pour les petits projets comme le mien. Peut-être qu’on pourrait voir davantage d’outils open-source se concentrer sur ce type d’optimisation fine plutôt que la course aux paramètres ?
Je suis justement en train de comparer les coûts d’API pour un petit projet perso, donc l’idée d’une version optimisée pour réduire la facture de 30% m’intéresse beaucoup. En tant que développeur solo, chaque centime compte sur le long terme. Et si cette optimisation pouvait aussi réduire un peu la latence sur les longs snippets de code, ce serait parfait pour mon workflow.
En tant que dev qui utilise l’API GPT-4 au quotidien, l’idée d’une optimisation ciblée sur la réduction des coûts me parle énormément. J’ai justement dû réduire mes requêtes ce mois-ci à cause du budget. Si la version 5.1 peut vraiment diviser les coûts par deux comme évoqué, ça changerait complètement ma façon de prototyper. Peut-être que l’équipe pourrait prioriser l’optimisation pour les longs contextes de code, c’est là que la facture explose vraiment.