Je semble ne pas être tout à fait capable de faire correspondre la sortie du modèle GLM 4.5 Air entre ce qui s’exécute sur [chat.z.ai/bigmodel.cn](http://chat.z.ai/bigmodel.cn) et ma configuration locale avec 4x RTX3090 vllm/llama.cpp. J’ai essayé cpatonn/GLM-4.5-Air-AWQ-4bit, QuantTrio/GLM-4.5-Air-AWQ-FP16Mix, unsloth/GLM-4.5-Air-GGUF (q4_k_m, ud-q4_k_xl, ud-q5_k_xl, ud-q6_k_xl) – tous sous les paramètres par défaut du « sampler » normal et la température suggérée de 0.7). Un prompt très évident est simplement cette courte question :
\> Comment benchmarker la perplexité avec llama.cpp ?
Sur ma configuration locale, cela entraîne beaucoup de problèmes d’attention (exemple : [https://pastebin.com/yaNdWNFb](https://pastebin.com/yaNdWNFb), plus de 200 lignes, souvent plus de 2000 tokens), chaque tentative sur l’une ou l’autre des quantifications testées, ainsi que sur vllm (quantifications AWQ) et llama.cpp (quantifications GGUF). Sur zai/bigmodel, le prompt entraîne à chaque tentative une réponse concise (voir : [https://pastebin.com/9GSyR1Dz](https://pastebin.com/9GSyR1Dz), moins de 60 lignes, jamais plus de 2000 tokens).
Très apprécié, si quelqu’un qui exécute également GLM 4.5 Air localement pourrait essayer ce prompt et signaler si la sortie est similaire à celle de zai/bigmodel, ou comme celle que j’obtiens. Si elle est similaire à celle de zai/bigmodel, veuillez partager les détails de votre configuration locale (matériel d’inférence, pilotes, moteur d’inférence, versions, arguments, modèle utilisé incluant la quantification, etc.). Merci beaucoup !
btw : avoir un problème étrange supplémentaire avec vllm et les requêtes concurrentes ; semble-t-il uniquement avec les quantifications GLM 4.5 Air et uniquement si plusieurs requêtes s’exécutent simultanément, je finis par avoir des réponses comme celle-ci :
>
Cela sans parseur de raisonnement, juste pour rendre plus visible que le modèle échoue à produire la balise de fermeture et continue simplement au milieu de la pensée avec le contenu du message « Hello! … ». Si le parseur de raisonnement glm45 est utilisé, il se confond également, c’est-à-dire que le contenu du message se retrouve dans le reasoning_content et le contenu du message est vide.
/edit : ajout d’informations sur mon environnement :
\- pilote : 550.163.01 (bien que j’aie essayé jusqu’à 580.x ; aucune différence)
\- CUDA : 12.4 (j’ai essayé 12.6, 12.8)
\- version de vllm : 0.10.1.dev619+gb4b78d631.precompiled (ce que vous obtenez via git clone, en utilisant des roues précompilées, contient les derniers commits depuis environ un jour)
\- version du serveur llama.cpp : 4198 (fee824a1), une compilation récente à partir de l’état du dépôt git d’hier.
\- interface : openweb-ui, serveur llama.cpp, bibliothèque python openai (pour un contrôle maximal sur le prompt)
\- arguments de ligne de commande pertinents :
\* vllm (QuantTrio/GLM-4.5-Air-AWQ-FP16Mix) : –tensor-parallel-size 4 –reasoning-parser glm45 –enable-auto-tool-choice –tool-call-parser glm45 –max-model-len 64000 –served-model-name glm4.5-air-awq –enable-expert-parallel
\* vllm (cpatonn/GLM-4.5-Air-AWQ-4bit) : –tensor-parallel-size 2 –pipeline-parallel-size 2 –port 8456 — reasoning-parser glm45 –enable-auto-tool-choice –tool-call-parser glm45 –max-model-len 64000 –served-model-name glm4.5-air-awq –enable-expert-parallel –dtype float16
\* llama.cpp : -ngl 99 –ctx-size 65536 –temp 0.6 –top-p 1.0 –top-k 40 –min-p 0.05 -fa –jinja
En outre, je tenais à mentionner que j’utilise la version vllm qui a été référencée sur leur GitHub