GPT-OSS est-il plus lent que Qwen 3 30B ?

Salut à vous tous,

Je rencontre un problème un peu étrange. Depuis des semaines, les gens disent « GPT-OSS est si rapide, si rapide, c’est incroyable », et je suis d’accord, le modèle est formidable.

Mais une chose me dérange ; Qwen 30B A3B est nettement plus rapide de mon côté. Pour contexte, j’utilise une RTX 4070 Ti (12 Go de VRAM) et 32 Go de RAM système à 5600 MHz avec un Ryzen 7 7700X. En ce qui concerne les quantifications, j’utilise le format MFPX4 par défaut pour GPT-OSS et Q4_K_M pour Qwen 3 30B A3B.

Je lance ceux-ci avec presque les mêmes paramètres de ligne de commande (llama-swap en arrière-plan) :

/app/llama-server -hf unsloth/gpt-oss-20b-GGUF:F16 –jinja -ngl 19 -c 8192 -fa on -np 4

/app/llama-server -hf unsloth/Qwen3-30B-A3B-Instruct-2507-GGUF:Q4_K_M –jinja -ngl 26 -c 8192 -fa on -np 4

*(J’ai augmenté -ngl autant que possible jusqu’à ce que cela ne tienne plus – utiliser -ngl 99 ne fonctionnait pas pour moi)*

Qu’est-ce que je manque ? GPT-OSS atteint seulement 25 tok/s les jours meilleurs, alors que Qwen atteint facilement jusqu’à 34,5 tok/s ! J’ai veillé à utiliser les dernières versions lors des tests, donc ce n’est pas ça… le traitement des prompts est approximativement à la même vitesse, avec un léger avantage pour GPT-OSS.

Est-ce que quelqu’un a le même problème ?

8 replies

  1. Ella Merz · 1 week ago

    Comme aucun modèle ne tiendra entièrement sur votre GPU, vous bénéficieriez d’utiliser `–n-cpu-moe`. Définissez `ngl` sur 999, puis réglez le paramètre cpu sur le nombre réel de couches et réduisez ce nombre jusqu’à ce que le modèle ne tienne plus sur votre GPU. Cela accélérera considérablement les choses.

    1. Nicole Powell · 1 week ago

      Cela semble prometteur ! Merci pour l’info, je vais essayer ça tout de suite.

    2. Makoto Iida · 1 week ago

      C’est une excellente suggestion ! En avez-vous pour ces deux-là sur MacBook Pro 32 Go ? J’essaie de rédiger quelques articles sur l’utilisation de RAG.

  2. Jude Schmidt · 1 week ago

    GPT oss 20b compte 3,6 milliards d’actifs tandis que Qwen 30b en compte 3 milliards.

  3. Daphné Pelletier · 4 days ago

    Quel est votre cas d’utilisation pour -np 4 ?

    1. Nicole Powell · 4 days ago

      My main system memory isn’t exactly fast at « only » 5600 MT/s. If too many CPU cores try to access the memory at the same time, the memory controller and RAM bus quickly become overwhelmed and you will face diminishing returns because the bottleneck becomes so bad.

      Thus – at least that’s what I’ve heard – it’s best to keep the number of CPU cores at a reasonable amount and not have all the (in my case 8 / 16 with SMT) cores bang onto the RAM.

  4. Jonathan Roberts · 2 days ago

    Son point est que votre carte l’exécute peut-être en FP16, ce qui était la solution de repli fournie par ollama, du moins

Répondre à Hope Wright Annuler la réponse

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *