Ajusté et construit vLLM dedans, déployé qwen3 30b 2507 FP8 avec CTX maximisé. RDNA 4 (gfx1201) enfin qui utilise un peu ces cœurs Matrix !!
Des résultats incroyables.
Jusqu’à 11500 vitesses de traitement de prompt.
Stable entre 3500-5000 pour les grands contextes (> 30000 jetons d’entrée, ne chute pas beaucoup, a déjà traité environ un workflow agissant de 240k CTX).
Testé par :
– importer toute la page wiki de Magnus Carlson et regarder les journaux et demander un résumé.
– Convertir un grand document en une seule page en documents GitHub pages dans le dossier /docs. Tous les liens fonctionnent sans problème.
Les appels d’outils Cline ne plantent plus jamais.
Ajouter RAG et connaissance graphique fonctionne magnifiquement.
C’est vraiment plus rapide que certaines services de pointe (enfin) pour les travaux agissants.
Le seul inconvénient du conteneur 7 est que la vitesse de génération est un peu plus lente. Vulkan vs rocM 7, j’obtiens environ 68tps contre environ 50 TPS respectivement, toutefois la version rocM peut maintenir une taille de CTX de 90000 et Vulkan absolument pas.
9950x3d
2×64 6400c36
2x AI Pro R9700
Parallélisme des tenseurs 2
… et toujours pas de support AMD Strix Halo pour vllm.
Combien de VRAM utilise le FP8 ?
avec ce modèle ~ 29,5 pour les couches
Alors, une seule r9700 suffit ? Je souhaite améliorer ma 7900xtx, mais il semble que les cartes CDNA soient la solution à privilégier.
Non, si vous voulez une taille de contexte utile, une seule carte ne suffit pas. Il faut que le modèle + les tampons + le contexte tiennent.
Pour un 30B en FP8, cela signifie ~64 Go.
Le Llama3 70B en iQ4_NL tient avec ~50k de contexte.
Le GPT-OSS 120B en Q6 tient avec ~30k de contexte.
Vous pouvez réduire un peu la taille des lots (batch size) de 2048 à, disons, 512 sur RDNA 4 et voir une réduction de vitesse minime, mais cela libère de la mémoire pour le contexte.
Si vous utilisez un 30B en iQ4_NL ou iQ4_xs, il y a largement assez d’espace pour fonctionner avec une bonne taille de contexte, je pense autour de 131 072, la moitié du maximum du modèle si je me souviens bien.
32 Go de VRAM semble être le point idéal… Bref, cela te dérangerait de partager ton Dockerfile ?
Plus de VRAM est toujours mieux avec les modèles d’IA ; beaucoup de choses ne tiennent pas dans 32 Go, donc je ne dirais pas que c’est un point idéal en soi… c’est bien mieux que 16 Go cependant. Il y a des choses que l’on pourrait exécuter sur un Strix Halo de 128 Go qui seraient lentes sur la configuration de ce type (2x R9700 32 Go), même si ce qui tient est assez rapide.
64 Go, c’est bien mieux que 32… il y a une raison pour laquelle la MI350x a 288 Go ainsi que des interconnexions inter-GPU haute vitesse.
Parce qu’il faut bien plus de VRAM pour l’entraînement et le déploiement des modèles sur le Web.
Le point idéal pour les amateurs de labos maison ou les passionnés d’IA.
J’ai le même GPU, mais ROCm v6 et ROCm v7 avec vLLM ont la même vitesse d’inférence sur ce GPU.
Pouvez-vous partager le nom et l’étiquette de l’image Docker ?
Montrez-nous comment reproduire cela. J’ai une 7900xt et je n’arrive pas à faire fonctionner vllm.
Oui, intéressé par votre dockerfile. Merci.