Inférence locale avec Qwen3 sur RTX3090

Inférence par lot locale avec qwen3 30B Instruct sur une seule RTX3090, 4 demandes en parallèle

Je vais l’utiliser pour traiter en masse certaines données afin de générer des informations sur l’utilisation de notre plateforme

Je sens que je atteins mes limites ici et que je vais bientôt avoir besoin d’une configuration multi GPU 😄

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *