Inférence par lot locale avec qwen3 30B Instruct sur une seule RTX3090, 4 demandes en parallèle
Je vais l’utiliser pour traiter en masse certaines données afin de générer des informations sur l’utilisation de notre plateforme
Je sens que je atteins mes limites ici et que je vais bientôt avoir besoin d’une configuration multi GPU 😄