Inférence locale avec Qwen3 sur RTX3090

Hudson Moore • octobre 15, 2025 • in GPU • last activity 1 day ago

Inférence par lot locale avec qwen3 30B Instruct sur une seule RTX3090, 4 demandes en parallèle

Je vais l’utiliser pour traiter en masse certaines données afin de générer des informations sur l’utilisation de notre plateforme

Je sens que je atteins mes limites ici et que je vais bientôt avoir besoin d’une configuration multi GPU 😄

#configuration multi-GPU #inférence locale #Intelligence artificielle #llamacpp #Modèles de Langage #Qwen #RTX3090 #Traitement de données