RTX 5070 Ti : Problème GPU Ollama résolu

Bonjour à la communauté r/Ollama,

Je rencontre un problème où Ollama 0.12.11 n’arrive pas à utiliser le GPU pour les modèles locaux sur ma RTX 5070 Ti. Le GPU est fonctionnel et accessible (nvidia-smi fonctionne, d’autres services utilisent le GPU avec succès), mais Ollama bascule immédiatement en mode CPU uniquement.

# Détails du système

* **GPU** : NVIDIA GeForce RTX 5070 Ti (16 Go de VRAM)

* **Capacité de calcul GPU** : 12.0 (architecture Blackwell – très récente)

* **Pilote GPU** : 580.95.05

* **Runtime CUDA** : 12.2.140

* **OS** : Ubuntu 25.04 (Linux 6.14.0-35-generic)

* **Version d’Ollama** : 0.12.11 (dernière version, installation propre)

* **Installation** : Binaire autonome via service systemd

# Symptômes

* Tous les modèles locaux affichent `size_vram: 0 MB` dans `ollama ps`

* Les logs montrent : ` »discovering available GPUs… »` → ` »inference compute » id=cpu library=cpu` → ` »total vram »= »0 B »`

* Les modèles s’exécutent sur le CPU (lent – ~60+ secondes pour des requêtes simples)

* **Aucun message d’erreur** – Ollama bascule silencieusement vers le CPU

* Le GPU est fonctionnel : `nvidia-smi` fonctionne, le service RAG utilise le GPU pour les embeddings/reranking avec succès

# Ce qui fonctionnait avant

**Cela fonctionnait avant le 17 novembre 2025.** Les logs du 17 novembre montrent :

* `ggml_cuda_init: found 1 CUDA devices`

* `load_backend: loaded CUDA backend from /usr/local/lib/ollama/cuda_v13/libggml-cuda.so`

* Les modèles étaient correctement déchargés sur le GPU

Après un redémarrage du système le 18 novembre, la détection du GPU a cessé de fonctionner.

# Ce que j’ai essayé

1. ✅ Variables d’environnement (`OLLAMA_NUM_GPU=1`, `CUDA_VISIBLE_DEVICES=0`)

2. ✅ Réinstallation du binaire Ollama (v0.12.11 depuis les releases GitHub)

3. ✅ Configuration manuelle du chemin des bibliothèques CUDA (`LD_LIBRARY_PATH`)

4. ✅ Liens symboliques pour les bibliothèques CUDA

5. ✅ **Installation propre** – suppression complète de tous les fichiers/configs Ollama + réinstallation fraîche

6. ✅ Configuration minimale (suppression de toutes les surcharges manuelles, laisser Ollama auto-détecter)

**Résultat** : Toutes les tentatives montrent le même comportement – la détection GPU s’exécute mais bascule immédiatement vers le CPU en ~13ms.

# Configuration actuelle

Surcharge systemd minimale (aucun chemin de bibliothèque manuel) :

[Service]

Environment=OLLAMA_MODELS=/mnt/shared/ollama-models/models

Environment=CUDA_VISIBLE_DEVICES=0

# Hypothèse

Je soupçonne que **Ollama 0.12.11 ne prend pas encore en charge la capacité de calcul 12.0 (architecture Blackwell)**. La RTX 5070 Ti est un matériel très récent, et les runners CUDA fournis avec Ollama pourraient ne pas inclure les noyaux compilés pour CC 12.0. Quand l’initialisation échoue, Ollama bascule gracieusement vers le CPU sans messages d’erreur.

# Questions

1. **Quelqu’un d’autre avec des GPU RTX 50-series (Blackwell) a-t-il vécu cela ?**

2. **Y a-t-il un problème connu ou une solution de contournement pour la prise en charge de CC 12.0 ?**

3. **Y a-t-il des drapeaux de débogage ou des logs qui montreraient pourquoi l’initialisation CUDA échoue ?**

4. **Devrais-je essayer de revenir à une version plus ancienne d’Ollama qui fonctionnait avant le 17 novembre ?**

# Informations supplémentaires

* Les modèles cloud fonctionnent bien (authentifiés avec Ollama Cloud)

* Le service RAG utilise avec succès le GPU pour les embeddings/reranking (confirme que le GPU est fonctionnel)

* Modèles testés : `qwen3:14b`, `llama3.1:8b`, `qwen:14b` – tous montrent le même comportement

Merci d’avance pour vos éclairages !

5 replies

  1. Jackson Jacobs · 1 week ago

    Je ne peux pas me prononcer sur ollama, mais j’utilise une RTX Pro 6000 Blackwell sous Debian 13 avec succès, à la fois avec llama.cpp et ik_llama.cpp. Les deux sont de toute façon nettement plus rapides qu’ollama, donc je n’ai pas pris la peine de l’essayer là-bas.

  2. Aaron Hicks · 1 week ago

    Ajoutez la variable d’environnement OLLAMA_SCHED_SPREAD=1 et redémarrez ollama serve.

  3. Liam Stanley · 1 week ago

    J’ai eu ce putain de problème sur mon système Linux aussi… Je utilise une RX 7900 XTX par contre et comme toi, ollama continuait à utiliser mon CPU par défaut tout en me disant qu’il pouvait voir ma carte graphique.

    Dans /etc/systemd/system/ollama.service.d/override.conf j’ai dû définir :

    Environment= »HSA_OVERRIDE_GFX_VERSION=11.0.0″

    Je pense que c’est spécifique à AMD… mais peut-être que ça te mettra sur la bonne piste…

    « `
    CUDA_VISIBLE_DEVICES – Forcer CUDA à voir des GPU spécifiques :

    Environment= »CUDA_VISIBLE_DEVICES=0″

    CUDA_FORCE_PTX_JIT – Forcer la compilation JIT pour les nouvelles architectures :

    Environment= »CUDA_FORCE_PTX_JIT=1″
    « `

  4. Natalie Holmes · 5 days ago

    Je réessayerais de réinstaller cuda avec une version plus récente. 12.2 est vraiment ancienne. Passe à la v13.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués *