Optimisation vitesse calcul GPT-OSS-120B sur matériel moyen

* Fait fonctionner GPT-OSS-120B avec llama.cpp sur du matériel moyen – i5-12600K + RTX 4070 (12 Go) + 64 Go DDR5 – environ 191 tps pour la demande, environ 10 tps pour la génération avec une fenêtre de contexte de 24k.

* Résumé des astuces et ajustements de la communauté r/LocalLLaMA dans un article (script de mise en œuvre, benchmarks).

* Les retours et idées d’optimisation supplémentaires sont les bienvenus !

*script + guide pas à pas d’optimisation ➜* [https://carteakey.dev/optimizing%20gpt-oss-120b-local%20inference/](https://carteakey.dev/optimizing%20gpt-oss-120b-local%20inference/)

Laisser un commentaire Annuler la réponse