Je veux construire un modèle de langage à grande échelle (llm) avec entre 0,1 et 0,6 milliard de paramètres sur une langue moins populaire. Combien de données aurai-je besoin pour cette langue particulière ? et quelles sont les étapes précises que je dois suivre ? Est-ce un bon projet pour mon année de fin d’études ? J’ai accès à une RTX 3090 sur laquelle je peux exécuter facilement des modèles de 20 à 40 milliards de paramètres en q4_k_m.
Pensez à faire un fine-tuning complet avec unsloth. C’est facile, nécessite peu de vram et est rapide. La meilleure option pour une seule carte graphique ! Ne faites pas d’entraînement depuis zéro, faites simplement un pré-entraînement continu sur qwen3. Vous pouvez même peut-être charger le modèle de 4b, c’est un monstre ! Vous ne perdez rien en construisant sur un modèle intelligent. Utilisez Adafactor et un beta2 élevé. Utilisez une taille de lot de 1 et une accumulation de gradients de 1 avec packing des données mais avec un taux d’apprentissage faible. Si vous avez besoin d’aide, demandez simplement !
Andrej Karpathy a un tutoriel vraiment excellent sur l’entraînement des LLMs depuis zéro. Cependant, notez que tout ce que vous pouvez concevoir sur une 3090 aura essentiellement la même qualité que GPT-2. Je recommanderais de louer quelques bonnes cartes graphiques sur runpod/vast pour quelques dollars si vous faites quelque chose un peu plus exigeant.
Quelles langues peu populaires envisages-tu ? Comme Dart ?