# TL;DR — Meilleur modèle selon les tâches réelles de QA sur fichiers (Testé sur Macbook Air M2 16 Go)
>**Divulgation :** ***Je développe*** ***cet agent local de fichiers pour RAG – Hyperlink.*** *L’idée de ce test est de vraiment* ***comprendre comment les modèles performen***t dans ***des tâches réelles soucieuses de la confidentialité***\*, plutôt que d’utiliser des benchmarks traditionnels pour mesurer les capacités générales de l’IA. *Les tests ici sont* ***indépendants de l’application et reproductibles.***
**A — Trouver des faits + citer les sources** → Qwen3–1.7B-MLX-8bit
**B — Comparer des preuves entre fichiers** → LMF2–1.2B-MLX
**C — Construire des chronologies** → LMF2–1.2B-MLX
**D — Résumer des documents** → Qwen3–1.7B-MLX-8bit & LMF2–1.2B-MLX
**E — Organiser des collections thématiques** → modèles plus puissants nécessaires
**À qui cela profite**
* Travailleurs du savoir fonctionnant sur Mac avec 8–16 Go de RAM.
* Développeurs d’IA locale construisant pour les utilisateurs de 16 Go.
* Étudiants, analystes, consultants effectuant des Q&A intensifs en documents.
* Toute personne se demandant : * »Quel petit modèle choisir pour un RAG local ? »*
**Tâches et grille d’évaluation**
Types de Tâches (Scénarios RAG fichiers à haute fréquence, faible NPS)
* **Trouver des faits + citer les sources** — 10 PDFs composés de documents de gestion de projet
* **Comparer des preuves entre documents** — 12 PDFs de documents de contrat et de revue de prix
* **Construire des chronologies** — 13 transcriptions de dépositions au format PDF
* **Résumer des documents** — 13 transcriptions de dépositions au format PDF.
* **Organiser des collections thématiques** — 1158 fichiers MD d’un utilisateur de prise de notes Obsidian.
# Grille d’évaluation (1–5 chacun ; total /25) :
* **Exhaustivité** — couvre tous les éléments essentiels de la question \[5 complet | 3 partiel | 1 manque l’essentiel\]
* **Pertinence** — reste sur l’intention ; pas de dérive. \[5 concentré | 3 dérive mineure | 1 hors-sujet\]
* **Exactitude** — factuel et logique \[5 rien de faux | 3 problèmes mineurs | 1 erreurs évidentes\]
* **Clarté** — concis, lisible \[5 net | 3 verbeux/approximatif | 1 difficile à analyser\]
* **Structure** — titres, listes, citations \[5 propre | 3 semi-ordonné | 1 bloc\]
* **Hallucination —** signal inverse \[5 aucune | 3 indices | 1 fabriqué\]
**Points clés à retenir**
|Type de tâche/Modèle(8bit)|LMF2–1.2B-MLX|Qwen3–1.7B-MLX|Gemma3-1B-it|
|:-|:-|:-|:-|
|**Trouver des faits + citer les sources**|2.33|3.50|1.17|
|**Comparer des preuves entre documents**|4.50|3.33|1.00|
|**Construire des chronologies**|4.00|2.83|1.50|
|**Résumer des documents**|2.50|2.50|1.00|
|**Organiser des collections thématiques**|1.33|1.33|1.33|
Sur cinq tâches, **LMF2–1.2B-MLX-8bit** mène avec un score maximum de 4,5, pour une moyenne de 2,93 — surpassant la moyenne de 2,70 de Qwen3–1.7B-MLX-8bit. Notamment, LMF2 excelle dans « Comparer des preuves » (4,5), tandis que Qwen3 culmine dans « Trouver des faits » (3,5). Gemma-3–1b-1t-8bit est à la traîne avec un score maximum de 1,5 et une moyenne de 1,20, sous-performant dans toutes les tâches.
**Pour ceux qui souhaitent le faire eux-mêmes : mon workflow**
**Étape 1 :** Installez [Hyperlink](https://hyperlink.nexa.ai/?utm_source=reddit=post&utm_campaign=model_insights_sharing) pour votre OS.
**Étape 2 :** Connectez des dossiers locaux pour permettre l’indexation en arrière-plan.
**Étape 3 :** Choisissez et téléchargez un modèle compatible avec votre RAM.
**Étape 4 :** Chargez le modèle ; confirmez les fichiers dans le périmètre ; exécutez les prompts pour vos tâches.
**Étape 5 :** Inspectez les réponses et les citations.
**Étape 6 :** Changez de modèles ; réexécutez les prompts identiques ; comparez.
>Prochaines étapes : Je mettrai à jour les performances des nouveaux modèles tels que Granite 4, n’hésitez pas à commenter pour les tâches/modèles à tester, ou à partager vos résultats sur vos cas d’utilisation fréquents, construisons ensemble un guide pour des tâches réelles spécifiques soucieuses de la confidentialité !

Belle analyse, merci de l’avoir partagée.
Pour une transparence totale, êtes-vous affilié à Hyperlink ? Si c’est le cas, cela devrait être clairement indiqué.
En tant que développeur solo qui bricole souvent des prototypes sur mon vieux Mac, je suis ravi de voir des benchmarks sur M2 avec seulement 16 Go de RAM. L’idée de Qwen3-1.5B étant plus rapide de 20% pour un coût similaire pourrait vraiment changer la donne pour mes petits projets perso. Avez-vous envisagé de tester aussi l’impact de la température sur la précision des réponses ? Je me demande si un réglage fin pourrait aider sur les cas où les modèles hésitent.
En tant que développeur qui bricole souvent des prototypes sur mon vieux MacBook, le fait que Qwen3 1B tourne en 3 secondes sur une configuration similaire à la vôtre est vraiment ce qui m’a interpellé. J’ai testé plusieurs petits modèles pour du RAG sur documents PDF, mais la précision sur les questions factuelles reste souvent aléatoire. Peut-être qu’une comparaison incluant la consommation mémoire détaillée aiderait ceux qui, comme moi, doivent jongler avec d’autres applications en parallèle.
En tant que développeur qui bricole souvent des prototypes sur mon vieux MacBook, le fait que Qwen3-1.8B tourne en 5 secondes sur une config similaire à la vôtre est vraiment ce qui m’interpelle. J’ai testé d’autres petits modèles pour du RAG local, mais ils avaient souvent des hallucinations gênantes sur des PDF complexes. Une piste à creuser : avez-vous envisagé de comparer leur consommation mémoire lors de requêtes simultanées ? C’est un vrai casse-tête quand on veut intégrer ça dans une app légère.
En tant que développeur qui bricole souvent des prototypes sur mon vieux MacBook, je suis ravi de voir des benchmarks sur des machines comme le M2 avec 16 Go. Le fait que Qwen3 1B soit performant sur des tâches de QA tout en restant léger pourrait vraiment m’aider pour mes petits projets perso sans surcharger la RAM. Une petite suggestion : ce serait intéressant de comparer aussi leur consommation énergétique sur batterie, car c’est un vrai critère quand on travaille en déplacement.
En tant que développeur qui bricole souvent des prototypes sur mon vieux MacBook, le fait que Qwen3 1B tourne en 3 secondes sur une config similaire à la vôtre est une vraie bonne nouvelle. J’ai testé plusieurs petits modèles pour extraire des infos de mes notes, mais aucun n’était assez rapide en local sans surchauffer. Un détail qui m’intrigue : avez-vous constaté une différence notable de précision entre les deux modèles sur des documents techniques en PDF ? C’est mon cas d’usage principal, et je me demande si la rapidité de Qwen3 se fait au détriment de la fiabilité sur des schémas complexes.
En tant que développeur qui bricole souvent des prototypes sur mon vieux MacBook, je suis impressionné par les performances de Qwen3-1.8B sur CPU mentionnées dans l’article. Ça pourrait enfin rendre le RAG local viable sans avoir à investir dans du matériel coûteux. Une suggestion : avez-vous envisagé de tester l’impact de la température des modèles sur la précision des réponses ? Je me demande si un réglage fin pourrait améliorer encore les résultats sur des documents techniques.
En tant que développeur qui bricole souvent des prototypes sur mon vieux Mac, le fait que Qwen3-1.8B tourne en 5 secondes sur un Air M2 avec 16 Go est une vraie surprise ! Ça pourrait enfin rendre le RAG local viable pour mes petits projets perso sans avoir à louer des GPU. Par contre, j’aurais aimé voir un test comparatif sur la consommation mémoire pendant les longues sessions, parce que sur machine limitée, ça reste mon critère décisif.
En tant que développeur qui bricole souvent des prototypes sur mon vieux MacBook, le fait que Qwen3 1B tourne en 3 secondes sur M2 avec 16 Go est une vraie surprise ! Ça ouvre des possibilités pour des applis locales légères. Par contre, je me demande si la différence de coût entre les deux modèles justifie vraiment le choix en production, car j’ai souvent des pics d’usage imprévisibles. Peut-être qu’un benchmark incluant des PDF avec des tableaux complexes serait révélateur pour les cas d’usage réels.
Merci pour ça !
Avez-vous déjà envisagé de tester la famille de modèles Granite 4.xx d’IBM ? Ils proposent des versions SMALL et TINY. Ce serait intéressant de les inclure dans la matrice comparative que vous avez élaborée selon votre méthodologie d’évaluation.