# Sintesi — Migliore modello in base alle attività di QA sui file (Testato su MacBook Air M2 16 GB)
>**Rivelazione:** ***Sviluppo*** ***questo agente locale per file per RAG - Hyperlink.*** *L'idea di questo test è veramente* ***capire come i modelli si comportano*** in ***attività reali che riguardano la privacy***\*, piuttosto che utilizzare benchmark tradizionali per misurare le capacità generali dell'IA. *I test qui sono* ***indipendenti dall'applicazione e riproducibili.***
**A — Trovare fatti + citare le fonti** → Qwen3–1.7B-MLX-8bit
**B — Confrontare le prove tra i file** → LMF2–1.2B-MLX
**C — Costruire cronologie** → LMF2–1.2B-MLX
**D — Riassumere documenti** → Qwen3–1.7B-MLX-8bit & LMF2–1.2B-MLX
**E — Organizzare raccolte tematiche** → necessari modelli più potenti
**A chi serve**
* Lavoratori del sapere che utilizzano Mac con 8–16 GB di RAM.
* Sviluppatori di IA locale che costruiscono per gli utenti da 16 GB.
* Studenti, analisti, consulenti che effettuano Q&A intensivi sui documenti.
* Ogni persona che si chiede: *"Quale piccolo modello scegliere per un RAG locale?"*
**Attività e griglia di valutazione**
Tipi di attività (scenari RAG file ad alta frequenza, basso NPS)
* **Trovare fatti + citare le fonti** — 10 PDF composti da documenti di gestione del progetto
* **Confrontare le prove tra i documenti** — 12 PDF di documenti contrattuali e di revisione dei prezzi
* **Costruire cronologie** — 13 trascrizioni di deposizioni in formato PDF
* **Riassumere documenti** — 13 trascrizioni di deposizioni in formato PDF.
* **Organizzare raccolte tematiche** — 1158 file MD di un utente di Obsidian.
# Griglia di valutazione (1–5 ciascuno; totale /25) :
* **Completezza** — copre tutti gli elementi essenziali della domanda \[5 complet | 3 partiel | 1 manque l'essentiel\]
* **Relevanza** — rimane nell'intento; nessuna deviazione. \[5 concentré | 3 dérive mineure | 1 hors-sujet\]
* **Esattezza** — fattuale e logico \[5 rien de faux | 3 problèmes mineurs | 1 erreurs évidentes\]
* **Chiarezza** — conciso, leggibile \[5 net | 3 verbeux/approximatif | 1 difficile à analyser\]
* **Struttura** — titoli, elenchi, citazioni \[5 propre | 3 semi-ordonné | 1 bloc\]
* **Allucinazione —** segnale inverso \[5 aucune | 3 indices | 1 fabriqué\]
**Punti principali da ricordare**
|Tipo di attività/Modello(8bit)|LMF2–1.2B-MLX|Qwen3–1.7B-MLX|Gemma3-1B-it|
|:-|:-|:-|:-|
|**Trovare fatti + citare le fonti**|2.33|3.50|1.17|
|**Confrontare le prove tra i documenti**|4.50|3.33|1.00|
|**Costruire cronologie**|4.00|2.83|1.50|
|**Riassumere documenti**|2.50|2.50|1.00|
|**Organizzare raccolte tematiche**|1.33|1.33|1.33|
Su cinque attività, **LMF2–1.2B-MLX-8bit** guida con un punteggio massimo di 4,5, per una media di 2,93 — superando la media di 2,70 di Qwen3–1.7B-MLX-8bit. In particolare, LMF2 eccelle in "Confrontare le prove" (4,5), mentre Qwen3 raggiunge il massimo in "Trovare fatti" (3,5). Gemma-3–1b-1t-8bit è indietro con un punteggio massimo di 1,5 e una media di 1,20, sottovalutando in tutte le attività.
**Per coloro che desiderano farlo da soli: il mio flusso di lavoro**
**Passo 1 :** Installa [Hyperlink](https://hyperlink.nexa.ai/?utm_source=reddit=post&utm_campaign=model_insights_sharing) per il tuo sistema operativo.
**Passo 2 :** Collega cartelle locali per permettere l'indicizzazione in background.
**Passo 3 :** Scegli e scarica un modello compatibile con la tua RAM.
**Passo 4 :** Carica il modello; conferma i file nel raggio d'azione; esegui i prompt per le tue attività.
**Passo 5 :** Esamina le risposte e le citazioni.
**Passo 6 :** Cambia modello; esegui nuovamente gli stessi prompt; confronta.
>Prossimi passi: Aggiornarò le prestazioni dei nuovi modelli come Granite 4, non esitate a commentare per le attività/modelli da testare, o a condividere i vostri risultati sui casi d'uso frequenti, costruiamo insieme una guida per attività specifiche che riguardano la privacy!

Bella analisi, grazie per averla condivisa.
Per una totale trasparenza, sei affiliato a Hyperlink? Se è così, ciò dovrebbe essere chiaramente indicato.
Da tempo cerco un modello leggero per fare RAG locale sul mio Mac, quindi vedere il confronto tra Qwen3 e LMF2 su 100 task è stato illuminante. Mi ha colpito che il modello da 1B possa girare su un Macbook Air M2 con 16GB, perché vorrei evitare costi di cloud. Forse potreste testare anche l’impatto di diversi formati di file, dato che nel mio lavoro spesso devo estrarre dati da tabelle PDF complesse.
Da sviluppatore che lavora spesso con dataset in italiano, trovo molto interessante il confronto tra Qwen3 e LMF2. Il fatto che Qwen3 da 1.5B parametri abbia ottenuto risultati solidi su MacBook Air M2 con 16GB di RAM mi dà speranza per testarlo sul mio portatile. Sarebbe utile sapere se qualcuno ha provato a ottimizzare questi modelli per lingue con flessioni complesse come l’italiano, dato che spesso i benchmark si concentrano solo sull’inglese.
Grazie per questo!
Avete mai considerato di provare la famiglia di modelli Granite 4.xx di IBM? Offrono versioni SMALL e TINY. Sarebbe interessante includerli nella matrice comparativa che avete sviluppato secondo la vostra metodologia di valutazione.