# Kurzfassung — Bestes Modell für echte QA-Aufgaben mit Dateien (Getestet auf MacBook Air M2 mit 16 GB)
>**Haftungsausschluss:** ***Ich entwickle*** ***diesen lokalen Datei-Agenten für RAG - Hyperlink.*** *Die Idee dieses Tests ist es wirklich* ***zu verstehen, wie die Modelle in*** ***echten Aufgaben mit Datenschutzsorgen***\* abschneiden, anstatt traditionelle Benchmarks zu verwenden, um die allgemeinen Fähigkeiten der KI zu messen. *Die Tests hier sind* ***unabhängig von der Anwendung und replizierbar.***
**A — Fakten finden + Quellen zitieren** → Qwen3–1.7B-MLX-8bit
**B — Beweise zwischen Dateien vergleichen** → LMF2–1.2B-MLX
**C — Chronologien erstellen** → LMF2–1.2B-MLX
**D — Dokumente zusammenfassen** → Qwen3–1.7B-MLX-8bit & LMF2–1.2B-MLX
**E — Themen-Sammlungen organisieren** → benötigen leistungsstärkere Modelle
**Wem nützt das?**
* Wissensarbeiter, die mit Macs mit 8–16 GB RAM arbeiten.
* Lokale KI-Entwickler, die für Benutzer mit 16 GB RAM bauen.
* Studenten, Analysten, Berater, die intensiv Dokumenten-Q&A durchführen.
* Jeder, der sich fragt: *"Welches kleine Modell soll ich für ein lokales RAG wählen?"*
**Aufgaben und Bewertungsmatrix**
Aufgabentypen (häufige RAG-Datei-Szenarien, niedriger NPS)
* **Fakten finden + Quellen zitieren** — 10 PDFs mit Projektmanagement-Dokumenten
* **Beweise zwischen Dokumenten vergleichen** — 12 PDFs mit Vertrags- und Preisüberprüfungsdokumenten
* **Chronologien erstellen** — 13 PDF-Transkriptionen von Aussagen
* **Dokumente zusammenfassen** — 13 PDF-Transkriptionen von Aussagen.
* **Themen-Sammlungen organisieren** — 1158 MD-Dateien eines Obsidian-Notiznahme-Nutzers.
# Bewertungsmatrix (1–5 pro Kategorie; Gesamt /25) :
* **Vollständigkeit** — alle wesentlichen Elemente der Frage abdecken \[5 complet | 3 partiel | 1 manque l'essentiel\]
* **Relevanz** — auf die Absicht konzentrieren; keine Abweichung. \[5 concentré | 3 dérive mineure | 1 hors-sujet\]
* **Genauigkeit** — faktisch und logisch \[5 rien de faux | 3 problèmes mineurs | 1 erreurs évidentes\]
* **Klarheit** — prägnant und lesbar \[5 net | 3 verbeux/approximatif | 1 difficile à analyser\]
* **Struktur** — Überschriften, Listen, Zitate \[5 propre | 3 semi-ordonné | 1 bloc\]
* **Halluzination —** inverser Indikator \[5 aucune | 3 indices | 1 fabriqué\]
**Wichtige Punkte**
|Aufgabentyp/Modell(8bit)|LMF2–1.2B-MLX|Qwen3–1.7B-MLX|Gemma3-1B-it|
|:-|:-|:-|:-|
|**Fakten finden + Quellen zitieren**|2.33|3.50|1.17|
|**Beweise zwischen Dokumenten vergleichen**|4.50|3.33|1.00|
|**Chronologien erstellen**|4.00|2.83|1.50|
|**Dokumente zusammenfassen**|2.50|2.50|1.00|
|**Themen-Sammlungen organisieren**|1.33|1.33|1.33|
In fünf Aufgaben führt **LMF2–1.2B-MLX-8bit** mit einem Maximalwert von 4,5 und einer Durchschnittsnote von 2,93 – was besser ist als der Durchschnitt von 2,70 von Qwen3–1.7B-MLX-8bit. Insbesondere schneidet LMF2 in "Beweise vergleichen" (4,5) sehr gut ab, während Qwen3 in "Fakten finden" (3,5) den Höchstwert erreicht. Gemma-3–1b-1t-8bit bleibt hinterher mit einem Maximalwert von 1,5 und einer Durchschnittsnote von 1,20, unterperformend in allen Aufgaben.
**Für diejenigen, die es selbst versuchen möchten: mein Workflow**
**Schritt 1:** Installieren Sie [Hyperlink](https://hyperlink.nexa.ai/?utm_source=reddit=post&utm_campaign=model_insights_sharing) für Ihr Betriebssystem.
**Schritt 2:** Verbinden Sie lokale Ordner, um eine Hintergrund-Indexierung zu ermöglichen.
**Schritt 3:** Wählen Sie und laden Sie ein mit Ihrer RAM kompatibles Modell herunter.
**Schritt 4:** Laden Sie das Modell; bestätigen Sie die Dateien im Umfeld; führen Sie Ihre Prompts für Ihre Aufgaben aus.
**Schritt 5:** Prüfen Sie die Antworten und Zitate.
**Schritt 6:** Wechseln Sie die Modelle; führen Sie dieselben Prompts erneut aus; vergleichen Sie.
>Nächste Schritte: Ich werde die Leistung neuer Modelle wie Granite 4 aktualisieren, zögern Sie nicht, Kommentare zu Aufgaben/Modellen zu hinterlassen, oder Ihre Ergebnisse bei häufigen Anwendungsfällen zu teilen, gemeinsam bauen wir einen Leitfaden für spezifische, realitätsnahe Aufgaben mit Datenschutzsorgen!

Gute Analyse, danke, dass Sie sie geteilt haben.
Für vollständige Transparenz: Sind Sie mit Hyperlink verbunden? Falls ja, sollte dies deutlich angegeben werden.
Spannend zu sehen, wie Qwen3 auf dem MacBook Air M2 mit 16 GB abschneidet – genau mein Setup für lokale Experimente! Die Effizienz bei 100 QA-Aufgaben überzeugt, aber ich frage mich, wie sich die Modelle bei mehrsprachigen Dokumenten schlagen, da ich oft deutsche und englische Texte parallel verarbeite. Vielleicht wäre ein kleiner Benchmark mit gemischten Sprachdateien eine coole Ergänzung für euren nächsten Test.
Spannend, dass Qwen3-1.5B auf dem MacBook Air M2 mit 16 GB RAM so flüssig läuft – das klingt perfekt für meinen lokalen Experimentierkram ohne Cloud-Kosten. Ich frage mich, ob die 100 getesteten QA-Aufgaben auch komplexe PDF-Tabellen abdecken, denn genau daran scheitern bei mir oft kleinere Modelle. Vielleicht wäre ein Vergleich der Prompt-Robustheit zwischen den Modellen ein interessanter nächster Schritt, da ich oft mit uneinheitlich formatierten Firmendokumenten arbeite.
Spannender Vergleich! Dass Qwen3 auf meinem MacBook Air M2 mit 16 GB RAM so flüssig läuft, war eine positive Überraschung. Gerade für lokale RAG-Experimente ist die Performance ja oft der limitierende Faktor. Vielleicht wäre ein Hinweis auf den Speicherverbrauch bei langen Dokumenten für andere Nutzer mit ähnlicher Hardware noch hilfreich.
Spannender Vergleich, gerade weil ihr die 16 GB RAM Grenze auf dem MacBook Air M2 konkret getestet habt. Ich suche selbst nach einer schlanken Lösung für lokale Recherche mit meinen PDFs, und dass Qwen3 hier oft vorne liegt, ist ein starkes Argument. Vielleicht wäre ein Hinweis auf den Speicherverbrauch bei langen Sitzungen mit vielen Dokumenten gleichzeitig noch hilfreich für die Praxis.
Vielen Dank dafür!
Haben Sie jemals daran gedacht, die Granite 4.xx-Modellfamilie von IBM zu testen? Sie bieten Versionen SMALL und TINY an. Es wäre interessant, sie in die Vergleichsmatrix aufzunehmen, die Sie nach Ihrer Bewertungsmethode erstellt haben.