# TL;DR — Лучшая модель по реальным задачам QA на файлах (Тестировалось на MacBook Air M2 16 ГБ)
>**Раскрытие информации:** ***Я разрабатываю*** ***этого локального агента для RAG - Hyperlink.*** *Идея этого теста — действительно* ***понять, как модели работают*** в ***реальных задачах, связанных с конфиденциальностью***\*, а не использовать традиционные бенчмарки для измерения общих возможностей ИИ. *Тесты здесь* ***независимы от приложения и воспроизводимы.***
**A — Найти факты + привести источники** → Qwen3–1.7B-MLX-8bit
**B — Сравнить доказательства между файлами** → LMF2–1.2B-MLX
**C — Создать хронологию** → LMF2–1.2B-MLX
**D — Резюмировать документы** → Qwen3–1.7B-MLX-8bit & LMF2–1.2B-MLX
**E — Организовать тематические коллекции** → необходимы более мощные модели
**Кому это полезно**
* Работники знаний, работающие на Mac с 8–16 ГБ оперативной памяти.
* Разработчики локальной ИИ, создающие для пользователей с 16 ГБ.
* Студенты, аналитики, консультанты, проводящие интенсивные Q&A по документам.
* Любой, кто задается вопросом: *"Какой небольшой модель выбрать для локального RAG?"*
**Задачи и оценочная таблица**
Типы задач (высокая частота, низкий NPS для RAG-файлов)
* **Найти факты + привести источники** — 10 PDF, состоящих из документов управления проектами
* **Сравнить доказательства между документами** — 12 PDF документов контрактов и ценовых обзоров
* **Создать хронологию** — 13 PDF-транскрипций показаний
* **Резюмировать документы** — 13 PDF-транскрипций показаний.
* **Организовать тематические коллекции** — 1158 файлов MD от пользователя Obsidian.
# Оценочная таблица (1–5 каждый; итого /25) :
* **Полнота** — охватывает все основные элементы вопроса \[5 complet | 3 partiel | 1 manque l'essentiel\]
* **Актуальность** — остается верным цели; без отклонений. \[5 concentré | 3 dérive mineure | 1 hors-sujet\]
* **Точность** — фактическая и логическая \[5 rien de faux | 3 problèmes mineurs | 1 erreurs évidentes\]
* **Четкость** — кратко, читабельно \[5 net | 3 verbeux/approximatif | 1 difficile à analyser\]
* **Структура** — заголовки, списки, ссылки \[5 propre | 3 semi-ordonné | 1 bloc\]
* **Галлюцинации —** обратный сигнал \[5 aucune | 3 indices | 1 fabriqué\]
**Основные моменты**
|Тип задачи/Модель(8bit)|LMF2–1.2B-MLX|Qwen3–1.7B-MLX|Gemma3-1B-it|
|:-|:-|:-|:-|
|**Найти факты + привести источники**|2.33|3.50|1.17|
|**Сравнить доказательства между документами**|4.50|3.33|1.00|
|**Создать хронологию**|4.00|2.83|1.50|
|**Резюмировать документы**|2.50|2.50|1.00|
|**Организовать тематические коллекции**|1.33|1.33|1.33|
В пяти задачах **LMF2–1.2B-MLX-8bit** лидирует с максимальным баллом 4,5, средним значением 2,93 — превосходя средний балл Qwen3–1.7B-MLX-8bit в 2,70. В частности, LMF2 выделяется в "Сравнении доказательств" (4,5), тогда как Qwen3 достигает пика в "Поиск фактов" (3,5). Gemma-3–1b-1t-8bit отстает с максимальным баллом 1,5 и средним значением 1,20, показывая низкие результаты во всех задачах.
**Для тех, кто хочет сделать это сам:** мой рабочий процесс
**Шаг 1:** Установите [Hyperlink](https://hyperlink.nexa.ai/?utm_source=reddit=post&utm_campaign=model_insights_sharing) для вашей ОС.
**Шаг 2:** Подключите локальные папки для фоновой индексации.
**Шаг 3:** Выберите и загрузите модель, совместимую с вашей оперативной памятью.
**Шаг 4:** Загрузите модель; подтвердите файлы в зоне действия; запустите запросы для ваших задач.
**Шаг 5:** Проверьте ответы и ссылки.
**Шаг 6:** Измените модели; повторно запустите те же запросы; сравните.
>Далее: Я обновлю производительность новых моделей, таких как Granite 4, не стесняйтесь комментировать задачи/модели для тестирования или делиться своими результатами по часто используемым случаям использования, давайте вместе создадим руководство по конкретным задачам, связанным с конфиденциальностью!

Хороший анализ, спасибо, что поделились им.
Для полной прозрачности, являетесь ли вы партнером Hyperlink? Если да, это должно быть четко указано.
Спасибо за это!
Возможно, вы уже рассматривали возможность протестировать семейство моделей Granite 4.xx от IBM? Они предлагают версии SMALL и TINY. Было бы интересно включить их в сравнительную матрицу, которую вы разработали по своей методологии оценки.