Модели 1B для RAG: Qwen3 и LMF2 протестированы на 100 задачах

# TL;DR — Лучшая модель по реальным задачам QA на файлах (Тестировалось на MacBook Air M2 16 ГБ)

>**Раскрытие информации:** ***Я разрабатываю*** ***этого локального агента для RAG - Hyperlink.*** *Идея этого теста — действительно* ***понять, как модели работают*** в ***реальных задачах, связанных с конфиденциальностью***\*, а не использовать традиционные бенчмарки для измерения общих возможностей ИИ. *Тесты здесь* ***независимы от приложения и воспроизводимы.***

**A — Найти факты + привести источники** → Qwen3–1.7B-MLX-8bit

**B — Сравнить доказательства между файлами** → LMF2–1.2B-MLX

**C — Создать хронологию** → LMF2–1.2B-MLX

**D — Резюмировать документы** → Qwen3–1.7B-MLX-8bit & LMF2–1.2B-MLX

**E — Организовать тематические коллекции** → необходимы более мощные модели

**Кому это полезно**

* Работники знаний, работающие на Mac с 8–16 ГБ оперативной памяти.

* Разработчики локальной ИИ, создающие для пользователей с 16 ГБ.

* Студенты, аналитики, консультанты, проводящие интенсивные Q&A по документам.

* Любой, кто задается вопросом: *"Какой небольшой модель выбрать для локального RAG?"*

**Задачи и оценочная таблица**

Типы задач (высокая частота, низкий NPS для RAG-файлов)

* **Найти факты + привести источники** — 10 PDF, состоящих из документов управления проектами

* **Сравнить доказательства между документами** — 12 PDF документов контрактов и ценовых обзоров

* **Создать хронологию** — 13 PDF-транскрипций показаний

* **Резюмировать документы** — 13 PDF-транскрипций показаний.

* **Организовать тематические коллекции** — 1158 файлов MD от пользователя Obsidian.

# Оценочная таблица (1–5 каждый; итого /25) :

* **Полнота** — охватывает все основные элементы вопроса \[5 complet | 3 partiel | 1 manque l'essentiel\]

* **Актуальность** — остается верным цели; без отклонений. \[5 concentré | 3 dérive mineure | 1 hors-sujet\]

* **Точность** — фактическая и логическая \[5 rien de faux | 3 problèmes mineurs | 1 erreurs évidentes\]

* **Четкость** — кратко, читабельно \[5 net | 3 verbeux/approximatif | 1 difficile à analyser\]

* **Структура** — заголовки, списки, ссылки \[5 propre | 3 semi-ordonné | 1 bloc\]

* **Галлюцинации —** обратный сигнал \[5 aucune | 3 indices | 1 fabriqué\]

**Основные моменты**

|Тип задачи/Модель(8bit)|LMF2–1.2B-MLX|Qwen3–1.7B-MLX|Gemma3-1B-it|

|:-|:-|:-|:-|

|**Найти факты + привести источники**|2.33|3.50|1.17|

|**Сравнить доказательства между документами**|4.50|3.33|1.00|

|**Создать хронологию**|4.00|2.83|1.50|

|**Резюмировать документы**|2.50|2.50|1.00|

|**Организовать тематические коллекции**|1.33|1.33|1.33|

В пяти задачах **LMF2–1.2B-MLX-8bit** лидирует с максимальным баллом 4,5, средним значением 2,93 — превосходя средний балл Qwen3–1.7B-MLX-8bit в 2,70. В частности, LMF2 выделяется в "Сравнении доказательств" (4,5), тогда как Qwen3 достигает пика в "Поиск фактов" (3,5). Gemma-3–1b-1t-8bit отстает с максимальным баллом 1,5 и средним значением 1,20, показывая низкие результаты во всех задачах.

**Для тех, кто хочет сделать это сам:** мой рабочий процесс

**Шаг 1:** Установите [Hyperlink](https://hyperlink.nexa.ai/?utm_source=reddit=post&utm_campaign=model_insights_sharing) для вашей ОС.

**Шаг 2:** Подключите локальные папки для фоновой индексации.

**Шаг 3:** Выберите и загрузите модель, совместимую с вашей оперативной памятью.

**Шаг 4:** Загрузите модель; подтвердите файлы в зоне действия; запустите запросы для ваших задач.

**Шаг 5:** Проверьте ответы и ссылки.

**Шаг 6:** Измените модели; повторно запустите те же запросы; сравните.

>Далее: Я обновлю производительность новых моделей, таких как Granite 4, не стесняйтесь комментировать задачи/модели для тестирования или делиться своими результатами по часто используемым случаям использования, давайте вместе создадим руководство по конкретным задачам, связанным с конфиденциальностью!

Модели 1B для RAG: Qwen3 и LMF2 протестированы на 100 задачах

Choose a language:

17 replies

  1. Sadie Pearson · 3 days ago

    Хороший анализ, спасибо, что поделились им.

    Для полной прозрачности, являетесь ли вы партнером Hyperlink? Если да, это должно быть четко указано.

  2. Naomi Watson · 1 day ago

    Возможно, вы уже рассматривали возможность протестировать семейство моделей Granite 4.xx от IBM? Они предлагают версии SMALL и TINY. Было бы интересно включить их в сравнительную матрицу, которую вы разработали по своей методологии оценки.

Оставить ответ

Ваш адрес email не будет опубликован. Обязательные поля помечены *