AI-evaluation 2026: как мерить качество AI-системы в проде
Как оценивать AI-системы: метрики, инструменты, методология. RAGAS, LLM-as-judge, A/B-тесты, мониторинг галлюцинаций. Практический гайд для команд, запускающих AI в производство.
«Наш AI-чатбот работает хорошо», — говорит фаундер на пресс-конференции. «Откуда вы знаете?», — спрашивает журналист. Тишина. В 2026 это всё ещё типичная картина: команды строят AI-системы, но не умеют систематически оценивать их качество. А без метрик — невозможно ни улучшать, ни доверять. Этот гид — практический: какие метрики мерить, какими инструментами, как избежать классических ошибок и как выстроить процесс evaluation в команде среднего бизнеса.
Зачем вообще оценивать AI-системы
Тривиальный ответ: «чтобы знать, работает ли». На практике — три критичных задачи:
- Решение о продакшне. Готова ли система к запуску? Достаточно ли точна для конкретного случая использования?
- Сравнение версий. Новая версия модели / промпта / RAG-конфигурации — лучше или хуже старой?
- Мониторинг в проде. Не деградировала ли система? Не появились ли новые типы ошибок?
Без evaluation — это всё «на ощупь».
Метрики: что мерить
Метрики для генеративных задач (чатботы, ассистенты)
| Метрика | Что меряет | Как |
|---|---|---|
| Accuracy | % правильных ответов | сравнение с эталоном |
| Faithfulness (для RAG) | соответствие найденным источникам | LLM-as-judge / RAGAS |
| Relevance | релевантность ответа вопросу | LLM-as-judge |
| Hallucination rate | % выдуманного | ручной / автомат |
| Citation accuracy | правильность ссылок | проверка источников |
| Latency | время ответа | измерение |
| Cost per query | стоимость запроса | API метрики |
Метрики для классификации (тикетов, отзывов, спама)
| Метрика | Что меряет |
|---|---|
| Precision | из положительно классифицированных, какой % — действительно положительные |
| Recall | из всех положительных, какой % мы нашли |
| F1 | гармоническое среднее P и R |
| AUC-ROC | способность модели отличать классы |
| Confusion matrix | детальная картина ошибок |
Метрики для бизнес-влияния
| Метрика | Зачем |
|---|---|
| Containment rate (для саппорт-ботов) | % обращений, закрытых без оператора |
| CSAT после AI | удовлетворённость клиента ответом AI |
| Conversion uplift | A/B vs контроль |
| Time saved | человеко-часов экономии |
| Cost saved | деньги |
Подходы к оценке
1. Эталонные датасеты (golden sets)
Создаёте набор: 100–500 вопросов с эталонными ответами. После каждого изменения системы — прогоняете через golden set, смотрите, что изменилось.
Плюсы: объективно, повторяемо, можно автоматизировать.
Минусы: дорого создавать, может устаревать, не покрывает все реальные сценарии.
2. LLM-as-judge
Используем продвинутый LLM (GPT-5, Claude Opus) как «эксперта»: показываем ему запрос пользователя и ответ системы, просим оценить по критериям.
Промпт-пример:
Тебе на вход:
- Вопрос пользователя.
- Ответ AI-системы.
- Релевантные источники из базы знаний.
Оцени по шкале 1–5:
1. Правильность фактической информации.
2. Соответствие ответа источникам.
3. Полнота ответа.
4. Ясность изложения.
Если есть проблемы — кратко укажи какие.
Финальный балл: среднее.
Плюсы: масштабируется, дешевле эксперта.
Минусы: LLM-судья тоже ошибается, нужно периодически калибровать.
3. Human evaluation
Эксперт оценивает выборку реальных диалогов / ответов системы.
Плюсы: золотой стандарт, ловит нюансы.
Минусы: дорого, медленно, не масштабируется.
4. A/B-тесты в проде
Запускаем 2 версии системы на части трафика, сравниваем по бизнес-метрикам.
Плюсы: меряем реальный эффект.
Минусы: медленно (нужен трафик), нужна статистическая мощность.
5. User feedback
Кнопки «👍 / 👎» под ответами AI. Анкеты после взаимодействия. Анализ сообщений «не работает».
Плюсы: реальные пользователи, бесплатно.
Минусы: только 1–5% оставляют feedback, biased к недовольным.
Инструменты 2026
Для RAG-evaluation
- RAGAS (open-source) — стандарт для RAG. Метрики: faithfulness, answer relevance, context precision/recall.
- TruLens — для трекинга цепочек запросов.
- Phoenix (Arize) — мониторинг ML и LLM в проде.
Для общей оценки LLM
- OpenAI Evals — фреймворк для тестирования.
- LangSmith (от LangChain) — для отслеживания цепочек.
- Promptfoo — A/B-тестирование промптов.
- Weights & Biases (W&B) — общий ML/LLM мониторинг.
Российские
- Yandex DataSphere ML Trackings — для проектов в Yandex Cloud.
- СберAI Platform — внутренняя экосистема.
- Кастомные решения на базе ClickHouse + Streamlit.
Архитектура процесса evaluation
Минимум для малого проекта
- Golden set на 50–100 вопросов с эталонами.
- CI-тест: при каждом изменении прогоняем golden set, сравниваем accuracy.
- Кнопки обратной связи в проде.
- Еженедельный ручной разбор 30 случайных диалогов.
Стандарт для среднего проекта
- Минимум +
- LLM-as-judge для автоматической оценки больших выборок.
- Дашборд метрик в реальном времени (Grafana / Streamlit).
- Алерты на деградацию (>5% drop в accuracy).
- A/B-тестирование для крупных изменений.
Расширенный для продакшна
- Всё выше +
- Continuous evaluation на всех запросах в проде.
- Автоматическая категоризация ошибок (по типам).
- Регулярные ML-эксперименты в shadow mode.
- Canary deployments с автоматическим rollback.
Главные ошибки
-
Меряем только accuracy. Точность — важна, но недостаточна. AI с 95% accuracy и 30% уверенно-неправильных ответов опаснее, чем 90% accuracy с 10% «не знаю».
-
Один golden set на год. Реальные запросы пользователей меняются. Golden set нужно обновлять минимум раз в квартал.
-
LLM-as-judge без калибровки. «GPT-5 сказал, что ответ хороший» — это нужно сверять с человеком на 5–10% выборки.
-
Без бизнес-метрик. AI с accuracy 92% может приносить меньше прибыли, чем с 88%. Зависит от того, как ошибки коррелируют с бизнес-влиянием.
-
Тестируем только на «хороших» запросах. Реальные пользователи задают плохо сформулированные, опечатанные, многозначные вопросы. Тестирование на них критично.
-
Без мониторинга в проде. Качество модели на тестовом сете и в проде — разные. Нужен непрерывный мониторинг.
-
Игнорирование long-tail случаев. Аккуратность на популярных запросах — 95%, на редких — 60%. Среднее 92%. Но 5% запросов = 5% недовольных пользователей.
Сценарии оценки разных AI-систем
Чатбот поддержки
Что меряем:
- Containment rate (целевой 60%+).
- CSAT после AI (целевой 4.0+ из 5).
- Hallucination rate (<1%).
- Эскалация на оператора (целевой 15–30%).
- Точность по типу вопросов (категориально).
AI-помощник в продукте
Что меряем:
- Activation rate (доля пользователей, которые попробовали).
- Repeat usage (вернулись через 7 / 30 дней).
- Feature impact (улучшаются ли бизнес-метрики у пользователей).
- Satisfaction (in-app опрос).
AI-классификатор (тикеты, документы)
Что меряем:
- Precision / Recall / F1 по классам.
- Confusion matrix.
- Latency (для real-time).
- Cost per classified item.
AI-генератор контента
Что меряем:
- Quality (LLM-as-judge или human).
- Brand voice consistency.
- Factual accuracy.
- Edit distance (как сильно правят AI-вывод).
Подробнее про различные AI-системы — в статьях про RAG vs Fine-tuning и векторные БД.
Этика и compliance
| Что | Правило |
|---|---|
| Тестовые данные с ПДн | обезличивание перед использованием |
| Хранение feedback пользователей | согласие в политике, retention 1+ год |
| Алерты по чувствительным темам | автоматический мониторинг для медицины, финансов, юриспруденции |
| Логи цепочек запросов | необходимы для дебага, но требуют compliance с 152-ФЗ |
| Объяснимость решений | для критических AI обязательна |
Подробнее — в статье про безопасность данных при работе с ИИ.
FAQ
Сколько вопросов нужно в golden set? Минимум 50, оптимально 200–500 для production-системы.
Как часто обновлять golden set? Ежеквартально или при значимых изменениях продукта / типов запросов.
Можно ли использовать GPT-5 как судью для оценки Claude? Да, и наоборот. Полезно даже использовать «голосование» нескольких LLM-судей для сложных оценок.
Сколько стоит настройка evaluation процесса? Минимум: 80–150 тыс ₽ (1 ML-инженер на 2 недели). Полная инфраструктура: 600 000–1 500 000 ₽.
Какой главный показатель здоровья RAG-системы? Faithfulness (соответствие ответа источникам). Если она падает — модель «галлюцинирует», нужны интервенции.
Что важнее — Precision или Recall? Зависит от задачи. Для медицинской диагностики — Recall (не пропустить). Для спам-фильтра — Precision (не блокировать важное).
Можно ли полностью автоматизировать evaluation? Нет. Минимум 5–10% выборки должен проверять человек для калибровки автоматических методов.
Что делать прямо сейчас
- Сегодня: создайте простой golden set из 30 вопросов и эталонных ответов.
- Эту неделю: настройте простой LLM-as-judge скрипт для оценки выборки запросов.
- Этот месяц: добавьте кнопки обратной связи в проде и начните регулярно анализировать 50 случайных диалогов в неделю.
Связанные материалы:
Evaluation — это нелюбимая, но критическая часть AI-проекта. Без неё команда работает «вслепую»: не знает, стало лучше или хуже после изменений, не может объяснить заказчику качество, не замечает деградацию в проде. С грамотным evaluation процессом — AI-команда работает на порядок быстрее и увереннее. Это как unit-тесты для разработки: «не любим писать, но без них не разрабатываем продакшн».
Михаил Соколов
AI-инженер с 10 годами в продакшене. Разрабатывает агентные сценарии и автоматизации на стеке OpenAI / Anthropic / YandexGPT.
Все материалы автора →
Дискуссия
Что вы думаете?
Поделитесь опытом, расскажите, как у вас решается похожая задача, или задайте вопрос — я лично читаю все комментарии и отвечаю.