GPTmag GPTmag
AI-инструменты

AI-evaluation 2026: как мерить качество AI-системы в проде

Как оценивать AI-системы: метрики, инструменты, методология. RAGAS, LLM-as-judge, A/B-тесты, мониторинг галлюцинаций. Практический гайд для команд, запускающих AI в производство.

Михаил Соколов Михаил Соколов 7 минут

«Наш AI-чатбот работает хорошо», — говорит фаундер на пресс-конференции. «Откуда вы знаете?», — спрашивает журналист. Тишина. В 2026 это всё ещё типичная картина: команды строят AI-системы, но не умеют систематически оценивать их качество. А без метрик — невозможно ни улучшать, ни доверять. Этот гид — практический: какие метрики мерить, какими инструментами, как избежать классических ошибок и как выстроить процесс evaluation в команде среднего бизнеса.

Зачем вообще оценивать AI-системы

Тривиальный ответ: «чтобы знать, работает ли». На практике — три критичных задачи:

  1. Решение о продакшне. Готова ли система к запуску? Достаточно ли точна для конкретного случая использования?
  2. Сравнение версий. Новая версия модели / промпта / RAG-конфигурации — лучше или хуже старой?
  3. Мониторинг в проде. Не деградировала ли система? Не появились ли новые типы ошибок?

Без evaluation — это всё «на ощупь».

Метрики: что мерить

Метрики для генеративных задач (чатботы, ассистенты)

МетрикаЧто меряетКак
Accuracy% правильных ответовсравнение с эталоном
Faithfulness (для RAG)соответствие найденным источникамLLM-as-judge / RAGAS
Relevanceрелевантность ответа вопросуLLM-as-judge
Hallucination rate% выдуманногоручной / автомат
Citation accuracyправильность ссылокпроверка источников
Latencyвремя ответаизмерение
Cost per queryстоимость запросаAPI метрики

Метрики для классификации (тикетов, отзывов, спама)

МетрикаЧто меряет
Precisionиз положительно классифицированных, какой % — действительно положительные
Recallиз всех положительных, какой % мы нашли
F1гармоническое среднее P и R
AUC-ROCспособность модели отличать классы
Confusion matrixдетальная картина ошибок

Метрики для бизнес-влияния

МетрикаЗачем
Containment rate (для саппорт-ботов)% обращений, закрытых без оператора
CSAT после AIудовлетворённость клиента ответом AI
Conversion upliftA/B vs контроль
Time savedчеловеко-часов экономии
Cost savedденьги

Подходы к оценке

1. Эталонные датасеты (golden sets)

Создаёте набор: 100–500 вопросов с эталонными ответами. После каждого изменения системы — прогоняете через golden set, смотрите, что изменилось.

Плюсы: объективно, повторяемо, можно автоматизировать.

Минусы: дорого создавать, может устаревать, не покрывает все реальные сценарии.

2. LLM-as-judge

Используем продвинутый LLM (GPT-5, Claude Opus) как «эксперта»: показываем ему запрос пользователя и ответ системы, просим оценить по критериям.

Промпт-пример:

Тебе на вход:
- Вопрос пользователя.
- Ответ AI-системы.
- Релевантные источники из базы знаний.

Оцени по шкале 1–5:
1. Правильность фактической информации.
2. Соответствие ответа источникам.
3. Полнота ответа.
4. Ясность изложения.

Если есть проблемы — кратко укажи какие.
Финальный балл: среднее.

Плюсы: масштабируется, дешевле эксперта.

Минусы: LLM-судья тоже ошибается, нужно периодически калибровать.

3. Human evaluation

Эксперт оценивает выборку реальных диалогов / ответов системы.

Плюсы: золотой стандарт, ловит нюансы.

Минусы: дорого, медленно, не масштабируется.

4. A/B-тесты в проде

Запускаем 2 версии системы на части трафика, сравниваем по бизнес-метрикам.

Плюсы: меряем реальный эффект.

Минусы: медленно (нужен трафик), нужна статистическая мощность.

5. User feedback

Кнопки «👍 / 👎» под ответами AI. Анкеты после взаимодействия. Анализ сообщений «не работает».

Плюсы: реальные пользователи, бесплатно.

Минусы: только 1–5% оставляют feedback, biased к недовольным.

Инструменты 2026

Для RAG-evaluation

  • RAGAS (open-source) — стандарт для RAG. Метрики: faithfulness, answer relevance, context precision/recall.
  • TruLens — для трекинга цепочек запросов.
  • Phoenix (Arize) — мониторинг ML и LLM в проде.

Для общей оценки LLM

  • OpenAI Evals — фреймворк для тестирования.
  • LangSmith (от LangChain) — для отслеживания цепочек.
  • Promptfoo — A/B-тестирование промптов.
  • Weights & Biases (W&B) — общий ML/LLM мониторинг.

Российские

  • Yandex DataSphere ML Trackings — для проектов в Yandex Cloud.
  • СберAI Platform — внутренняя экосистема.
  • Кастомные решения на базе ClickHouse + Streamlit.

Архитектура процесса evaluation

Минимум для малого проекта

  1. Golden set на 50–100 вопросов с эталонами.
  2. CI-тест: при каждом изменении прогоняем golden set, сравниваем accuracy.
  3. Кнопки обратной связи в проде.
  4. Еженедельный ручной разбор 30 случайных диалогов.

Стандарт для среднего проекта

  • Минимум +
  • LLM-as-judge для автоматической оценки больших выборок.
  • Дашборд метрик в реальном времени (Grafana / Streamlit).
  • Алерты на деградацию (>5% drop в accuracy).
  • A/B-тестирование для крупных изменений.

Расширенный для продакшна

  • Всё выше +
  • Continuous evaluation на всех запросах в проде.
  • Автоматическая категоризация ошибок (по типам).
  • Регулярные ML-эксперименты в shadow mode.
  • Canary deployments с автоматическим rollback.

Главные ошибки

  1. Меряем только accuracy. Точность — важна, но недостаточна. AI с 95% accuracy и 30% уверенно-неправильных ответов опаснее, чем 90% accuracy с 10% «не знаю».

  2. Один golden set на год. Реальные запросы пользователей меняются. Golden set нужно обновлять минимум раз в квартал.

  3. LLM-as-judge без калибровки. «GPT-5 сказал, что ответ хороший» — это нужно сверять с человеком на 5–10% выборки.

  4. Без бизнес-метрик. AI с accuracy 92% может приносить меньше прибыли, чем с 88%. Зависит от того, как ошибки коррелируют с бизнес-влиянием.

  5. Тестируем только на «хороших» запросах. Реальные пользователи задают плохо сформулированные, опечатанные, многозначные вопросы. Тестирование на них критично.

  6. Без мониторинга в проде. Качество модели на тестовом сете и в проде — разные. Нужен непрерывный мониторинг.

  7. Игнорирование long-tail случаев. Аккуратность на популярных запросах — 95%, на редких — 60%. Среднее 92%. Но 5% запросов = 5% недовольных пользователей.

Сценарии оценки разных AI-систем

Чатбот поддержки

Что меряем:

  • Containment rate (целевой 60%+).
  • CSAT после AI (целевой 4.0+ из 5).
  • Hallucination rate (<1%).
  • Эскалация на оператора (целевой 15–30%).
  • Точность по типу вопросов (категориально).

AI-помощник в продукте

Что меряем:

  • Activation rate (доля пользователей, которые попробовали).
  • Repeat usage (вернулись через 7 / 30 дней).
  • Feature impact (улучшаются ли бизнес-метрики у пользователей).
  • Satisfaction (in-app опрос).

AI-классификатор (тикеты, документы)

Что меряем:

  • Precision / Recall / F1 по классам.
  • Confusion matrix.
  • Latency (для real-time).
  • Cost per classified item.

AI-генератор контента

Что меряем:

  • Quality (LLM-as-judge или human).
  • Brand voice consistency.
  • Factual accuracy.
  • Edit distance (как сильно правят AI-вывод).

Подробнее про различные AI-системы — в статьях про RAG vs Fine-tuning и векторные БД.

Этика и compliance

ЧтоПравило
Тестовые данные с ПДнобезличивание перед использованием
Хранение feedback пользователейсогласие в политике, retention 1+ год
Алерты по чувствительным темамавтоматический мониторинг для медицины, финансов, юриспруденции
Логи цепочек запросовнеобходимы для дебага, но требуют compliance с 152-ФЗ
Объяснимость решенийдля критических AI обязательна

Подробнее — в статье про безопасность данных при работе с ИИ.

FAQ

Сколько вопросов нужно в golden set? Минимум 50, оптимально 200–500 для production-системы.

Как часто обновлять golden set? Ежеквартально или при значимых изменениях продукта / типов запросов.

Можно ли использовать GPT-5 как судью для оценки Claude? Да, и наоборот. Полезно даже использовать «голосование» нескольких LLM-судей для сложных оценок.

Сколько стоит настройка evaluation процесса? Минимум: 80–150 тыс ₽ (1 ML-инженер на 2 недели). Полная инфраструктура: 600 000–1 500 000 ₽.

Какой главный показатель здоровья RAG-системы? Faithfulness (соответствие ответа источникам). Если она падает — модель «галлюцинирует», нужны интервенции.

Что важнее — Precision или Recall? Зависит от задачи. Для медицинской диагностики — Recall (не пропустить). Для спам-фильтра — Precision (не блокировать важное).

Можно ли полностью автоматизировать evaluation? Нет. Минимум 5–10% выборки должен проверять человек для калибровки автоматических методов.

Что делать прямо сейчас

  1. Сегодня: создайте простой golden set из 30 вопросов и эталонных ответов.
  2. Эту неделю: настройте простой LLM-as-judge скрипт для оценки выборки запросов.
  3. Этот месяц: добавьте кнопки обратной связи в проде и начните регулярно анализировать 50 случайных диалогов в неделю.

Связанные материалы:

Evaluation — это нелюбимая, но критическая часть AI-проекта. Без неё команда работает «вслепую»: не знает, стало лучше или хуже после изменений, не может объяснить заказчику качество, не замечает деградацию в проде. С грамотным evaluation процессом — AI-команда работает на порядок быстрее и увереннее. Это как unit-тесты для разработки: «не любим писать, но без них не разрабатываем продакшн».

Михаил Соколов

Михаил Соколов

AI-инженер с 10 годами в продакшене. Разрабатывает агентные сценарии и автоматизации на стеке OpenAI / Anthropic / YandexGPT.

Все материалы автора →

Похожие статьи

Дискуссия

Что вы думаете?

Поделитесь опытом, расскажите, как у вас решается похожая задача, или задайте вопрос — я лично читаю все комментарии и отвечаю.