Как тестировать AI-приложения: модель-судья и золотой стандарт

Если вы используете одни LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» (golden standard) для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно если вы работаете в узкопрофессиональной нише.
Сценарий: Клиент просит возврат денег, потому что кроссовки пришли не того цвета.
Ответ бота: «Мне очень жаль! Обычно мы не возвращаем деньги, если вам не подошел цвет, но вот вам скидка 10% на следующий заказ!»
Реальность: Политика компании требует полного возврата средств в случае ошибки при комплектации. Ваш LLM-судья должен отлавливать такие ошибки и штрафовать модель.
«Золотой стандарт», который судья использует для сравнения:
❌ Плохо: [Источник не предоставлен, судья полагается на свою память].
✅ Хорошо: «Справочная политика: Если товар отправлен не того цвета/размера, клиент имеет право на 100% возврат средств и получение этикетки для бесплатного возврата».
В чем смысл? Это предотвращает предвзятость, вызванную галлюцинациями. LLM «знают» многое, но их внутренние знания могут противоречить конкретным правилам вашей компании. Граундинг гарантирует, что судья оценивает ответ на основе ваших фактов, а не данных своего обучения.
«Swap and Shuffle» (Метод перестановки)
LLM-судьи часто страдают от позиционного смещения (position bias) — они склонны отдавать предпочтение первому варианту в списке просто потому, что он идет первым.
Решение: Всегда запускайте оценку дважды. Пусть судья сравнит Модель А с Моделью Б, а затем поменяйте их местами и сравните Б с А. Если судья оба раза выбирает «вариант номер один», значит, ваш промпт нуждается в доработке.
LLM-as-a-Judge — это задача программной инженерии, а не упражнение в художественном письме. Относитесь к своим промптам как к коду.


