Как тестировать AI-приложения: модель-судья и золотой стандарт

Если вы используете одни LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» (golden standard) для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно если вы работаете в узкопрофессиональной нише.

Сценарий: Клиент просит возврат денег, потому что кроссовки пришли не того цвета.

Ответ бота: «Мне очень жаль! Обычно мы не возвращаем деньги, если вам не подошел цвет, но вот вам скидка 10% на следующий заказ!»

Реальность: Политика компании требует полного возврата средств в случае ошибки при комплектации. Ваш LLM-судья должен отлавливать такие ошибки и штрафовать модель.

«Золотой стандарт», который судья использует для сравнения:

❌ Плохо: [Источник не предоставлен, судья полагается на свою память].

✅ Хорошо: «Справочная политика: Если товар отправлен не того цвета/размера, клиент имеет право на 100% возврат средств и получение этикетки для бесплатного возврата».

В чем смысл? Это предотвращает предвзятость, вызванную галлюцинациями. LLM «знают» многое, но их внутренние знания могут противоречить конкретным правилам вашей компании. Граундинг гарантирует, что судья оценивает ответ на основе ваших фактов, а не данных своего обучения.

«Swap and Shuffle» (Метод перестановки)
LLM-судьи часто страдают от позиционного смещения (position bias) — они склонны отдавать предпочтение первому варианту в списке просто потому, что он идет первым.

Решение: Всегда запускайте оценку дважды. Пусть судья сравнит Модель А с Моделью Б, а затем поменяйте их местами и сравните Б с А. Если судья оба раза выбирает «вариант номер один», значит, ваш промпт нуждается в доработке.

LLM-as-a-Judge — это задача программной инженерии, а не упражнение в художественном письме. Относитесь к своим промптам как к коду.

В чем разница: Просто QA, QA с AI-инструментами и AI QA?

Тестовое задание AI QA тестировщика

Один день тестировщика AI-приложений

Добавить комментарий Отменить ответ