Как тестировать AI-приложения: Модель-судья и золотой стандарт

Если вы используете одну LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» (Gold Standard) для сравнения. В противном случае ваш AI-судья полагается только на собственную память и может галлюцинировать гораздо чаще, особенно если вы работаете в узкопрофессиональной нише.

Сценарий: Клиент просит возврат денег, потому что кроссовки пришли не того цвета.

Ответ бота: «Мне очень жаль! Обычно мы не возвращаем деньги, если вам не подошел цвет, но вот вам скидка 10% на следующий заказ!»

Реальность: Политика компании требует полного возврата средств в случае ошибки при комплектации. Ваш LLM-судья должен отлавливать такие ошибки и штрафовать модель.

«Золотой стандарт», который судья использует для сравнения:

❌ Плохо: [Источник не предоставлен, судья полагается на свою память].

✅ Хорошо: «Справочная политика: Если товар отправлен не того цвета/размера, клиент имеет право на 100% возврат средств и получение этикетки для бесплатного возврата».

В чем смысл? Это предотвращает предвзятость, вызванную галлюцинациями. LLM «знают» многое, но их внутренние знания могут противоречить конкретным правилам вашей компании. Граундинг гарантирует, что судья оценивает ответ на основе ваших фактов, а не данных своего обучения.

«Swap and Shuffle» (Метод перестановки)
LLM-судьи часто страдают от позиционного смещения (position bias): они склонны отдавать предпочтение первому варианту в списке просто потому, что он идет первым.

Решение: Всегда запускайте оценку дважды. Пусть судья сравнит Модель А с Моделью Б, а затем поменяйте их местами и сравните Б с А. Если судья оба раза выбирает «вариант номер один», значит, ваш промпт нуждается в доработке.

LLM-as-a-Judge — это задача программной инженерии, а не упражнение в художественном письме. Относитесь к своим промптам как к коду.

На проекте мы уделяем особое внимание как промптам, так и золотому стандарту. Обычно его создают эксперты в данной области, но иногда мы доверяем эту сложную работу мощной модели. Чтобы, разумеется, после этого отдать результат специалистам на проверку.

Почему мне нравится работать ML evaluation инженером после 20 лет опыта в QA

Как короткое слово может превратить ваш AI-продукт в юридический кошмар

Как стать тестировщиком AI-приложений

Добавить комментарий Отменить ответ