
Как короткое слово может превратить ваш AI-продукт в юридический кошмар
Разберем проблему "НЕ". В сфере ML Evaluation, особенно при использовании подхода LLM-судьи, мы часто попадаемся в ловушку «гала-эффекта» (Halo Effect).

Разберем проблему "НЕ". В сфере ML Evaluation, особенно при использовании подхода LLM-судьи, мы часто попадаемся в ловушку «гала-эффекта» (Halo Effect).

Если вы используете одни LLM для оценки других, использование прилагательных в промптах — плохая идея. Вместо них лучше использовать рубрики.

Если вы используете одни LLM для оценки других, всегда лучше иметь под рукой «золотой стандарт» (golden standard) для сравнения. В противном случае ваш «судья» полагается только на собственную память и может галлюцинировать гораздо чаще, особенно если вы работаете в узкопрофессиональной нише.

Если вы задумываетесь о переходе из QA в ML-инженеры, стоит начать с изучения основных концепций больших языковых моделей (LLM) и способов оценки их результатов. Одна из ключевых идей здесь — оценка работы «младшей» модели с помощью «старшей» (вместо или вместе с проверкой человеком).