Тестирование AI-приложений

В чем разница: Просто QA, QA с AI-инструментами и AI QA?

Перестаньте говорить о AI тестировании, если речь идет всего лишь об использовании ChatGPT для написания скриптов.

На рынке сейчас возникла большая путаница с определением трех абсолютно разных ролей. Если вы нанимаете людей или ищете работу, нужно понимать разницу между ними.

1. QA инженер, вооруженный AI-инструментами.

Цель: Эффективность
Реальность: Тестирует традиционный детерменированный продукт. Использует ChatGPT для генерации тестов или Cursor/ClaudeCode для автоматизации — т.е. просто вайб-кодит для ускорения, но задачи остаются «олд-скульными»

2. QA инженер, тестирующий встроенную AI функциональность.

Цель: Интеграционное тестирование, где на одной из сторон находится LLM.
Реальность: Может, например, проверять, как LLM-chat работает с тестируемой CRM-системой, достаточно ли вежлива модель или как часто она галлюцинирует. Уже интереснее, хотя тестер все еще использует традиционные ассерты и прочие подходы.

3. AI QA (ML evaluation инженер)

Цель: Упорядочивание недерменированного хаоса 🙂
Реальность: Вместо ассертов — статистические метрики и пороговые значения.
Инструменты: Evaluation harness (вроде EleutherAI), специальные питоновские библиотеки.

Почему третий вариант отличается от двух предыдущих?

  • Вероятность против детерминизма. Вы не проверяете, что 2+2=4. Вы проверяете, что значение метрики 0.87 достаточно для вашего специфического случая.
  • Тестирование стоимости: Потраченные токены приобретают важнейшее значение. Если ваш агент «умный», но стоит $2 за запрос, тест провален.
  • Скорость из дополнительной характеристики становится основной. На современном рынке быстрая модель 7B часто лучше медленной модели 70B.

Итог:
— Традиционное QA — ищем баги.
— ML evaluation — измеряем вероятности.

Ещё по теме
  1. LLM-as-a-Judge (модель-судья) и QA-терминология

  2. Как тестировать AI-приложения?

  3. Как тестировать AI-приложения: модель-судья и золотой стандарт

Обсуждение

Добавить комментарий

Поделитесь мыслью, вопросом или опытом — всё прочитаем.

Ваш адрес email не будет опубликован. Комментарии проходят модерацию перед публикацией.