В чем разница: Просто QA, QA с AI-инструментами и AI QA?

Перестаньте говорить о AI тестировании, если речь идет всего лишь об использовании ChatGPT для написания скриптов. 🛑

На рынке сейчас возникла большая путаница с определением трех абсолютно разных ролей. Если вы нанимаете людей или ищете работу, нужно понимать разницу между ними.

1. QA инженер, вооруженный AI-инструментами

Цель: Эффективность
Реальность: Тестирует традиционный детерменированный продукт. Использует ChatGPT для генерации тестов или Cursor/ClaudeCode для автоматизации — т.е. просто вайб-кодит для ускорения, но задачи остаются «олд-скульными»

2. QA инженер, тестирующий встроенную AI функциональность

Цель: Интеграционное тестирование, где на одной из сторон находится LLM.
Реальность: Может, например, проверять, как LLM-chat работает с тестируемой CRM-системой, достаточно ли вежлива модель или как часто она галлюцинирует. Уже интереснее, хотя тестер все еще использует традиционные ассерты и прочие подходы.

3. AI QA (ML evaluation инженер)

Цель: Упорядочивание недерменированного хаоса 🙂
Реальность: Вместо ассертов — статистические метрики и пороговые значения.
Инструменты: Evaluation harness (вроде EleutherAI), специальные питоновские библиотеки.

Почему третий вариант отличается от двух предыдущих?

Вероятность против детерминизма. Вы не проверяете, что 2+2=4. Вы проверяете, что значение метрики 0.87 достаточно для вашего специфического случая.
Тестирование стоимости: Потраченные токены приобретают важнейшее значение. Если ваш агент «умный», но стоит $2 за запрос, тест провален.
Скорость из дополнительной характеристики становится основной. На современном рынке быстрая модель 7B часто лучше медленной модели 70B.

Итог

Традиционное QA — ищем баги.
ML evaluation — измеряем вероятности.

Итог

Почему мне нравится работать ML evaluation инженером после 20 лет опыта в QA

Как короткое слово может превратить ваш AI-продукт в юридический кошмар

Тестовое задание для тестировщика AI-приложений

Добавить комментарий Отменить ответ