В чем разница: Просто QA, QA с AI-инструментами и AI QA?

Перестаньте говорить о AI тестировании, если речь идет всего лишь об использовании ChatGPT для написания скриптов.

На рынке сейчас возникла большая путаница с определением трех абсолютно разных ролей. Если вы нанимаете людей или ищете работу, нужно понимать разницу между ними.

1. QA инженер, вооруженный AI-инструментами.

Цель: Эффективность
Реальность: Тестирует традиционный детерменированный продукт. Использует ChatGPT для генерации тестов или Cursor/ClaudeCode для автоматизации — т.е. просто вайб-кодит для ускорения, но задачи остаются «олд-скульными»

2. QA инженер, тестирующий встроенную AI функциональность.

Цель: Интеграционное тестирование, где на одной из сторон находится LLM.
Реальность: Может, например, проверять, как LLM-chat работает с тестируемой CRM-системой, достаточно ли вежлива модель или как часто она галлюцинирует. Уже интереснее, хотя тестер все еще использует традиционные ассерты и прочие подходы.

3. AI QA (ML evaluation инженер)

Цель: Упорядочивание недерменированного хаоса 🙂
Реальность: Вместо ассертов — статистические метрики и пороговые значения.
Инструменты: Evaluation harness (вроде EleutherAI), специальные питоновские библиотеки.

Почему третий вариант отличается от двух предыдущих?

Вероятность против детерминизма. Вы не проверяете, что 2+2=4. Вы проверяете, что значение метрики 0.87 достаточно для вашего специфического случая.
Тестирование стоимости: Потраченные токены приобретают важнейшее значение. Если ваш агент «умный», но стоит $2 за запрос, тест провален.
Скорость из дополнительной характеристики становится основной. На современном рынке быстрая модель 7B часто лучше медленной модели 70B.

Итог:
— Традиционное QA — ищем баги.
— ML evaluation — измеряем вероятности.

Как стать тестировщиком AI-приложений

Один день тестировщика AI-приложений

Тестовое задание AI QA тестировщика

Добавить комментарий Отменить ответ