Статьи по тегу: Боль ручного тестирования промптов (eye-balling)

В классической программной инженерии правит детерминизм. Функция сортировки либо возвращает отсортированный массив, либо нет. Мы пишем `assert result == expected`, запускаем CI/CD пайплайн и спокойно идем пить кофе. В разработке продуктов на базе Large Language Models (LLM) этот уютный подход рушится на первом же коммите.