Статьи по тегу: Как измерить качество ответов

В классической программной инженерии правит детерминизм. Функция сортировки либо возвращает отсортированный массив, либо нет. Мы пишем `assert result == expected`, запускаем CI/CD пайплайн и спокойно идем пить кофе. В разработке продуктов на базе Large Language Models (LLM) этот уютный подход рушится на первом же коммите.