Современные системы искусственного интеллекта, претендующие на роль автономных разработчиков, демонстрируют удивительную способность ориентироваться в структуре крупных проектов, однако их точность резко падает при попытке локализовать конкретную проблему. Как пишет The Decoder, новое исследование с использованием бенчмарка SWE-Explore выявило существенный разрыв между способностью ИИ найти нужный файл и его умением выделить именно те строки кода, которые требуют исправления.
Международная группа исследователей, включая специалистов из Шанхайского университета Цзяо Тун, решила заглянуть под капот процесса разработки. До сих пор эффективность ИИ-агентов оценивалась по конечному результату: исправлен баг или нет. Такой подход игнорирует критически важный этап — поиск релевантного контекста, ведь если модель не прочитала нужный фрагмент кода, любой успешный патч становится скорее вопросом везения, чем инженерного расчета.
Методология эталонного прочтения
Для создания SWE-Explore авторы использовали 848 задач из 203 проектов с открытым исходным кодом. Чтобы определить «золотой стандарт» необходимых для изучения строк, исследователи проанализировали логи успешных решений от топовых моделей, таких как GPT-5.4, Gemini 3 Pro и Claude Sonnet 4.6. Те участки кода, на которых сходились пути разных моделей при поиске верного решения, и стали эталонными точками интереса.
Эксперимент охватил десять языков программирования, среди которых лидирует Python, а за ним следуют Go, JavaScript и Rust. В тестировании участвовали как универсальные инструменты вроде Claude Code и OpenHands, так и специализированные исследовательские системы поиска кода. Результаты оказались отрезвляющими: классический поиск по ключевым словам едва справляется лучше случайного выбора, так как описания багов часто содержат термины, которые в документации встречаются чаще, чем в проблемном коде.
Способность ИИ-агентов находить файлы при почти полной слепоте к конкретным строкам — это классическая проблема «полузнания», которая в продакшене превращается в технический долг. Пока разработчики инструментов гонятся за Repair Rate, они игнорируют качество контекстного окна, заставляя модели гадать на кофейной гуще вместо точечной работы с логикой. Без перехода от простого сканирования к глубокому пониманию связей в коде, как это пробует делать CoSIL, мы рискуем получить армию быстрых, но поверхностных имитаторов кодинга.
Точность на уровне строк и порог понимания
На уровне файлов большинство агентов справляются достойно, быстро сужая область поиска. Однако, когда дело доходит до конкретных строк, точность падает до критических 14–19%. Даже использование более мощных языковых моделей не исправляет ситуацию коренным образом. Интересным исключением стала система CoSIL, которая анализирует код как сеть взаимосвязанных блоков, что позволило ей показать значительно более высокие результаты в локализации проблемных мест.
Исследователи также провели эксперимент по варьированию объема доступного контекста, предоставляя моделям от 0 до 100% необходимых данных. Выяснилось, что процесс «понимания» задачи моделью не линеен. Существует определенный порог: пока ИИ не видит хотя бы 50–75% ключевых фрагментов кода, вероятность успешного исправления остается близкой к нулю. Как только этот порог пройден, даже наличие лишнего, нерелевантного кода в контекстном окне практически не мешает модели выдать верное решение.
Эти данные указывают на то, что для следующего качественного скачка ИИ-инструментам нужно не просто «читать меньше, но точнее», а скорее наоборот — уметь эффективно поглощать большие объемы данных, не теряя из виду критические детали. В условиях, когда даже профессиональные разработчики отвергают около половины решений, предлагаемых ИИ из-за функциональных ошибок, вопрос точности локализации становится определяющим для будущего автономного программирования.
Оставить комментарий