Могут ли LLM писать код корпоративного уровня?

Анализ возможностей языковых моделей в генерации кода для крупных систем и обзор фреймворка AC/DC от компании Sonar.

Оглавление

Ловушка стандартных бенчмарков
Исследование качества кода от Sonar
Фреймворк AC/DC как попытка контроля

Переход от написания кода в редакторе к управлению ИИ-агентами стал реальностью, которая фундаментально меняет повседневную работу инженера. Как сообщает StartupHub.ai, Прасенджит Саркар из компании Sonar представил критический взгляд на возможности больших языковых моделей (LLM) в создании софта, готового к эксплуатации в продакшене.

Сегодня разработчик все чаще выступает в роли наставника или рецензента, формулируя задачи на естественном языке и проверяя результат работы нейросети. Однако за впечатляющей скоростью генерации скрывается вопрос: насколько этот код соответствует жестким стандартам Enterprise-разработки, где важна не только работоспособность функции, но и ее безопасность.

Ловушка стандартных бенчмарков

Существующие метрики вроде HumanEval или MBPP, на которые так любят ссылаться создатели моделей, часто вводят в заблуждение. Они оценивают алгоритмическую корректность — то есть, решает ли код задачу «в вакууме», — но полностью игнорируют контекстную осведомленность, надежность и ремонтопригодность, без которых невозможно существование крупной системы.

Проблема в том, что LLM по своей природе вероятностны и лишены глубокого понимания всей архитектуры проекта. Высокий балл в тестах может скрывать за собой «спагетти-код», перегруженный техническим долгом и уязвимостями. Модели часто обучаются на наборах данных, содержащих устаревшие паттерны или логические ошибки, которые затем незаметно перекочевывают в корпоративные репозитории.

Исследование качества кода от Sonar

Специалисты Sonar проанализировали более 50 ведущих моделей, используя массив из 4000 задач на языке Java. Оценка проводилась через SonarQube Enterprise, что позволило выявить скрытые баги и «код с душком» (code smells), которые обычно ускользают от простых тестов на запуск.

Результаты оказались ироничными: модели с самым высоким процентом успешного выполнения задач часто генерируют избыточный и чрезмерно сложный код. Например, Gemini показала отличную точность, но одновременно с этим — высокую плотность критических замечаний. Это классический компромисс между функциональностью и чистотой реализации, который ИИ пока не научился балансировать самостоятельно.

Генерация кода нейросетями сегодня напоминает работу очень быстрого, но крайне невнимательного стажера. Он выдает рабочий результат за секунды, но требует тотального аудита каждой строки на предмет безопасности и архитектурной чистоты. Без интеграции автоматизированных систем проверки в пайплайн разработки внедрение ИИ в Enterprise-сегмент лишь ускоряет накопление технического долга, превращая сиюминутную экономию времени в долгосрочную операционную катастрофу. Технологический оптимизм здесь должен уравновешиваться жестким статическим анализом.

Фреймворк AC/DC как попытка контроля

Для решения этих проблем была предложена концепция AC/DC (Guide, Verify, Solve), которая структурирует процесс агентной разработки. Этот алгоритм позволяет минимизировать риски при интеграции ИИ в рабочий процесс:

Направление (Guide): Использование инструментов контекстного обогащения, чтобы модель видела не только конкретный файл, но и понимала связи внутри всей кодовой базы.
Верификация (Verify): Автоматическая проверка сгенерированного фрагмента через анализаторы на наличие уязвимостей и соответствие стандартам качества.
Исправление (Solve): Использование специализированных агентов для устранения найденных проблем еще до того, как код попадет на стадию коммита.

Такой подход превращает хаотичную генерацию в контролируемый инженерный процесс. Хотя LLM продолжают прогрессировать, их нынешнее состояние требует от компаний не столько веры в «магию ИИ», сколько внедрения строгих фильтров и инструментов проверки. В конечном счете, ответственность за работоспособность системы по-прежнему несет человек, а не вероятностный алгоритм.