Нейросети теряют 50% точности на сложных графиках

Бенчмарк RealChart2Code выявил критическое падение производительности ИИ-моделей при работе с многослойными визуализациями и реальными датасетами.

Оглавление

Разрыв между проприетарными и открытыми решениями
Типичные ошибки и «регрессивное редактирование»

Современные большие языковые модели демонстрируют впечатляющие успехи в написании кода и анализе текста, однако их способность визуализировать данные все еще оставляет желать лучшего. Новый бенчмарк RealChart2Code, разработанный исследователями из нескольких китайских университетов, показал, что производительность топовых систем падает почти вдвое, когда им приходится работать с комплексными реальными датасетами вместо синтетических примеров. Как сообщает The Decoder, даже лидеры индустрии теряют уверенность, как только структура визуализации выходит за рамки элементарных диаграмм.

Методология RealChart2Code включает более 2800 тестовых заданий, основанных на «живых» данных из Kaggle. В отличие от предшествующих тестов вроде Plot2Code, которые полагались на искусственно созданные условия, новый бенчмарк заставляет модели обрабатывать огромные массивы данных — общим объемом около 860 миллионов строк. Испытание разделено на три ключевых этапа: репликация (создание кода по картинке), воспроизведение (генерация визуализации на основе сырых данных) и уточнение, где ИИ должен исправлять ошибки в диалоге с пользователем.

Разрыв между проприетарными и открытыми решениями

В ходе тестирования 14 моделей проявилась четкая иерархия. Среди закрытых систем лидирует Claude 4.5 Opus от Anthropic с результатом 8.2 балла из 10, за ней следует Gemini 3 Pro Preview от Google с 8.1 баллами. Любопытно, что GPT-5.1 от OpenAI заметно отстала, набрав лишь 5.4 балла. Однако настоящая пропасть обнаружилась при сравнении с моделями с открытыми весами: лучшие из них, такие как Qwen3-VL-235B, едва преодолели порог в 3.6 балла, что выглядит скорее как статистическая погрешность на фоне лидеров.

Основной проблемой стал так называемый «разрыв сложности». Если на простых синтетических тестах та же Gemini 3 Pro показывает точность около 96%, то в условиях RealChart2Code этот показатель падает до 50%. Для открытых моделей ситуация еще плачевнее: их результативность обрушивается с 85% до критических 25%. Похоже, что за красивыми маркетинговыми графиками скрывается неспособность алгоритмов удерживать контекст при работе с многослойными структурами и специфическими параметрами библиотек вроде Matplotlib.

Нынешний восторг от визуальных способностей LLM напоминает ранние этапы беспилотного вождения: система отлично едет по пустой прямой трассе, но теряется на первом же сложном перекрестке. Мы видим фундаментальное ограничение — модели не понимают физику данных и логику пространственной компоновки, подменяя их статистическим угадыванием. Пока ИИ галлюцинирует библиотеками и путает оси, о полной автоматизации аналитики в продакшене говорить преждевременно. Это не интеллект, а очень дорогой и капризный Т9 для графиков.

Типичные ошибки и «регрессивное редактирование»

Анализ провалов выявил два характерных паттерна поведения. Открытые модели часто страдают от галлюцинаций на уровне синтаксиса: они выдумывают несуществующие функции или параметры в коде. Например, Qwen3-VL-235B в каждом пятом случае пытается вызвать невалидные API-команды. Даже если код запускается, результат часто напоминает абстрактную живопись, где текстовые элементы накладываются друг на друга, а сетка координат живет своей жизнью.

Проприетарные модели, напротив, пишут чистый код, но ошибаются в самой сути визуализации. Они могут идеально отрисовать структуру, но при этом перепутать ряды данных или неверно распределить атрибуты по осям. Еще одной серьезной проблемой стало «регрессивное редактирование» — процесс, при котором модель, пытаясь исправить одну ошибку по просьбе пользователя, неизбежно ломает те части кода, которые до этого работали исправно. Баланс между локальными правками и общей целостностью проекта остается для нейросетей непостижимой задачей.

Исследователи отмечают, что автоматизированная оценка, использованная в бенчмарке, совпала с мнением экспертов-людей на 83%. Это подтверждает адекватность методики, хотя авторы признают, что пока тест ограничен только библиотекой Matplotlib.

Исходные коды бенчмарка уже опубликованы на GitHub и Hugging Face, предоставляя сообществу инструмент для более трезвой оценки возможностей современных «визионеров» от мира ИИ.

Новости

Даже продвинутые нейросети плохо справляются с визуализацией данных

Разрыв между проприетарными и открытыми решениями

Типичные ошибки и «регрессивное редактирование»

Еще интереснее

Фреймворк LifeSkill может решить проблему непрерывного обучения LLM

ChatGPT начинает формировать профиль пользователя через систему памяти Dreaming

Новую ИИ-модель Google Gemma 4 12B удалось запустить локально на обычном ноутбуке

OpenAI добавила в GPT-Rosalind больше инструментов для работы с биологическими данными

Оставить комментарий