Cursor улучшил автодополнение кода с помощью обучения с подкреплением

Cursor обновил систему автодополнения Tab с помощью обучения с подкреплением: на 21% меньше предложений, но на 28% выше процент принятия.

Оглавление

Проблема шумных предложений
Методы policy gradient
Важность онлайновых данных

Команда Cursor представила новую версию своей системы автодополнения Tab, обученную с помощью методов обучения с подкреплением. Результаты впечатляют: модель теперь делает на 21% меньше предложений, но при этом увеличила процент принятия на 28%.

Проблема шумных предложений

Система Tab в Cursor анализирует каждое действие пользователя в редакторе, обрабатывая более 400 миллионов запросов ежедневно. Главная задача — не просто предсказывать следующий шаг, но и понимать, когда стоит показывать подсказку, а когда лучше промолчать.

Как отмечают разработчики, высокая частота принятия предложений — это не только вопрос умной модели, но и правильного выбора момента. Иногда просто недостаточно информации для точного предсказания действий пользователя.

Подход Cursor с онлайн-обучением выглядит свежо на фоне индустрии, где модели обычно обновляются раз в несколько месяцев. Их цикл в 1.5-2 часа между деплоем и сбором данных — это серьезная инженерная работа, хотя и не без пространства для оптимизации. Интересно, смогут ли они масштабировать этот подход без потери качества.

Методы policy gradient

Вместо традиционного подхода с фильтрацией плохих предложений (как в GitHub Copilot), Cursor выбрали более элегантное решение — модифицировать саму модель, чтобы она изначально избегала генерации неподходящих предложений.

Методы градиента политики позволяют оптимизировать политику модели для максимизации «вознаграждения». В данном случае:

Вознаграждение +0.75 за принятые предложения
Штраф -0.25 за отклоненные
Нулевое вознаграждение за отсутствие предложения

Такая схема побуждает модель предлагать варианты только когда вероятность принятия превышает 25%.

Важность онлайновых данных

Ключевая особенность подхода Cursor — использование онлайновых данных от реальных пользователей. Теорема градиента политики позволяет обновлять модель на основе фактического поведения пользователей, но для этого нужны свежие данные от текущей версии политики.

Это требует серьезной инфраструктуры: быстрого развертывания новых чекпоинтов и минимальной задержки между показом предложения пользователю и использованием этих данных для следующего этапа обучения.

График производительности, показывающий улучшения модели Tab с помощью обучения с подкреплением

Источник: cursor.com

По словам разработчиков, текущий цикл занимает 1.5-2 часа, что быстро по меркам индустрии, но все еще оставляет пространство для улучшений.

Новая модель Tab уже стала стандартной в Cursor и должна сделать процесс программирования более плавным и менее отвлекающим. Команда планирует дальнейшее развитие этих методов в будущем. Сообщает Cursor.

Новости

Cursor улучшил автодополнение кода с помощью обучения с подкреплением

Проблема шумных предложений

Методы policy gradient

Важность онлайновых данных

Еще интереснее

Почему масштаб контекста перестал быть главным мерилом эффективности LLM

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Оставить комментарий