Команда Cursor представила новую версию своей системы автодополнения Tab, обученную с помощью методов обучения с подкреплением. Результаты впечатляют: модель теперь делает на 21% меньше предложений, но при этом увеличила процент принятия на 28%.
Проблема шумных предложений
Система Tab в Cursor анализирует каждое действие пользователя в редакторе, обрабатывая более 400 миллионов запросов ежедневно. Главная задача — не просто предсказывать следующий шаг, но и понимать, когда стоит показывать подсказку, а когда лучше промолчать.
Как отмечают разработчики, высокая частота принятия предложений — это не только вопрос умной модели, но и правильного выбора момента. Иногда просто недостаточно информации для точного предсказания действий пользователя.
Подход Cursor с онлайн-обучением выглядит свежо на фоне индустрии, где модели обычно обновляются раз в несколько месяцев. Их цикл в 1.5-2 часа между деплоем и сбором данных — это серьезная инженерная работа, хотя и не без пространства для оптимизации. Интересно, смогут ли они масштабировать этот подход без потери качества.
Методы policy gradient
Вместо традиционного подхода с фильтрацией плохих предложений (как в GitHub Copilot), Cursor выбрали более элегантное решение — модифицировать саму модель, чтобы она изначально избегала генерации неподходящих предложений.
Методы градиента политики позволяют оптимизировать политику модели для максимизации «вознаграждения». В данном случае:
- Вознаграждение +0.75 за принятые предложения
- Штраф -0.25 за отклоненные
- Нулевое вознаграждение за отсутствие предложения
Такая схема побуждает модель предлагать варианты только когда вероятность принятия превышает 25%.
Важность онлайновых данных
Ключевая особенность подхода Cursor — использование онлайновых данных от реальных пользователей. Теорема градиента политики позволяет обновлять модель на основе фактического поведения пользователей, но для этого нужны свежие данные от текущей версии политики.
Это требует серьезной инфраструктуры: быстрого развертывания новых чекпоинтов и минимальной задержки между показом предложения пользователю и использованием этих данных для следующего этапа обучения.

Источник: cursor.com
По словам разработчиков, текущий цикл занимает 1.5-2 часа, что быстро по меркам индустрии, но все еще оставляет пространство для улучшений.
Новая модель Tab уже стала стандартной в Cursor и должна сделать процесс программирования более плавным и менее отвлекающим. Команда планирует дальнейшее развитие этих методов в будущем. Сообщает Cursor.
Оставить комментарий