CodeT5

CodeT5 — это открытая большая языковая модель (LLM) для генерации, автодополнения, перевода и анализа кода, разработанная Salesforce Research на основе архитектуры Google T5. Модель обучена на миллионах функций на 8+ языках и поддерживает текст-в-код, автодополнение фрагментов, генерацию объяснений, перевод между языками программирования и обнаружение ошибок. CodeT5+ расширяет архитектуру, добавляя режимы encoder-only/decoder-only/seq2seq и масштабы до 16B параметров.

Модель распространяется по лицензии Apache 2.0 и интегрируется с VS Code, Hugging Face и корпоративными решениями on-prem. Семейство CodeT5+ расширяет функционал, объединяя режимы кодового энкодера, декодера и seq2seq для гибкости под разные сценарии.

Особенности:

  • Унифицированная encoder-decoder архитектура для понимания и генерации кода.
  • Идентификатор-ориентированная предобучение с задачами распознавания и восстановления переменных.
  • Поддержка множества языков программирования: Python, Java, Go, C#, Ruby и др.
  • Масштабируемость с моделями от 220 млн до 16 млрд параметров (CodeT5+).
  • Гибкая конфигурация: режимы только энкодера, только декодера или комбинированный seq2seq.
  • Высокая точность на задачах поиска дефектов, автодополнения, перевода кода и суммаризации.
  • Открытый исходный код и лицензия Apache 2.0.

Ссылки:

Записей не найдено.