CodeT5
CodeT5 — это открытая большая языковая модель (LLM) для генерации, автодополнения, перевода и анализа кода, разработанная Salesforce Research на основе архитектуры Google T5. Модель обучена на миллионах функций на 8+ языках и поддерживает текст-в-код, автодополнение фрагментов, генерацию объяснений, перевод между языками программирования и обнаружение ошибок. CodeT5+ расширяет архитектуру, добавляя режимы encoder-only/decoder-only/seq2seq и масштабы до 16B параметров.
Модель распространяется по лицензии Apache 2.0 и интегрируется с VS Code, Hugging Face и корпоративными решениями on-prem. Семейство CodeT5+ расширяет функционал, объединяя режимы кодового энкодера, декодера и seq2seq для гибкости под разные сценарии.
Особенности:
- Унифицированная encoder-decoder архитектура для понимания и генерации кода.
- Идентификатор-ориентированная предобучение с задачами распознавания и восстановления переменных.
- Поддержка множества языков программирования: Python, Java, Go, C#, Ruby и др.
- Масштабируемость с моделями от 220 млн до 16 млрд параметров (CodeT5+).
- Гибкая конфигурация: режимы только энкодера, только декодера или комбинированный seq2seq.
- Высокая точность на задачах поиска дефектов, автодополнения, перевода кода и суммаризации.
- Открытый исходный код и лицензия Apache 2.0.
Ссылки:
Записей не найдено.