Tencent создала метод самообучения языковых моделей без человеческих данных
Tencent AI Lab разработала фреймворк R-Zero, позволяющий языковым моделям самообучаться без человеческих данных через co-evolution двух моделей.
Обучение с подкреплением — метод машинного обучения через взаимодействие со средой
Tencent AI Lab разработала фреймворк R-Zero, позволяющий языковым моделям самообучаться без человеческих данных через co-evolution двух моделей.
Scale AI использует reinforcement learning для адаптации языковых моделей под корпоративные данные. Эксперты отмечают технологические сложности внедрения.