Reinforcement learning

Обучение с подкреплением — метод машинного обучения через взаимодействие со средой

Новости

Tencent создала метод самообучения языковых моделей без человеческих данных

Tencent AI Lab разработала фреймворк R-Zero, позволяющий языковым моделям самообучаться без человеческих данных через co-evolution двух моделей.

Scale AI адаптирует языковые модели для корпораций через reinforcement learning

Scale AI использует reinforcement learning для адаптации языковых моделей под корпоративные данные. Эксперты отмечают технологические сложности внедрения.