Исследователи MIT разработали универсальное руководство по созданию законов масштабирования для языковых моделей, позволяющее оптимизировать многомиллионные бюджеты на обучение ИИ.
Представлена первая открытая OCR-модель для марокканского диалекта Darija на базе Vision Language Model с 3B параметрами, решающая проблему обработки низкоресурсных языков.
Hugging Face выпустила LeRobotDataset v3 с поддержкой потоковой обработки больших наборов данных для обучения роботов. Новый формат решает проблему масштабирования и позволяет работать с миллионами эпизодов.
BigQuery ML теперь поддерживает Gemini embedding model и 13K+ open-source моделей для генерации текстовых эмбеддингов напрямую через SQL-запросы.
Кремниевая долина активно инвестирует в RL-среды для обучения ИИ-агентов, с миллиардными вложениями от Anthropic и ростом спроса на симуляционные тренировочные площадки.
7-Eleven внедрила AI-систему для автоматического документирования метаданных, сократив время обработки на 85% и увеличив покрытие документации до 95%.