Scale представила бенчмарк Audio MultiChallenge, который тестирует голосовые ИИ на реалистичных диалогах с исправлениями и паузами. Лидером стал Gemini 3 Pro, а GPT-4o значительно отстал.
Исследование Oxford Economics по заказу Scale показало, что индустрия аннотации данных в США создала экономику на $5,7 млрд и почти 200 тыс. рабочих мест, привлекая высокообразованных экспертов.
Scale и Temporal представили руководство по созданию автономных агентов для предприятий, способных работать месяцами и привлекать людей только для ключевых решений.
Исследование показывает, что фильтрация данных в био-моделях не обеспечивает полной защиты. Опасные знания сохраняются в скрытых слоях и могут быть восстановлены с помощью простых техник.
Специализированные RL-агенты Scale демонстрируют до 46,9% точности против 21,9% у GPT-5 в корпоративных задачах, открывая новую эру адаптированных AI-решений для бизнеса.
Scale AI и Корейский институт безопасности ИИ объявили о стратегическом партнерстве для разработки глобальных стандартов оценки и регулирования искусственного интеллекта.