Meta* представляет Gaia2 и ARE — бенчмарк для тестирования ИИ-агентов в реальных условиях
Meta представляет Gaia2 — новый агентный бенчмарк с открытым фреймворком ARE для тестирования ИИ-агентов в условиях, максимально приближенных к реальному миру.
22 января 2026
Meta представляет Gaia2 — новый агентный бенчмарк с открытым фреймворком ARE для тестирования ИИ-агентов в условиях, максимально приближенных к реальному миру.
ServiceNow анонсировала SyGra — low-code фреймворк для генерации и преобразования данных для обучения языковых моделей. Решение упрощает создание сложных датасетов для SFT, DPO и RAG-пайплайнов.
Scale запустила SEAL Showdown — первый рейтинг языковых моделей на основе оценок реальных пользователей из 100+ стран с детальной сегментацией по демографии.
AlphaSense запустила Workflow Agents — автоматизированные рабочие процессы для бизнес-исследований, сокращающие время анализа с дней до минут.
Stanford HAI запустил Behavior Challenge — системный тест для домашних роботов с 50 бытовыми задачами. Эксперимент оценивает успешность, эффективность и надежность роботизированных систем в реальных условиях.
Perplexity AI запустила интеллектуальный инструмент для шопинга, использующий машинное обучение для анализа миллионов товаров и предоставления персонализированных рекомендаций.