Meta* представляет Gaia2

Meta* представляет Gaia2 и ARE — бенчмарк для тестирования ИИ-агентов в реальных условиях

Meta представляет Gaia2 — новый агентный бенчмарк с открытым фреймворком ARE для тестирования ИИ-агентов в условиях, максимально приближенных к реальному миру.

ServiceNow представляет SyGra

ServiceNow представляет SyGra — фреймворк для генерации данных для языковых моделей

ServiceNow анонсировала SyGra — low-code фреймворк для генерации и преобразования данных для обучения языковых моделей. Решение упрощает создание сложных датасетов для SFT, DPO и RAG-пайплайнов.

Scale запускает SEAL Showdown

Scale запускает SEAL Showdown — рейтинг LLM на основе отзывов реальных пользователей

Scale запустила SEAL Showdown — первый рейтинг языковых моделей на основе оценок реальных пользователей из 100+ стран с детальной сегментацией по демографии.

AlphaSense представляет Workflow Agents

AlphaSense представляет Workflow Agents для автоматизации бизнес-исследований

AlphaSense запустила Workflow Agents — автоматизированные рабочие процессы для бизнес-исследований, сокращающие время анализа с дней до минут.

Проект Behavior Challenge

Поведенческий вызов для домашних роботов: как Stanford HAI тестирует бытовые навыки ИИ

Stanford HAI запустил Behavior Challenge — системный тест для домашних роботов с 50 бытовыми задачами. Эксперимент оценивает успешность, эффективность и надежность роботизированных систем в реальных условиях.

Perplexity запускает умный шоппинг

Perplexity AI запускает инструмент для умного шопинга с помощью ИИ-анализа отзывов

Perplexity AI запустила интеллектуальный инструмент для шопинга, использующий машинное обучение для анализа миллионов товаров и предоставления персонализированных рекомендаций.