Фреймворк cua-bench

Новый фреймворк cua-bench решает проблему хрупкости ИИ-агентов для управления компьютером

Cua-bench — новый фреймворк для генерации разнообразных данных интерфейса и траекторий обучения, решающий проблему хрупкости ИИ-агентов для управления компьютером.

Отчет Forrester Wave об инфраструктуре

Google Cloud назван лидером в отчете Forrester Wave об инфраструктуре для ИИ

Google Cloud признан лидером в отчете Forrester Wave по инфраструктурным решениям для искусственного интеллекта за 2025 год, получив высшие оценки в стратегии и рыночном присутствии.

SageMaker MLflow и Snowflake

AWS представил интеграцию SageMaker MLflow и Snowflake для отслеживания ML-экспериментов

AWS анонсировала интеграцию управляемого MLflow на Amazon SageMaker с платформой данных Snowflake. Решение позволяет централизованно отслеживать ML-эксперименты, проводимые в Snowpark, улучшая воспроизводимость и управление моделями.

Google Cloud выпускает Cluster Director

Google Cloud выпускает Cluster Director для автоматизации AI и HPC кластеров

Google Cloud анонсировала общую доступность сервиса Cluster Director для автоматизации жизненного цикла ИИ- и HPC-кластеров на базе Slurm. Сервис охватывает проектирование, развертывание и мониторинг, стремясь избавить команды от рутины и повысить надежность инфраструктуры.

Бенчмарк Audio MultiChallenge

Новый бенчмарк Audio MultiChallenge показал, насколько плохо ИИ понимает живую речь

Scale представила бенчмарк Audio MultiChallenge, который тестирует голосовые ИИ на реалистичных диалогах с исправлениями и паузами. Лидером стал Gemini 3 Pro, а GPT-4o значительно отстал.

Google Gemini 3 Flash

Уже доступна Google Gemini 3 Flash — быстрая языковая модель для разработчиков

Google представила Gemini 3 Flash — оптимизированную языковую модель, которая сочетает производительность флагмана с низкой задержкой и стоимостью, нацеленную на разработчиков и массовое внедрение.