Бенчмарк Audio MultiChallenge

Новый бенчмарк Audio MultiChallenge показал, насколько плохо ИИ понимает живую речь

Scale представила бенчмарк Audio MultiChallenge, который тестирует голосовые ИИ на реалистичных диалогах с исправлениями и паузами. Лидером стал Gemini 3 Pro, а GPT-4o значительно отстал.

Google Gemini 3 Flash

Уже доступна Google Gemini 3 Flash — быстрая языковая модель для разработчиков

Google представила Gemini 3 Flash — оптимизированную языковую модель, которая сочетает производительность флагмана с низкой задержкой и стоимостью, нацеленную на разработчиков и массовое внедрение.

Бенчмарк Phare V2 не оценил модели

Бенчмарк Phare V2 показал, что современные и продвинутые LLM не становятся безопаснее

Новое исследование Phare V2 показывает, что прогресс в возможностях языковых моделей не привел к аналогичному улучшению их безопасности. Рассуждающие модели не стали устойчивее к взлому, галлюцинациям и предвзятости.

Qwen-Image-i2L генерирует адаптеры LoRA

Qwen-Image-i2L: модель, которая генерирует адаптеры LoRA из изображений за один проход

Модель Qwen-Image-i2L генерирует веса адаптера LoRA из изображения за один проход, заменяя часы обучения. Пока она лучше извлекает стиль, чем конкретное содержание, открывая путь к мгновенной персонализации диффузионных моделей.

Прогресс в разработке AGI есть

Прогресс в разработке AGI есть, несмотря на существование ограничений по «железу»

Эксперт Together.ai оспаривает тезис о «железном потолке» для AGI, утверждая, что низкая утилизация современных чипов и потенциал ко-дизайна железа и софта оставляют огромный простор для роста.

Nscale автоматизирует жизненный цикл GPU

Как Nscale автоматизирует жизненный цикл GPU-серверов для машинного обучения

Nscale раскрывает детали работы своей платформы Fleet Operations, которая автоматизирует развертывание, мониторинг и обслуживание тысяч GPU-серверов для индустрии ИИ.