FilBench: бенчмарк для оценки языковых моделей теперь понимает филиппинские языки

Hugging Face представил FilBench — первый бенчмарк для оценки LLM на филиппинских языках. Тестирование 41 модели выявило лидеров и слабые места, особенно в генерации текста.

TextQuests оценил, насколько эффективны языковые модели в текстовых играх

Новый бенчмарк TextQuests на классических текстовых играх вскрыл слабости LLM в долгосрочном планировании и пространственном мышлении. Модели галлюцинируют в длинных сессиях и неэффективно тратят вычислительные ресурсы.

Lambda запускает облачные инстансы с NVIDIA Blackwell: прорыв для обучения LLM

Lambda запустила инстансы с 8 GPU NVIDIA B200 по $4.99/GPU-час. Архитектура Blackwell обещает 3× ускорение обучения LLM и 15× рост скорости инференса.

Claude теперь обрабатывает целые проекты за один запрос: революция для разработчиков

Claude Sonnet 4 теперь обрабатывает 1 млн токенов, позволяя анализировать целые кодобазы. Но рост возможностей сопровождается ценовыми и бизнес-рисками для Anthropic.

Liquid AI выпускает LFM2-VL: быстрые мультимодальные модели для смартфонов

Liquid AI выпустила мультимодальные модели LFM2-VL для смартфонов. Скорость инференса в 2 раза выше аналогов при работе с текстом и изображениями.

Stability AI и NVIDIA выпускают Stable Diffusion 3.5 NIM: скорость и простота для бизнеса

Stability AI и NVIDIA представили микросервис SD3.5 NIM с ускорением генерации изображений в 1.8 раза и контейнерным развёртыванием для предприятий.