Hugging Face представил FilBench — первый бенчмарк для оценки LLM на филиппинских языках. Тестирование 41 модели выявило лидеров и слабые места, особенно в генерации текста.
Новый бенчмарк TextQuests на классических текстовых играх вскрыл слабости LLM в долгосрочном планировании и пространственном мышлении. Модели галлюцинируют в длинных сессиях и неэффективно тратят вычислительные ресурсы.
Lambda запустила инстансы с 8 GPU NVIDIA B200 по $4.99/GPU-час. Архитектура Blackwell обещает 3× ускорение обучения LLM и 15× рост скорости инференса.
Claude Sonnet 4 теперь обрабатывает 1 млн токенов, позволяя анализировать целые кодобазы. Но рост возможностей сопровождается ценовыми и бизнес-рисками для Anthropic.
Liquid AI выпустила мультимодальные модели LFM2-VL для смартфонов. Скорость инференса в 2 раза выше аналогов при работе с текстом и изображениями.
Stability AI и NVIDIA представили микросервис SD3.5 NIM с ускорением генерации изображений в 1.8 раза и контейнерным развёртыванием для предприятий.