Метод спекулятивного декодирования может ускорить инференс LLM на чипах AWS Trainium
Метод спекулятивного декодирования на чипах AWS Trainium позволяет сократить задержку генерации текста до 15 мс для структурированных задач.
Последние новости о больших языковых моделях (LLM): GPT, Claude, Gemini, LLaMA и другие. Обзоры новых релизов, сравнения моделей, анализ возможностей и ограничений современных LLM. Следите за развитием технологий искусственного интеллекта в области обработки естественного языка. Практические кейсы применения, туториалы и экспертные мнения.
Метод спекулятивного декодирования на чипах AWS Trainium позволяет сократить задержку генерации текста до 15 мс для структурированных задач.
Google представила свою самую выразительную модель синтеза речи Gemini 3.1 Flash TTS с поддержкой 70 языков и уникальной системой управления через аудио-теги.
Google внедряет в Chrome функцию Skills для сохранения и быстрого повторного использования ИИ-промптов через интерфейс Gemini.
Автономные агенты Claude Opus 4.6 блестяще справились с исследовательской задачей в лаборатории, но не смогли улучшить работу реальных моделей в продакшене.
Британский институт безопасности ИИ протестировал Claude Mythos Preview в сценариях взлома сетей. Результаты впечатляют, но есть нюансы.
Исследователи представили LPM 1.0 — модель ИИ, способную генерировать живое видео из одного фото с поддержкой синхронизации губ и естественной мимики в реальном времени.