Thinking Machines Lab представила революционный голосовой ИИ

Thinking Machines Lab представила первую модель, обрабатывающую данные 200-миллисекундными циклами, что делает диалог с ИИ по-настоящему живым.

Оглавление

Проблема «роботизированного» диалога
Архитектурные хитрости и бенчмарки
Амбиции на фоне кадровых перемен

Стартап Thinking Machines Lab, созданный бывшим техническим директором OpenAI Мирой Мурати, представил свою первую разработку, которая обещает пересмотреть саму механику общения человека с искусственным интеллектом. Как сообщает издание The Decoder, новая модель отказывается от привычной схемы поочередных реплик в пользу непрерывного потока данных, обрабатываемого 200-миллисекундными циклами.

В отличие от существующих решений, где система ждет окончания фразы пользователя, разработка Thinking Machines Lab воспринимает аудио, видео и текст параллельно. Это позволяет ИИ не просто отвечать на вопросы, а проявлять проактивность: перебивать собеседника, реагировать на визуальные изменения в реальном времени или поддерживать диалог в режиме полноценного дуплекса, что ранее казалось технически труднодостижимым для моделей такого масштаба.

Проблема «роботизированного» диалога

Современные системы, такие как GPT-Realtime или Gemini Live, при всей их впечатляющей скорости, все еще опираются на внешние надстройки. Специальные детекторы активности голоса определяют, когда пользователь замолчал, и только после этого передают запрос основной модели. В этот момент восприятие системы фактически замирает: пока ИИ генерирует ответ, он «не слышит» и «не видит» происходящего, что создает ощущение общения с очень умным, но все же цифровым автоответчиком.

Разработчики из Thinking Machines Lab решили устранить этот «костыль», интегрировав взаимодействие непосредственно в архитектуру трансформера. Вместо того чтобы сегментировать речь на отдельные высказывания, модель работает по внутренним часам, где каждые 200 миллисекунд входной и выходной потоки токенов перемешиваются. Это избавляет от искусственных границ и позволяет алгоритму самостоятельно решать, стоит ли вставить реплику сейчас или подождать более подходящего момента.

Техническое изящество подхода с микро-циклами в 200 миллисекунд впечатляет, однако разделение на «быструю» и «медленную» модели выглядит как попытка усидеть на двух стульях. Пока взаимодействие доминирует над глубиной рассуждений, мы рискуем получить очень вежливого собеседника, который мгновенно реагирует на ваши жесты, но теряет нить сложной логической задачи. Это стратегический риск: превратить ИИ в идеального ассистента-зеркало, не решив проблему фундаментального качества выводов.

Архитектурные хитрости и бенчмарки

Представленная модель TML-Interaction-Small представляет собой Mixture-of-Experts (MoE) с общим числом параметров 276 миллиардов, из которых активны лишь 12 миллиардов. Для решения проблемы «умственного дефицита» при высокой скорости отклика инженеры внедрили асинхронную фоновую модель. Пока основной интерфейс поддерживает живую беседу, фоновый процесс может заниматься поиском в сети или сложными вычислениями, органично вплетая результаты в разговор по мере их готовности.

Результаты тестов демонстрируют заметный прогресс в качестве взаимодействия:

На бенчмарке FD-bench v1.5 модель превзошла GPT-Realtime-2 и Gemini-3.1-flash-live по параметрам естественности прерываний.
Задержка ответа составила всего 0,40 секунды, что почти в три раза быстрее минимальных показателей флагмана от OpenAI (1,18 сек).
В специализированных тестах на визуальную проактивность (например, RepCount-A) конкуренты зачастую просто хранят молчание, тогда как новая модель успешно интерпретирует видеопоток.

Амбиции на фоне кадровых перемен

История Thinking Machines Lab развивается стремительно: основанная в феврале 2025 года, компания уже к июлю привлекла 2 миллиарда долларов инвестиций при оценке в 12 миллиардов. Тем не менее, путь к лидерству не обходится без трудностей. Попытка провести следующий раунд финансирования при оценке в 50 миллиардов к концу года не увенчалась успехом, а команду покинули несколько ключевых сотрудников.

Выпуск Interaction Models — это первая серьезная попытка Мурати доказать, что ее лаборатория способна не просто использовать открытые наработки (как в случае с их инструментом Tinker для дообучения через LoRA), а создавать фундаментально новые архитектуры. Рынок голосовых помощников перенасыщен, и ставка на «настоящую» интерактивность может стать тем самым рычагом, который позволит стартапу закрепиться в высшей лиге рядом с Google и Anthropic.

Новости

Thinking Machines Lab выпустила голосовую ИИ-модель, которая расшифровывает реплики до их завершения

Проблема «роботизированного» диалога

Архитектурные хитрости и бенчмарки

Амбиции на фоне кадровых перемен

Еще интереснее

NVIDIA открывает DFlash: новый подход к ускорению вывода языковых моделей

Liquid AI выпускает модель LFM2.5-230M с результатами на уровне моделей в 4 раза больше

Google переводит Gemini на Interactions API: новая архитектура для эпохи агентов

OpenAI может выпустить новую модель GPT-5.6 уже до конца июня

Оставить комментарий