Оглавление
Более десятилетия разговорный искусственный интеллект обещал создание помощников, способных на большее, чем просто беседа. Однако даже самые продвинутые языковые модели вроде ChatGPT, Gemini и Claude, научившиеся рассуждать, объяснять и программировать, до сих пор не могут надежно выполнять задачи за пределами чат-интерфейса.
Даже лучшие AI-модели показывают результаты лишь в 30-м процентиле на тесте Terminal-Bench Hard, стороннем бенчмарке, оценивающем производительность AI-агентов в выполнении браузерных задач — значительно ниже уровня надежности, требуемого предприятиями. Специализированные тесты вроде TAU-Bench Airline, измеряющего надежность агентов при поиске и бронировании авиабилетов, также демонстрируют скромные результаты: лишь 56% для лучших моделей (Claude 3.7 Sonnet), что означает почти половину неудачных попыток.
Архитектура определенности
Нью-йоркский стартап Augmented Intelligence (AUI), основанный Охадом Эльхело и Ори Коэном, утверждает, что нашел решение для повышения надежности AI-агентов до уровня, приемлемого для корпоративного использования.
Новая фундаментальная модель компании под названием Apollo-1, находящаяся в стадии предварительного тестирования, построена на принципе stateful neuro-symbolic reasoning — гибридной архитектуре, которая гарантирует последовательные, соответствующие политике результаты в каждом взаимодействии с клиентом.
Нейро-символический подход — это попытка вернуть здравый смысл в ИИ после десятилетия доминирования статистических методов. Если трансформеры — это импровизация джазового музыканта, то Apollo-1 — это партитура симфонического оркестра: каждый инструмент знает свою партию и играет ее безупречно. Вопрос в том, насколько гибкой окажется эта система в реальных условиях.
«Разговорный ИИ состоит из двух половин», — объясняет Эльхело в интервью VentureBeat. «Первая половина — открытый диалог — прекрасно обрабатывается LLM. Они созданы для творческих сценариев. Другая половина — целеориентированный диалог, где за разговором стоит конкретная цель. Эта половина оставалась нерешенной, потому что требует определенности».
От вероятности к гарантии
На тесте TAU-Bench Airline Apollo-1 демонстрирует ошеломляющие 92,5% успешных выполнений, оставляя далеко позади всех текущих конкурентов. Эльхело приводит простые примеры: банк, который должен проверять идентификацию для возвратов свыше $200, или авиакомпания, обязанная всегда предлагать апгрейд в бизнес-класс перед эконом-классом.
«Это не предпочтения, а требования. И чисто генеративный подход не может обеспечить такую поведенческую определенность», — утверждает он.
Техническая суть подхода заключается в том, что трансформеры по своей природе предсказывают следующий токен в последовательности, тогда как Apollo-1 предсказывает следующее действие в разговоре, оперируя так называемым типизированным символическим состоянием.
Коэн поясняет: «Нейро-символический означает, что мы объединяем две доминирующие парадигмы. Символический слой дает структуру — он знает, что такое намерение, сущность и параметр, — а нейронный слой обеспечивает беглость языка. Нейро-символический анализатор находится между ними».
Восемь лет разработки
Путь AUI к Apollo-1 начался в 2017 году, когда команда начала кодировать миллионы реальных целеориентированных диалогов, обработанных 60-тысячной армией человеческих агентов.
Эта работа привела к созданию символического языка, способного отделять процедурные знания — шаги, ограничения и потоки — от дескриптивных знаний, таких как сущности и атрибуты.
«Инсайт заключался в том, что целеориентированный диалог имеет универсальные процедурные паттерны», — говорит Эльхело. «Доставка еды, обработка претензий и управление заказами имеют схожие структуры. Как только вы моделируете это явно, вы можете вычислять это детерминистически».
Результаты тестирования впечатляют:
- Свыше 90% выполнения задач на τ-Bench-Airline против 60% у Claude-4
- 83% успешных бронирований на Google Flights против 22% у Gemini 2.5-Flash
- 91% розничных сценариев на Amazon против 17% у Rufus
Стратегическое партнерство и планы
AUI позиционирует Apollo-1 не как замену большим языковым моделям, а как их необходимое дополнение. «Трансформеры оптимизированы для творческой вероятности. Apollo-1 оптимизирован для поведенческой определенности. Вместе они формируют полный спектр разговорного ИИ», — заключает Эльхело.
Модель уже работает в ограниченных пилотных проектах с неназванными компаниями из списка Fortune 500 в секторах финансов, путешествий и ритейла. AUI подтвердила стратегическое партнерство с Google и планирует общий релиз в ноябре 2025 года, когда будут открыты API, выпущена полная документация и добавлены возможности работы с голосом и изображениями.
По материалам VentureBeat
Оставить комментарий