Оглавление

Появление так называемых «токенов мышления» оказывает неожиданное инфляционное влияние на стоимость работы генеративных ИИ и больших языковых моделей, сообщает Forbes.

Как работают токены в ИИ

Современные генеративные ИИ и языковые модели обрабатывают текст через процесс токенизации — преобразования слов в числовые представления. Эти токены проходят через нейросеть, где каждый получает фиксированное время обработки, подобно деталям на конвейере.

Однако при решении сложных задач фиксированного времени может оказаться недостаточно для качественного ответа. Именно здесь на сцену выходят специальные токены-заполнители, которые обеспечивают дополнительное время для «обдумывания».

Аналогия с человеческим мышлением

Люди часто используют паузы и слова-паразиты («э-э», «значит») при сложных рассуждениях, давая мозгу дополнительное время для обработки информации. Исследователи позаимствовали этот принцип для ИИ, создав токены, которые не несут смысловой нагрузки, но создают паузы в обработке.

Эти токены действуют как цифровые эквиваленты человеческих «заполнителей пауз», позволяя модели обрабатывать сложные запросы более тщательно.

Мы платим за искусственные «э-э» в ИИ так же, как за содержательные ответы. Это напоминает ситуацию, когда таксист берет плату не только за километры, но и за время, проведенное в пробках. Технически обоснованно, но экономически болезненно для пользователей.

Экономические последствия

Внедрение токенов мышления приводит к неожиданному росту стоимости использования ИИ:

  • Каждый дополнительный токен увеличивает вычислительные затраты
  • Пользователи платят за «пустые» токены так же, как за содержательные
  • Сложные запросы становятся значительно дороже из-за необходимости большего количества пауз

Это создает парадоксальную ситуацию: улучшение качества ответов ИИ напрямую ведет к росту стоимости его использования.

Технические аспекты

Представьте обработку фразы «Собака лаяла на кота» с токенами мышления:

  • Обычная обработка: «Собака» → «лаяла» → «на» → «кота»
  • С токенами мышления: «Собака» → токен-пауза → «лаяла» → токен-пауза → «на» → «кота»

Каждая такая пауза требует дополнительных вычислительных ресурсов и времени, что в итоге сказывается на стоимости запроса.

Пока индустрия ищет баланс между скоростью, качеством и стоимостью генеративного ИИ, токены мышления остаются спорным, но технически оправданным решением. В конечном счете, пользователям приходится платить за качество ответов — как в прямом, так и в переносном смысле.