Оглавление

Как сообщает Cloudflare Blog, его платформа Workers AI пополнилась двумя важными партнерскими интеграциями: моделями генерации изображений от Leonardo и системами преобразования речи от Deepgram. Это стратегическое движение укрепляет позиции Cloudflare в нишевых, но критически важных сценариях работы с ИИ — там, где важна минимальная задержка.

Стратегия нишевых преимуществ

Изначальная архитектура Workers AI была построена на предположении, что модели будут становиться меньше и быстрее. Cloudflare разместила специализированные GPU в своих глобальных дата-центрах, чтобы обеспечить минимальную задержку при инференсе.

Теперь компания делает следующий шаг, добавляя в свой каталог закрытые партнерские модели, идеально подходящие для этой инфраструктуры.

Ключевое преимущество Cloudflare — не просто в предоставлении моделей, а в цельном стеке для разработки. Для генерации изображений есть Workers, для хранения есть R2, для обработки медиа есть Images. Для голосовых агентов — WebRTC, WebSocket, speech-to-text и text-to-speech модели плюс оркестрация через Cloudflare Realtime. Это экосистемный подход, а не просто API.

Модели Leonardo: скорость и качество

Leonardo.Ai принесла в Workers AI две модели генерации изображений:

  • @cf/leonardo/phoenix-1.0 — собственная разработка Leonardo, выделяется качественной обработкой текста и когерентностью промптов. Генерация изображения 1024×1024 за 25 шагов занимает 4.89 секунды
  • @cf/leonardo/lucid-origin — специализируется на фотореалистичных изображениях. Такое же изображение генерируется за 4.38 секунды

Пример запроса к Phoenix:

curl --request POST \
 --url https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/leonardo/phoenix-1.0 \
 --header 'Authorization: Bearer {TOKEN}' \
 --header 'Content-Type: application/json' \
 --data '{
 "prompt": "A 1950s-style neon diner sign glowing at night that reads 'OPEN 24 HOURS' with chrome details and vintage typography.",
 "width":1024,
 "height":1024,
 "steps": 25,
 "seed":1,
 "guidance": 4,
 "negative_prompt": "bad image, low quality, signature, overexposed, jpeg artifacts, undefined, unclear, Noisy, grainy, oversaturated, overcontrasted"
}'

А вот результат генерации:

Пример сгенерированного изображения моделью Leonardo Phoenix в Cloudflare Workers AI
Пример сгенерированного изображения моделью Leonardo Lucid Origin

Голосовые модели Deepgram

Deepgram предоставляет модели для работы с аудио:

  • @cf/deepgram/nova-3 — speech-to-text модель для быстрой транскрибации аудио
  • @cf/deepgram/aura-1 — text-to-speech модель с контекстным осознанием и естественной выразительностью

Пример использования через REST API:

curl --request POST \
 --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/deepgram/nova-3?detect_language=true' \
 --header 'Authorization: Bearer {TOKEN}' \
 --header 'Content-Type: audio/mpeg' \
 --data-binary @/path/to/audio.mp3

Также добавлена поддержка WebSocket для двусторонней передачи данных в реальном времени.

Пятишаговая архитектура голосовых агентов

  1. Захват аудио через Cloudflare Realtime из любого WebRTC-источника
  2. Передача через WebSocket в цепочке обработки
  3. Транскрибация моделями Deepgram на Workers AI
  4. Обработка через LLM на Workers AI или через AI Gateway
  5. Оркестрация через Realtime Agents

Этот комплексный подход позволяет создавать полноценные голосовые приложения полностью на инфраструктуре Cloudflare, что особенно ценно для разработчиков, которым важны низкие задержки и глобальное покрытие.