Оглавление
Как сообщает Cloudflare Blog, его платформа Workers AI пополнилась двумя важными партнерскими интеграциями: моделями генерации изображений от Leonardo и системами преобразования речи от Deepgram. Это стратегическое движение укрепляет позиции Cloudflare в нишевых, но критически важных сценариях работы с ИИ — там, где важна минимальная задержка.
Стратегия нишевых преимуществ
Изначальная архитектура Workers AI была построена на предположении, что модели будут становиться меньше и быстрее. Cloudflare разместила специализированные GPU в своих глобальных дата-центрах, чтобы обеспечить минимальную задержку при инференсе.
Теперь компания делает следующий шаг, добавляя в свой каталог закрытые партнерские модели, идеально подходящие для этой инфраструктуры.
Ключевое преимущество Cloudflare — не просто в предоставлении моделей, а в цельном стеке для разработки. Для генерации изображений есть Workers, для хранения есть R2, для обработки медиа есть Images. Для голосовых агентов — WebRTC, WebSocket, speech-to-text и text-to-speech модели плюс оркестрация через Cloudflare Realtime. Это экосистемный подход, а не просто API.
Модели Leonardo: скорость и качество
Leonardo.Ai принесла в Workers AI две модели генерации изображений:
- @cf/leonardo/phoenix-1.0 — собственная разработка Leonardo, выделяется качественной обработкой текста и когерентностью промптов. Генерация изображения 1024×1024 за 25 шагов занимает 4.89 секунды
- @cf/leonardo/lucid-origin — специализируется на фотореалистичных изображениях. Такое же изображение генерируется за 4.38 секунды
Пример запроса к Phoenix:
curl --request POST \
--url https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/leonardo/phoenix-1.0 \
--header 'Authorization: Bearer {TOKEN}' \
--header 'Content-Type: application/json' \
--data '{
"prompt": "A 1950s-style neon diner sign glowing at night that reads 'OPEN 24 HOURS' with chrome details and vintage typography.",
"width":1024,
"height":1024,
"steps": 25,
"seed":1,
"guidance": 4,
"negative_prompt": "bad image, low quality, signature, overexposed, jpeg artifacts, undefined, unclear, Noisy, grainy, oversaturated, overcontrasted"
}'
А вот результат генерации:


Голосовые модели Deepgram
Deepgram предоставляет модели для работы с аудио:
- @cf/deepgram/nova-3 — speech-to-text модель для быстрой транскрибации аудио
- @cf/deepgram/aura-1 — text-to-speech модель с контекстным осознанием и естественной выразительностью
Пример использования через REST API:
curl --request POST \
--url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/deepgram/nova-3?detect_language=true' \
--header 'Authorization: Bearer {TOKEN}' \
--header 'Content-Type: audio/mpeg' \
--data-binary @/path/to/audio.mp3
Также добавлена поддержка WebSocket для двусторонней передачи данных в реальном времени.
Пятишаговая архитектура голосовых агентов
- Захват аудио через Cloudflare Realtime из любого WebRTC-источника
- Передача через WebSocket в цепочке обработки
- Транскрибация моделями Deepgram на Workers AI
- Обработка через LLM на Workers AI или через AI Gateway
- Оркестрация через Realtime Agents
Этот комплексный подход позволяет создавать полноценные голосовые приложения полностью на инфраструктуре Cloudflare, что особенно ценно для разработчиков, которым важны низкие задержки и глобальное покрытие.
Оставить комментарий