Оглавление
Как сообщает Cloudflare Blog, его платформа Workers AI пополнилась двумя важными партнерскими интеграциями: моделями генерации изображений от Leonardo и системами преобразования речи от Deepgram. Это стратегическое движение укрепляет позиции Cloudflare в нишевых, но критически важных сценариях работы с ИИ — там, где важна минимальная задержка.
Стратегия нишевых преимуществ
Изначальная архитектура Workers AI была построена на предположении, что модели будут становиться меньше и быстрее. Cloudflare разместила специализированные GPU в своих глобальных дата-центрах, чтобы обеспечить минимальную задержку при инференсе.
Теперь компания делает следующий шаг, добавляя в свой каталог закрытые партнерские модели, идеально подходящие для этой инфраструктуры.
Ключевое преимущество Cloudflare — не просто в предоставлении моделей, а в цельном стеке для разработки. Для генерации изображений есть Workers, для хранения есть R2, для обработки медиа есть Images. Для голосовых агентов — WebRTC, WebSocket, speech-to-text и text-to-speech модели плюс оркестрация через Cloudflare Realtime. Это экосистемный подход, а не просто API.
Модели Leonardo: скорость и качество
Leonardo.Ai принесла в Workers AI две модели генерации изображений:
- @cf/leonardo/phoenix-1.0 — собственная разработка Leonardo, выделяется качественной обработкой текста и когерентностью промптов. Генерация изображения 1024×1024 за 25 шагов занимает 4.89 секунды
- @cf/leonardo/lucid-origin — специализируется на фотореалистичных изображениях. Такое же изображение генерируется за 4.38 секунды
Пример запроса к Phoenix:
curl --request POST \ --url https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/leonardo/phoenix-1.0 \ --header 'Authorization: Bearer {TOKEN}' \ --header 'Content-Type: application/json' \ --data '{ "prompt": "A 1950s-style neon diner sign glowing at night that reads 'OPEN 24 HOURS' with chrome details and vintage typography.", "width":1024, "height":1024, "steps": 25, "seed":1, "guidance": 4, "negative_prompt": "bad image, low quality, signature, overexposed, jpeg artifacts, undefined, unclear, Noisy, grainy, oversaturated, overcontrasted" }'
А вот результат генерации:


Голосовые модели Deepgram
Deepgram предоставляет модели для работы с аудио:
- @cf/deepgram/nova-3 — speech-to-text модель для быстрой транскрибации аудио
- @cf/deepgram/aura-1 — text-to-speech модель с контекстным осознанием и естественной выразительностью
Пример использования через REST API:
curl --request POST \ --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/deepgram/nova-3?detect_language=true' \ --header 'Authorization: Bearer {TOKEN}' \ --header 'Content-Type: audio/mpeg' \ --data-binary @/path/to/audio.mp3
Также добавлена поддержка WebSocket для двусторонней передачи данных в реальном времени.
Пятишаговая архитектура голосовых агентов
- Захват аудио через Cloudflare Realtime из любого WebRTC-источника
- Передача через WebSocket в цепочке обработки
- Транскрибация моделями Deepgram на Workers AI
- Обработка через LLM на Workers AI или через AI Gateway
- Оркестрация через Realtime Agents
Этот комплексный подход позволяет создавать полноценные голосовые приложения полностью на инфраструктуре Cloudflare, что особенно ценно для разработчиков, которым важны низкие задержки и глобальное покрытие.
Оставить комментарий