Cloudflare расширяет Workers AI моделями изображений и речи

Cloudflare добавила в Workers AI модели генерации изображений от Leonardo.Ai и системы преобразования речи от Deepgram, усиливая платформу для нишевых сценариев с низкой задержкой.

Оглавление

Стратегия нишевых преимуществ
Модели Leonardo: скорость и качество
Голосовые модели Deepgram
Пятишаговая архитектура голосовых агентов

Как сообщает Cloudflare Blog, его платформа Workers AI пополнилась двумя важными партнерскими интеграциями: моделями генерации изображений от Leonardo и системами преобразования речи от Deepgram. Это стратегическое движение укрепляет позиции Cloudflare в нишевых, но критически важных сценариях работы с ИИ — там, где важна минимальная задержка.

Стратегия нишевых преимуществ

Изначальная архитектура Workers AI была построена на предположении, что модели будут становиться меньше и быстрее. Cloudflare разместила специализированные GPU в своих глобальных дата-центрах, чтобы обеспечить минимальную задержку при инференсе.

Теперь компания делает следующий шаг, добавляя в свой каталог закрытые партнерские модели, идеально подходящие для этой инфраструктуры.

Ключевое преимущество Cloudflare — не просто в предоставлении моделей, а в цельном стеке для разработки. Для генерации изображений есть Workers, для хранения есть R2, для обработки медиа есть Images. Для голосовых агентов — WebRTC, WebSocket, speech-to-text и text-to-speech модели плюс оркестрация через Cloudflare Realtime. Это экосистемный подход, а не просто API.

Модели Leonardo: скорость и качество

Leonardo.Ai принесла в Workers AI две модели генерации изображений:

@cf/leonardo/phoenix-1.0 — собственная разработка Leonardo, выделяется качественной обработкой текста и когерентностью промптов. Генерация изображения 1024×1024 за 25 шагов занимает 4.89 секунды
@cf/leonardo/lucid-origin — специализируется на фотореалистичных изображениях. Такое же изображение генерируется за 4.38 секунды

Пример запроса к Phoenix:

curl --request POST \
 --url https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/leonardo/phoenix-1.0 \
 --header 'Authorization: Bearer {TOKEN}' \
 --header 'Content-Type: application/json' \
 --data '{
 "prompt": "A 1950s-style neon diner sign glowing at night that reads 'OPEN 24 HOURS' with chrome details and vintage typography.",
 "width":1024,
 "height":1024,
 "steps": 25,
 "seed":1,
 "guidance": 4,
 "negative_prompt": "bad image, low quality, signature, overexposed, jpeg artifacts, undefined, unclear, Noisy, grainy, oversaturated, overcontrasted"
}'

А вот результат генерации:

Пример сгенерированного изображения моделью Leonardo Phoenix в Cloudflare Workers AI

Пример сгенерированного изображения моделью Leonardo Lucid Origin

Голосовые модели Deepgram

Deepgram предоставляет модели для работы с аудио:

@cf/deepgram/nova-3 — speech-to-text модель для быстрой транскрибации аудио
@cf/deepgram/aura-1 — text-to-speech модель с контекстным осознанием и естественной выразительностью

Пример использования через REST API:

curl --request POST \
 --url 'https://api.cloudflare.com/client/v4/accounts/{ACCOUNT_ID}/ai/run/@cf/deepgram/nova-3?detect_language=true' \
 --header 'Authorization: Bearer {TOKEN}' \
 --header 'Content-Type: audio/mpeg' \
 --data-binary @/path/to/audio.mp3

Также добавлена поддержка WebSocket для двусторонней передачи данных в реальном времени.

Пятишаговая архитектура голосовых агентов

Захват аудио через Cloudflare Realtime из любого WebRTC-источника
Передача через WebSocket в цепочке обработки
Транскрибация моделями Deepgram на Workers AI
Обработка через LLM на Workers AI или через AI Gateway
Оркестрация через Realtime Agents

Этот комплексный подход позволяет создавать полноценные голосовые приложения полностью на инфраструктуре Cloudflare, что особенно ценно для разработчиков, которым важны низкие задержки и глобальное покрытие.

Новости

Cloudflare добавляет в Workers AI модели для генерации изображений и преобразования речи

Стратегия нишевых преимуществ

Модели Leonardo: скорость и качество

Голосовые модели Deepgram

Пятишаговая архитектура голосовых агентов

Еще интереснее

Hugging Face интегрирует llama.cpp — локальный ИИ выходит из «гаражного» стартапа

Anthropic усиливает экспансию в корпоративный сектор, выпуская плагины Claude Cowork

Создатель OpenClaw назвал «вайб-кодинг» оскорбительным термином

Инженер Anthropic: ИИ вытеснит большинство интернет-профессий, и это будет болезненно

Оставить комментарий