Groq

Groq — платформа инференса на собственных LPU с фокусом на стабильную низкую задержку и высокую скорость. В GroqCloud доступен OpenAI-совместимый API (chat/responses/files/batch), распознавание речи (Whisper Large v3 / Turbo) и TTS. Миграция с OpenAI обычно сводится к смене базового URL и ключа (\$GROQ\_API\_KEY).

Доступны Llama 3.1 (8B/70B), Gemma 7B, Mixtral и др.; производительность достигает сотен до 1000+ ток/с в зависимости от модели и нагрузки.

Оплата по токенам (on-demand), есть Free, Developer и Enterprise. Предоставляются SDK (Python/TS), веб-консоль GroqCloud и GroqChat. Подходит для real-time ассистентов, агентных систем и потоковых UI, где критичны время до первого токена и предсказуемость под нагрузкой.

  • LPU-инференс с низкой вариативностью задержек
  • OpenAI-совместимые endpoints (Responses/Chat/Files)
  • ASR/TTS (Whisper v3 Turbo, набор голосов)
  • SDK и примеры; миграция за «URL + ключ»

Документация сервиса · Цены

Новости

IBM и Groq объединяются

IBM и Groq объединяются для ускорения внедрения агентного ИИ в бизнесе

IBM и Groq объявили о партнерстве для ускорения внедрения агентного ИИ в корпоративной среде через интеграцию технологий вывода и оркестрации.

Cerebras CS-3 демонстрирует шестикратное превосходство над Groq LPU в тестах производительности

Сравнительный анализ показывает шестикратное преимущество Cerebras CS-3 над Groq LPU в inference-вычислениях для больших языковых моделей по производительности и энергоэффективности.

Groq привлек финансирование

Стартап Groq привлек $750M для борьбы с доминированием Nvidia на рынке AI-чипов

Стартап Groq привлек 750 млн долларов при оценке в 6,9 млрд, предлагая альтернативу чипам Nvidia для AI-инференса.