Оглавление

Как пишет Google Cloud Blog, BigQuery ML получил значительное расширение функционала для работы с текстовыми эмбеддингами. Теперь платформа поддерживает не только собственные модели text-embedding-004/005 и text-multilingual-embedding-002, но и флагманскую Gemini embedding model, а также более 13 тысяч открытых моделей из экосистемы Hugging Face.

Выбор модели под конкретные задачи

Новые возможности предоставляют разработчикам гибкость в выборе между качеством, стоимостью и масштабируемостью. Gemini embedding model демонстрирует самое современное качество и лидирует в Massive Text Embedding Benchmark, но требует более высоких затрат. Модели с открытым исходным кодом предлагают широкий спектр вариантов — от топовых решений вроде Qwen3-Embedding до компактных и экономичных multilingual-e5-small.

Сравнение вариантов выбора моделей эмбеддингов в BigQuery ML: Gemini и открытые модели
Источник: cloud.google.com

Ключевые характеристики различных категорий моделей:

  • text-embedding-005 & multilingual-embedding-002: очень высокое качество, умеренная стоимость, масштабируемость до 100 млн строк за 6 часов
  • Gemini Text Embedding: самое современное качество, высокая стоимость, масштабируемость до 10 млн строк за 6 часов
  • OSS модели: широкий диапазон качества, стоимость зависит от размера модели, максимальная масштабируемость при резервировании дополнительных машин

Практическое использование Gemini в BigQuery

Для работы с Gemini embedding model достаточно выполнить несколько SQL-команд:

CREATE OR REPLACE MODEL bqml_tutorial.gemini_embedding_model
REMOTE WITH CONNECTION DEFAULT
OPTIONS(endpoint='gemini-embedding-001');

Генерация эмбеддингов для датасета:

SELECT
 * 
FROM
 ML.GENERATE_EMBEDDING( 
 MODEL bqml_tutorial.gemini_embedding_model, 
 ( 
 SELECT 
 text AS content 
 FROM 
 bigquery-public-data.hacker_news.full 
 WHERE 
 text IS NOT NULL 
 LIMIT 10000 
 ) 
 );

Важной особенностью является новая система квот на основе Tokens Per Minute (TPM) с лимитом до 20 миллионов токенов без ручного одобрения.

Работа с открытыми моделями

Интеграция с Hugging Face открывает доступ к тысячам моделей. Процесс включает развертывание модели на Vertex AI endpoint и последующее использование через BigQuery ML:

  1. Выбор модели на Hugging Face и деплой через Vertex AI Model Garden
  2. Создание удаленной модели в BigQuery
  3. Генерация эмбеддингов SQL-запросами
  4. Обязательное удаление endpoint после завершения работы для избежания лишних затрат
Интерфейс развертывания моделей Hugging Face в Vertex AI Model Garden
Источник: cloud.google.com

Производительность впечатляет: даже с одной репликой модели multilingual-e5-small обработка 38 миллионов строк датасета hacker_news занимает около 2 часов 10 минут. Масштабирование до 10 реплик позволяет обрабатывать миллиарды строк за шестичасовое окно выполнения запроса.

Расширение BigQuery ML — это важный шаг для экосистемы Google Cloud. Теперь разработчики могут открыть инструмент для каждой задачи, не выходя из привычной SQL-среды. Особенно ценно то, что можно работать как с топовыми коммерческими моделями вроде Gemini, так и с нишевыми решениями с открытым исходным кодом. Главное — не забыть о возникновении: конечные точки в Vertex AI тарифицируются поминутно, поэтому пакетную обработку необходимо построить как непрерывный рабочий процесс с обязательным отменой развертывания после завершения работы.

Новые возможности BigQuery ML существенно упрощают построение семантического поиска, классификации и RAG-систем, позволяя генерировать эмбеддинги прямо там, где хранятся данные, без сложных ETL-процессов и интеграций.