Databricks: обработка PDF через SQL с ИИ в 3-5 раз дешевле

Databricks представила функцию ai_parse_document для обработки PDF-документов через SQL. Решение преобразует таблицы, графики и текст в структурированные данные с качеством лидеров рынка при стоимости в 3-5 раз ниже.

Оглавление

Решение проблемы неструктурированных данных
Экономическая эффективность и качество
Интеграция в экосистему Databricks
Масштабирование для производственных нужд
От парсинга к действию

Компания Databricks анонсировала новую функцию ai_parse_document, которая позволяет преобразовывать PDF-документы в структурированные данные с помощью всего одной SQL-команды. Эта функция стала частью платформы Agent Bricks и находится на стадии публичного предварительного просмотра.

Решение проблемы неструктурированных данных

По оценкам Databricks, около 80% корпоративных данных хранятся в неструктурированном виде — PDF-файлах, отчетах и диаграммах, которые традиционные системы обработки не могут корректно анализировать. Существующие инструменты парсинга ограничиваются извлечением текста, игнорируя таблицы, графики и визуальные элементы, которые несут важную смысловую нагрузку.

Новая функция использует мультимодальные модели для понимания документов целиком:

SELECT
 file_name,
 ai_parse_document(content) AS parsed_content
FROM READ_FILES('/path/to/documents', format => 'binaryFile');

Результат включает не только текст, но и информацию о макете, распознанные таблицы, ограничивающие рамки элементов, изображения с автоматически сгенерированными подписями.

Экономическая эффективность и качество

Система демонстрирует конкурентоспособное качество по сравнению с лучшими предложениями на рынке при стоимости обработки в 3-5 раз ниже. Тестирование проводилось как на общедоступном бенчмарке OmniOCR, так и на внутреннем наборе данных Databricks, более точно отражающем реальные корпоративные документы.

Бенчмарк OmniOCR: сравнение качества распознавания и стоимости обработки — Источник: www.databricks.com

Скриншоты функции ai_parse_document, определяющей bounding boxes со сложными рисунками и таблицами — Источник: www.databricks.com

Поразительно, как быстро рынок переходит от ручного парсинга документов к полностью автоматизированным решениям. То, что раньше требовало месяцев разработки кастомного кода, теперь умещается в одну SQL-функцию — это серьезный удар по целой индустрии специализированных парсеров.

Интеграция в экосистему Databricks

Функция полностью интегрирована в платформу Databricks:

Unity Catalog для управления доступом и аудита
Vector Search для семантического поиска по документам
Spark Declarative Pipelines для автоматической инкрементальной обработки
Agent Bricks для построения рабочих процессов с ИИ-агентами

Внутренний бенчмарк Databricks по анализу PDF: сравнение качества и стоимости — Источник: www.databricks.com

«Извлечение таблиц, текста и метаданных из PDF-файлов или изображений раньше было сложным процессом, требующим большого объема кода. Databricks свела это к одной SQL-функции, радикально упростив обработку неструктурированных данных в масштабе», — отмечает Раджеш Балакришнан, главный специалист по данным в TE Connectivity.

Масштабирование для производственных нужд

Решение предназначено для обработки миллионов документов ежедневно. Интеграция с Spark Declarative Pipelines обеспечивает автоматическую обработку новых документов из SharePoint, S3 или ADLS без необходимости переобработки существующих данных.

«ai_parse_document ускоряет и упрощает RAG на Databricks, позволяя параллельный парсинг документов непосредственно в таблицах Delta, которые вы уже используете», — комментирует Хантер Джонсон, ведущий специалист по данным в Emerson Electric Co.

От парсинга к действию

После обработки данные документов могут использоваться в различных сценариях:

Vector Search для мультимодальных RAG-приложений
Declarative Agents для извлечения, классификации и суммаризации
AI Functions для работы с SQL
Multi-Agent Supervisor для координации сложных рабочих процессов

Таким образом, неструктурированные данные становятся полноценной частью платформы Agent Bricks.

По материалам Databricks.

Новости

Databricks представила SQL-функцию для обработки PDF-документов с помощью ИИ

Решение проблемы неструктурированных данных

Экономическая эффективность и качество

Интеграция в экосистему Databricks

Масштабирование для производственных нужд

От парсинга к действию

Еще интереснее

OpenAI разрабатывает конкурента платформы GitHub

Hugging Face интегрирует llama.cpp — локальный ИИ выходит из «гаражного» стартапа

Anthropic усиливает экспансию в корпоративный сектор, выпуская плагины Claude Cowork

Создатель OpenClaw назвал «вайб-кодинг» оскорбительным термином

Оставить комментарий