Оглавление

На Hugging Face вышел новый материал о том, как современные модели компьютерного зрения радикально изменили возможности обработки документов. Открытые модели предлагают лучшую экономическую эффективность и конфиденциальность данных по сравнению с проприетарными решениями.

Эволюция OCR: от простого текста к сложным документам

Оптическое распознавание символов (OCR) — одна из старейших задач компьютерного зрения. С появлением визуально-языковых моделей возможности OCR значительно расширились. Сегодняшние системы могут не просто преобразовывать текст, но и понимать сложные элементы документов.

Современные возможности обработки документов

Транскрипция

Современные модели преобразуют различные типы контента в машиночитаемый формат:

  • Рукописный текст
  • Различные системы письма (латиница, арабский, японские символы)
  • Математические выражения
  • Химические формулы
  • Теги изображений и структуры страниц

Работа со сложными компонентами

Продвинутые модели распознают:

  • Изображения
  • Диаграммы
  • Таблицы

Некоторые модели, такие как OlmOCR от AllenAI или PaddleOCR-VL от PaddlePaddle, определяют расположение изображений в документе, извлекают их координаты и корректно встраивают между текстами. Другие модели генерируют подписи к изображениям и размещают их в соответствующих местах.

Диаграммы могут преобразовываться в различные форматы — например, столбчатая диаграмма конвертируется в маркдаун-таблицу или JSON.

Пример визуализации с преобразованием столбчатой диаграммы
Источник: huggingface.co

Аналогично для таблиц: ячейки преобразуются в машиночитаемый формат с сохранением контекста заголовков и столбцов.

Пример визуализации таблицы, демонстрирующий преобразование структуры данных
Источник: huggingface.co

Форматы вывода данных

Разные модели OCR используют различные форматы вывода:

DocTag

XML-подобный формат для документов, который выражает расположение, формат текста, информацию на уровне компонентов и многое другое. Этот формат используется открытыми моделями Docling.

Иллюстрация формата DocTags, показывающая структуру парсинга документов
Источник: huggingface.co

HTML

Один из самых популярных форматов для парсинга документов, поскольку он правильно кодирует структуру и иерархическую информацию.

Markdown

Наиболее читаемый для человека формат. Проще чем HTML, но менее выразительный — например, не может представлять таблицы с разделенными колонками.

JSON

Не используется моделями для всего вывода целиком, но может применяться для представления информации в таблицах или диаграммах.

Выбор модели напоминает подбор инструмента для конкретной задачи: для цифровой реконструкции документов нужны форматы с сохранением структуры, для работы с языковыми моделями — более естественные представления. Ирония в том, что мы возвращаемся к основам: правильный формат важнее, чем самая продвинутая модель. Открытые решения демонстрируют, что качественная обработка документов стала доступной технологией, а не эксклюзивной прерогативой крупных вендоров.

Практические рекомендации по выбору

Правильный выбор модели зависит от планируемого использования её результатов:

  • Цифровая реконструкция: для восстановления цифровых копий документов выбирайте модели с форматами, сохраняющими структуру (DocTags или HTML)
  • Ввод в языковые модели или вопросы-ответы: если результаты будут передаваться в LLM, выбирайте модели с выводом в Markdown и подписями к изображениям
  • Программное использование: для интеграции в программные системы важны структурированные форматы вывода

Открытые модели OCR предлагают прозрачность, контроль над данными и возможность адаптации под конкретные задачи, что делает их привлекательной альтернативой проприетарным решениям.