Оглавление
Компания Oldcastle APG, один из крупнейших мировых производителей стройматериалов, кардинально преобразовала процесс обработки документов подтверждения доставки. Ранее компания ежемесячно обрабатывала от 100 до 300 тысяч накладных по доставке на более чем 200 объектах с помощью устаревшей OCR-системы, которая обеспечивала точность всего 30-40% и требовала постоянного ручного вмешательства.
Проблемы традиционной обработки документов
Основные вызовы, с которыми столкнулась Oldcastle:
- Низкая точность распознавания (30-40%) при обработке 200-300 тысяч документов ежемесячно
- Необходимость ручного вмешательства и постоянного обслуживания системы
- Обработка нестандартных форматов документов с повернутыми страницами
- Отсутствие возможности проверки подписей на документах
- Затраты времени до 4-5 часов ежедневно на каждом объекте
Архитектура решения на AWS
Совместно с инженерами AWS была разработана система, использующая Amazon SES для приема документов и событийную архитектуру на основе Amazon S3 Event Notifications. Ключевые этапы обработки:
- PDF-документы обрабатываются через Amazon Textract с использованием API Start Document Analysis
- Результаты Textract обрабатываются микросервисом на AWS Lambda для коррекции поворотов текста
- Генерация markdown-представления текста для последующей обработки
- Извлечение ключевых значений через Amazon Bedrock
- Сохранение результатов в Amazon RDS for PostgreSQL

Это классический пример того, как комбинация классического компьютерного зрения (Textract) и современных языковых моделей (Bedrock) создает синергетический эффект. Особенно впечатляет подход с конвертацией в markdown — это элегантное решение для улучшения структурирования данных перед обработкой LLM. Такая архитектура масштабируется на любые объемы документов и может стать эталоном для подобных кейсов.
Достигнутые результаты
Внедрение решения принесло значительные улучшения:
- Полная автоматизация обработки судовых накладных
- Значительное повышение точности извлечения данных
- Возможность валидации подписей и отклонения неполных документов
- Снижение трудозатрат и устранение ручной обработки
- Реальное время видимости статусов доставки
По материалам AWS Machine Learning Blog
Оставить комментарий