Оглавление

Databricks пишет о прорывном партнерстве с Mercedes-Benz, в рамках которого разработана иерархическая семантическая модель данных для обработки временных рядов автомобильной телеметрии в петабайтных масштабах. Решение сочетает кодирование длин серий (RLE) с технологией Liquid Clustering для оптимального баланса между скоростью обработки и стоимостью хранения.

Вызовы больших данных в автомобильной индустрии

Современные автомобили с сотнями электронных блоков управления генерируют колоссальные объемы временных рядовых данных с частотой от 1 до 100 Гц. Этот поток информации содержит бесценные insights для прогнозной аналитики, разработки новых функций и предиктивного обслуживания, но его обработка на петабайтном уровне создает серьезные технические и финансовые сложности.

Архитектура решения

Ядром модели стала система из пяти взаимосвязанных таблиц:

  • samples table — содержит временные ряды в узком формате с идентификаторами container_id и channel_id
  • container_metrics и container_tags — метаданные контейнеров
  • channel_metrics и channel_tags — метаданные каналов

Ключевая инновация — использование кодирования длин серий, где последовательные идентичные значения объединяются в одну запись с указанием временного интервала. Это значительно сокращает объем хранимых данных и ускоряет выполнение аналитических запросов.

Производительность и бенчмарки

Тестирование на реальных данных Mercedes-Benz показало превосходство комбинации RLE + Liquid Clustering над традиционными методами индексации. Новый подход демонстрирует:

  • До 40% экономии хранилища
  • Ускорение аналитических запросов в 3-5 раз
  • Линейную масштабируемость до петабайтных объемов

Технически изящное решение, которое наконец-то позволяет автомобильным гигантам перестать просто копить данные и начать их реально использовать. Особенно впечатляет интеграция с Unity Catalog — теперь инженеры могут находить нужные сигналы среди миллионов каналов без многочасовых квестов по дата-каталогам. Ждем, когда подобные подходы станут отраслевым стандартом.

Практическое применение

Модель уже используется в Mercedes-Benz Operating System (MB.OS) для:

  • Анализа эффективности электромобилей
  • Оптимизации систем автономного вождения
  • Предиктивного обслуживания компонентов
  • Разработки новых функций через машинное обучение

Решение демонстрирует, как современные data-платформы могут трансформировать традиционные индустрии, превращая сырые данные в стратегическое конкурентное преимущество.