Оглавление

Озера данных (Data lakes), эти огромные хранилища неструктурированных данных, давно стали неотъемлемой частью для компаний, стремящихся к цифровой трансформации. Они позволяют собирать всё: от лог-файлов и кликстримов до данных IoT-сенсоров и результатов работы ИИ-агентов. Однако за кажущимся благом скрываются серьёзные риски безопасности, о которых многие забывают.

Преимущества, которые превращаются в угрозы

Главное преимущество data lakes — единая точка доступа ко всей информации компании — одновременно является их главной уязвимостью. Как отмечает Стив Карам, руководитель продукта по ИИ и SaaS в Perforce, «единое окно», к которому стремятся компании, становится тем же окном, через которое может проникнуть злоумышленник.

Особую опасность представляют унаследованные базы данных, оставшиеся от давно уволившихся сотрудников. «В каждой организации есть свой Сэм — сотрудник, который десятилетия проработал в компании и создал базу данных, в которой никто не разбирается. Когда эта база попадает в озеро, последствия могут быть катастрофическими», — предупреждает Карам.

ИИ как усилитель рисков

С появлением ИИ риски многократно возрастают. В отличие от аналитиков, которые пишут целевые запросы, ИИ обладает «ненасытным аппетитом к данным» и стремится поглотить всю доступную информацию. Карам сравнивает его с «болтуном», который выбалтывает секреты подобно разговорчивому родственнику после бокала вина.

Ирония в том, что чем более «умными» становятся наши системы, тем глупее мы выглядим, когда забываем про базовые принципы безопасности. Озера данных без надлежащей защиты — это не хранилище, а дыра в бюджете на штрафы за утечки. Причём дыра размером с озеро, где действительно могут водиться крокодилы — в лице регуляторов и хакеров.

Практические решения

Для минимизации рисков эксперты рекомендуют:

  • Внедрение многоуровневой архитектуры данных по аналогии с Microsoft Medallion
  • Использование маскирования данных для замены чувствительной информации
  • Генерацию синтетических данных для тестовых сред
  • Создание отдельных рабочих сред для нефункционального тестирования

Техника маскирования данных заменяет персональные данные синтетическими, но реалистичными значениями, сохраняя при этом референциальную целостность. Например, разработчики в банке могут видеть баланс клиента для поиска аномалий, но не будут знать, кому именно он принадлежит.

Автоматизация и будущее

Современные инструменты позволяют автоматизировать процессы маскирования и генерации данных, минимизируя нагрузку на разработчиков. ИИ также используется для автоматизированного тестирования с обработкой естественного языка, освобождая команды QA от необходимости написания тестовых скриптов.

По данным исследования Perforce, около половины организаций уже сталкивались с утечками данных в нефункциональных средах. Это доказывает, что проблема не теоретическая, а вполне реальная и требующая немедленного решения.

По материалам Forbes