Оглавление
Мошенничество продолжает наносить значительный финансовый ущерб по всему миру: только потребители в США потеряли $12,5 миллиарда в 2024 году — на 25% больше, чем годом ранее, согласно данным Федеральной торговой комиссии. Этот рост обусловлен не увеличением количества атак, а повышением изощренности мошенников. Поскольку мошеннические действия становятся более сложными и взаимосвязанными, традиционные подходы машинного обучения не справляются, анализируя транзакции изолированно и не улавливая сети скоординированных действий, характерных для современных схем мошенничества.
Графовые нейросети против изолированного анализа
Графовые нейронные сети (GNN) эффективно решают эту проблему, моделируя отношения между сущностями — например, пользователями, которые используют общие устройства, местоположения или платежные методы. Анализируя как структуры сетей, так и атрибуты сущностей, GNN хорошо справляются с выявлением сложных схем мошенничества, где преступники маскируют отдельные подозрительные действия, но оставляют следы в своих сетях отношений.
Однако внедрение основанной на GNN онлайн-защиты от мошенничества в производственных средах представляет уникальные трудности: достижение времени отклика менее секунды, масштабирование до миллиардов узлов и ребер, а также поддержание операционной эффективности для обновлений моделей. В этом посте мы покажем, как преодолеть эти трудности с помощью GraphStorm, в частности новых возможностей реального времени в GraphStorm v0.5.
То, что раньше требовало недель кастомной разработки — теперь упаковано в одну команду. GraphStorm v0.5 фактически стандартизирует процесс продакшн-развертывания графовых моделей, что может серьезно ускорить внедрение GNN в индустрии финансовой безопасности.
Эволюция подходов к реальному времени
Предыдущие решения требовали компромиссов между возможностями и простотой. Первоначальный подход DGL предоставлял полные возможности реального времени, но требовал сложной оркестрации сервисов — включая ручное обновление конфигураций эндпоинтов и форматов нагрузки после переобучения с новыми гиперпараметрами. Этот подход также имел недостаточную гибкость модели, требуя кастомизации GNN моделей и конфигураций при использовании архитектур, выходящих за рамки сверточных сетей графов (RGCN).
Последующие DGL-реализации снизили сложность, но столкнулись с ограничениями масштабируемости при корпоративных объемах данных. GraphStorm был создан, чтобы преодолеть этот разрыв, введя распределенное обучение и высокоуровневые API, которые помогают упростить разработку GNN в корпоративном масштабе.
Новые возможности GraphStorm v0.5
GraphStorm v0.5 делает это возможным благодаря встроенной поддержке реального времени через Amazon SageMaker AI. GraphStorm v0.5 предлагает два нововведения: оптимизированное развертывание конечных точек, которое сокращает недели пользовательской инженерии — написание файлов точек входа SageMaker, упаковка артефактов модели и вызов API развертывания SageMaker — до операции одной командой, и стандартизированное определение полезной нагрузки, которое помогает упростить интеграцию клиента с сервисами реального времени.
Эти возможности обеспечивают выполнение задач классификации узлов менее чем за секунду, таких как предотвращение мошенничества, позволяя организациям проактивно противостоять угрозам мошенничества с помощью масштабируемых, операционно простых GNN-решений.
Архитектура решения
Предлагаемое решение представляет собой 4-шаговый конвейер, как показано на следующем рисунке. Конвейер начинается с шага 1 с экспорта графа транзакций из графовой базы данных обработки транзакций в реальном времени (OLTP) в масштабируемое хранилище (Amazon Simple Storage Service (Amazon S3) или Amazon EFS), за которым следует распределенное обучение модели на шаге 2. Шаг 3 — это упрощенный процесс развертывания GraphStorm v0.5, который создает конечные точки реального времени SageMaker одной командой.

Источник: aws.amazon.com
После успешного развертывания конечной точки SageMaker AI, клиентское приложение интегрируется с графовой базой данных OLTP, которая обрабатывает потоки транзакций в реальном времени на шаге 4. Запрашивая графовую базу данных, клиент подготавливает подграфы вокруг транзакций, для которых нужно сделать предсказание, преобразует подграф в стандартизированный формат полезной нагрузки и вызывает развернутую конечную точку для предсказания в реальном времени.
Чтобы предоставить конкретные детали реализации для каждого шага в решении реального времени, мы демонстрируем полный рабочий процесс с использованием общедоступной задачи обнаружения мошенничества IEEE-CIS.
По материалам AWS Machine Learning Blog.
Оставить комментарий