Важность поведенческих аномалий при выявлении цифровых мошенников на этапе верификации

Бесплатный доступ

Цифровое мошенничество становится все более сложным и изощренным, а также растет в объеме, что требует совершенствования механизмов защиты цифровых сервисов. В статье рассматривается значимость поведенческих аномалий для выявления мошенников на этапе верификации. Представлены результаты эксперимента с использованием модели градиентного бустинга (Catboost), проанализированы данные 100 000 пользователей, из которых 2 863 были идентифицированы как мошенники. Ключевыми поведенческими факторами, аномалии в которых свидетельствуют о возможном мошенничестве, являются время загрузки документа, время прохождения этапа биометрии, время заполнения анкеты, количество попыток загрузки документов и биометрии, средняя пауза между заполнением полей формы, а также время реакции на при запуске этапа биометрии. Полученные результаты показывают, что поведение мошенников часто отклоняется от среднего по этим показателям. Такие данные могут быть эффективно использованы для адаптации верификационных систем, чтобы минимизировать потери среди честных пользователей, сохраняя при этом высокий уровень защиты. Ограничения исследования связаны с анализом только этапа верификации, что подчеркивает необходимость дальнейшего изучения поведения пользователей после данного шага. Выводы акцентируют внимание на необходимости комплексного подхода к мониторингу пользовательских действий для борьбы с цифровым мошенничеством.

Еще

Верификация, цифровое мошенничество, поведение пользователя, поведенческие аномалии, градиентный бустинг, биометрия

Короткий адрес: https://sciup.org/148330970

IDR: 148330970   |   DOI: 10.18101/2304-4446-2025-1-119-126

Текст научной статьи Важность поведенческих аномалий при выявлении цифровых мошенников на этапе верификации

Сидоров А. Л., Винюков А. А. Важность поведенческих аномалий при выявлении цифровых мошенников на этапе верификации // Вестник Бурятского государственного университета. Экономика и менеджмент. 2025. № 1. С. 119–126.

С каждым годом цифровая среда становится более привлекательной для злоумышленников, использующих все более сложные схемы обмана [1]. В условиях растущего объема онлайн-транзакций и множества новых способов взаимодействия с клиентами, а также технологий открытых API компании сталкиваются с необходимостью защиты не только своих ресурсов, но и данных клиентов [2]. Классические методы, такие как верификация и системы проверки транзакций, больше не всегда могут обеспечить достаточную защиту, поэтому все больше внимания уделяется анализу поведения пользователей для выявления скрытых угроз [3].

Более того, верификация и любые другие проверки пользователя, требующие от последнего активных действий, таких как загрузка документа, прохождение биометрии и так далее, неизбежно приводят к потере части честных пользователей цифровым сервисом [4]. Современный пользователь хочет получить доступ к цифровому сервису за пару кликов и, зачастую, не готов совершать дополнительные действия, которые от него требует верификационная система. В итоге часть честных пользователей просто не заканчивает верификацию и не становится активным пользователем цифрового сервиса. Как следствие, цифровой сервис недополучает прибыль [5]. Таким образом, на первый план выходит скрытый для пользователя мониторинг его действий. Это позволяет сохранить правильный баланс между тщательностью проверки для эффективного отсеивания мошенников и конверсией в платящего пользователя для честных пользователей [6; 7].

В начале необходимо кратко поговорить о верификации и ее современном виде в цифровых сервисах. Верификация — необходимый процесс для многих современных цифровых сервисов, поскольку она способствует обеспечению безопасности пользователей и защищает компании от мошеннических действий [8]. Процесс верификации может включать в себя разные уровни проверки, такие как подтверждение личности, аутентификация по биометрическим данным или многослойная авторизация через SMS-коды или электронную почту. Такие методы позволяют уменьшить риски несанкционированного доступа и повысить доверие клиентов. Для многих цифровых сервисов верификация является регуляторным требованием надзорного органа [9; 10]. В таких случаях самый популярный способ верификации включает два этапа: запрос у пользователя идентифицирующего документа и прохождение этапа биометрии, сравнение лица пользователя с фотографией в документе1.

Как уже было сказано выше, верификация в современном виде не является совершенной. Основные недостатки: 1. Широкое распространение генеративного искусственного интеллекта приводит к демократизации мошенничества2. Создать поддельный документ или дипфейк сейчас — простая задача, а значит не нужно иметь специальных талантов, чтобы начать обманывать цифровые сервисы. Далеко не каждая верификационная система способна выявить подделки такого уровня. Тем более такие подделки практически невозможно выявить на глаз. Человек без помощи машины уже не способен эффективно отличать дипфейки от обычных фотографий [11].

  • 2.    В эпоху постоянных утечек данных и снижения фокуса внимания у пользователя современные клиенты цифровых сервисов могут или не желать делиться фотографиями своих документов или не закончить верификацию из-за долгого и сложного процесса [12].

  • 3.    При этом, даже если документы пользователя настоящие и биометрический шаг не вызывает опасений, многие мошенники просто покупают уже верифицированные аккаунты. Верификация не способна поймать мошенничество такого рода, поскольку изолированная верификационная система не может узнать, что происходит с пользователем после начальной проверки [13; 14].

Как итог, для эффективного предотвращения мошенничества цифровому сервису помимо технологически продвинутой верификационной системы, способной выявлять все современные фейки, созданные с помощью генеративного искусственного интеллекта, необходимо иметь развитую систему мониторинга поведения пользователя после и во время верификации [15; 16]. В данной статье рассмотрим ключевые аспекты пользовательского поведения, которые могут выступать подозрительным маркером мошенничества и указывать на недобросовестного пользователя. Стоит отметить, что в данном эксперименте мы будем рассматривать поведенческие аспекты, которые были собраны только в процессе верификации. Безусловно, выявление мошенничества после этапа верификации — крайне важная практическая задача, но это станет темой для будущих исследований.

За основу эксперимента были взяты реальные анонимизированные и агрегированные данные. По условиям контракта авторы не могут раскрывать цифровой сервис, предоставивший данные. Общий объем выборки пользователей составил 100 000 человек, из которых 2 863 по результатам проверки были признаны мошенниками, остальные — честными пользователями. Все пользователи проходили единый верификационный путь, состоящий из трех основных этапов: заполнение формы с информацией о себе, прохождение верификации идентифицирующего документа и прохождение этапа биометрии.

В рамках эксперимента примем за данность, что система уже сделала выбор правильно, то есть верно определила мошенников и честных пользователей. В реальности, конечно же, существует определенный объем FAR (False Acceptance Rate) и FRR (False Rejection Rate). Это ключевые метрики в биометрических системах и других системах аутентификации, которые показывают качество работы алгоритмов распознавания и верификации. FAR (False Acceptance Rate) — Уровень ложного принятия: показатель, отражающий вероятность того, что система неверно распознает мошенника как честного пользователя. FRR (False Rejection Rate) — Уровень ложного отклонения: показатель, отражающий вероятность того, что система неправильно отклоняет честного пользователя. Оценить данные метрики крайне сложно, поскольку система крайне редко понимает, где она сделала ошибку. Однако в контексте работы определим, что данные показатели являются минимальными и не повлияют на последующие результаты.

Система верификации цифрового сервиса также зарегистрировала следующие переменные в процессе верификации:

Таблица 1

Переменная

Описание

Doc_Time

Время, потраченное пользователем на загрузку документа

Selfie_Time

Время, потраченное пользователем на прохождение этапа биометрии

Form_time

Время, потраченное пользователем на заполнение анкеты

Doc_Tries

Количество попыток загрузки документа

Selfie_Tries

Количество попыток загрузки биометрии

Average_Pause

Средняя пауза между полями формы

Selfie_Reaction

Время реакции при запуске этапа биометрии

Описание переменных для эксперимента

Ключевая цель данного исследования — понять, какие поведенческие факторы являются важными при предсказании мошенничества, из них — какие наиболее важные. Наконец, чем обусловлена эта важность с точки зрения распределения мошенников, наблюдается ли какой-либо тренд мошеннического поведения внутри каждой переменной. Для этой задачи нам прекрасно подойдут модели градиентного бустинга по следующим причинам: во-первых, градиентный бус-тинг обычно обеспечивает одну из самых высоких точностей среди моделей машинного обучения. Во-вторых, благодаря методам регуляризации, градиентный бустинг хорошо контролирует переобучение. Наконец, за счет использования «деревьев» решений в качестве базовых моделей градиентный бустинг может эффективно захватывать сложные нелинейные зависимости в данных.

Стоит отметить, что верификационная система может регистрировать гораздо больше признаков. В данную модель мы включим только основные признаки, а также не будем включать булевые переменные, поскольку их эффективность в моделях градиентного бустинга будет ниже, по сравнению с численными переменными, так как их можно будет «разбить» только один раз.

Среди методов градиентного бустинга нами был выбран именно Catboost по следующим причинам: Catboost способен обрабатывать пропущенные значения автоматически, что упрощает подготовку данных и делает его более устойчивым к проблемам с отсутствующими данными и к переобучению.

Как уже было сказано, для эксперимента был взят массив из 100 000 наблюдений, из которых 2 863 пользователя являются мошенниками, а остальные — честными пользователями. Важное достоинство модели Catboost также заключается в том, что модель хорошо работает с несбалансированными выборками.

Построим модель градиентного бустинга по нашим переменным:

Таблица 2

Важность переменных, модель Catboost

Переменная

Важность

Selfie_Reaction

16,34

Doc_Time

16,03

Average_Pause

15,41

Form_time

14,00

Selfie_Time

13,72

Doc_Tries

12,85

Selfie_Tries

11,63

Теперь проинтерпретируем результаты анализа. Важность в правой строке таблицы, по сути, показывает, насколько каждый признак уменьшает ошибку модели на каждой итерации построения деревьев. Чем больше уменьшение ошибки при использовании признака, тем выше его важность. В CatBoost значения важности носят относительный характер. Например, если важность одного признака в два раза выше, чем у другого, это означает, что первый признак примерно в два раза более важен для модели. Сумма всех значимостей признаков обычно равна 100%. Можно использовать это, чтобы понять, какую долю объяснимой значимости каждый признак добавляет в модель.

Следующий аспект, который необходимо обсудить, — это метод отбора переменных. Необходимо выбрать способ, согласно которому мы будем определять переменные в группу важных и в группу менее важных.

Существует несколько основных методов

  • 1.    Определение границы по доле кумулятивной важности:

  • 2.    Отбор признаков на основе порогового значения важности:

  • 3.    Определение границы по изменению важности:

  • 4.    Тестирование производительности модели с разным числом признаков:

Необходимо рассчитать кумулятивную важность, то есть накопленную важность признаков, и отобрать признаки, покрывающие определенный процент важности (например, 90 или 95%)

Необходимо задать порог, ниже которого признаки считаются малозначимыми (например, 1 или 0.5%).

Необходимо проанализировать распределение важности и выявить резкий спад, где важность признаков начинает резко снижаться.

Необходимо начать с небольшого числа признаков (например, топ-5), постепенно добавляя новые признаки, пока качество модели перестанет заметно улучшаться.

Чаще всего используется первый метод из-за его простоты и легкости объяснения. В нашем случае, вне зависимости от выбора метода, можно однозначно отметить, что все переменные, включенные в модель, крайне важны для предсказания цифрового мошенничества на этапе верификации. Все эти переменные в случае отклонения от нормы могут считаться красными флагами, на которые система должна обращать внимание. Рассмотрим подробнее каждую переменную и укажем на логический смысл взаимосвязи ее с зависимой переменной.

Переменная Selfie_Reaction отвечает за время реакции при запуске этапа биометрии. Данная переменная занимает первое место по важности в нашей модели. При детальном рассмотрении данных нами было обнаружено, что время реакции для мошенников в целом гораздо ниже, чем для честных пользователей. Это связано с тем, что мошенники уже знают, какие этапы включает в себя верификация и что от них будет требоваться, в то время как честные пользователи часто проходят данный процесс в первый раз и зачастую в более расслабленном режиме, а значит имеют более низкую скорость реакции от запуска этапа биометрии до прохождения первого задания активного Liveness теста. Также были замечены несколько мошенников, для которых время реакции было слишком долгое. Это может быть связано с тем, что они использовали автоматизированный скрипт компьютера для прохождения верификации и система просто не могла найти человеческое лицо для прохождения селфи.

Следующая переменная — Doc_Time, отвечает за время, потраченное пользователем на загрузку документа. Данная переменная находиться на втором месте по значимости в модели. При детальном рассмотрении датасета нами была выявлена следующая закономерность. Цифровые мошенники делятся на две группы. Первая группа мошенников в среднем загружает документ сильно быстрее среднего пользователя, поскольку они уже имеют на руках какой-то заготовленный поддельный документ и ознакомлены с процессом. Вторая группа, увидев требования верификации, начинают оперативный поиск какого-то поддельного документа, отчего время до загрузки документа становиться дольше по сравнению со средним честным пользователем цифрового сервиса.

Average_Pause находится на третьем месте по значимости и показывает среднюю паузу между заполнением полей формы-опросника. Форма-опросник обычно является первым этапом верификации и может содержать различные вопросы, от имени пользователя до места жительства и номера идентифицирующего документа. Как и в случае с предыдущей переменной, четко прослеживается тренд на две группы мошенников с разным поведением, одни заполняют поля формы, быстро копируя заранее заготовленные данные, вторые тратят больше времени, чем средний честный пользователь.

Для переменных Form_Time (время, потраченное на заполнение формы) и Selfie_Time (время, потраченное на прохождение селфи шага) в целом наблюдаются схожие две группы мошенников, как уже было упомянуто выше.

Наконец, заключительные по значимости переменные Doc_Tries и Selfie_Tries показывают количество попыток загрузки документа и прохождения этапа селфи соответственно. Замечена четкая позитивная корреляция между тем, является ли пользователь мошенником и количеством попыток прохождения этапов. С первого раза у мошенников что-то может не получиться, и они пытаются еще раз обмануть систему.

Выводы.

С распространением цифровизации, а также с ростом популярности и простоты использования генеративного искусственного интеллекта цифровое мошенничество растет от года к году. Для эффективной борьбы с цифровым сервисом более недостаточно полагаться лишь на верификационную систему. Необходимо уделять внимание поведению пользователей в процессе верификации и в случае обнаружения аномалий принимать необходимые меры, вплоть до блокировки пользователя. Особое внимание необходимо уделять следующим поведенческим аспектам, поскольку они безусловно важны: Время, потраченное пользователем на загрузку документа (Doc_Time), Время, потраченное пользователем на прохождение этапа биометрии (Selfie_Time), Время, потраченное пользователем на заполнение анкеты (Form_Time), Количество попыток загрузки документа (Doc_Tries), Количество попыток загрузки биометрии (Selfie_Tries), Средняя пауза между полями формы (Average_Pause), Время реакции при запуске этапа биометрии (Selfie_Reaction). Показатели мошенников будут отличаться от честных пользователей, они будут смещены и будут во многих случаях принимать значения либо значительно меньше среднего по данной переменной для честных пользователей, либо значительно больше.

Ограничением данной работы является рассмотрение лишь части пути пользователя, система защиты цифрового сервиса от мошенничества не должна ограничиваться лишь верификацией, необходимо мониторить поведение пользователя постоянно. При этом для этапов жизненного цикла пользователя после верификации ключевыми поведенческими показателями будут являться другие переменные. Изучение пути пользователя после верификации будет являться предметом научного интереса авторов для последующих статей.

Статья научная