Профилирование (информатика)


В информатике профилирование относится к процессу построения и применения профилей пользователей, созданных путем компьютеризированного анализа данных .

Это использование алгоритмов или других математических методов, позволяющих обнаруживать закономерности или корреляции в больших объемах данных, собранных в базах данных . Когда эти шаблоны или корреляции используются для идентификации или представления людей, их можно назвать профилями . Помимо обсуждения технологий профилирования или профилирования населения , понятие профилирования в этом смысле касается не только построения профилей, но также касается применения групповых профилей к отдельным лицам, например. г., в случаях кредитного скоринга, ценовая дискриминация или выявление рисков безопасности ( Hildebrandt & Gutwirth 2008 ) ( Elmer 2004 ).

Профилирование используется для предотвращения мошенничества , анализа окружающей среды и потребительской аналитики . Статистические методы профилирования включают обнаружение знаний в базах данных (KDD).

Сбор, подготовка и анализ данных относятся к этапу, на котором создается профиль. Однако профилирование также относится к применению профилей, что означает использование профилей для идентификации или категоризации групп или отдельных лиц. Как видно на шестом шаге (применение), процесс идет по кругу. Существует обратная связь между конструкцией и применением профилей. Интерпретация профилей может привести к повторяющейся — возможно, в режиме реального времени — точной настройке конкретных предыдущих шагов в процессе профилирования. Применение профилей к людям, чьи данные не использовались для построения профиля, основано на сопоставлении данных, которое предоставляет новые данные, позволяющие вносить дальнейшие корректировки. Процесс профилирования является динамичным и адаптивным.КРИСП-ДМ ).

Чтобы прояснить природу технологий профилирования, необходимо провести некоторые важные различия между различными типами практик профилирования, помимо различия между построением и применением профилей. Основные различия заключаются в различиях между профилированием «снизу вверх» и «сверху вниз» (или обучением с учителем и без учителя), а также между индивидуальными и групповыми профилями.

Профили можно классифицировать в зависимости от способа их создания ( Файяд, Пятецкий-Шапиро и Смит, 1996 ) ( Зарский и 2002–2003 ) . С одной стороны, профили могут быть созданы путем проверки гипотетической корреляции. Это называется профилированием сверху вниз или контролируемым обучением . Это похоже на методологию традиционного научного исследования в том смысле, что оно начинается с гипотезы и состоит из проверки ее достоверности. Результатом такого профилирования является проверка или опровержение гипотезы. Можно также говорить о дедуктивном профилировании. С другой стороны, профили могут быть созданы путем изучения базы данных с использованием интеллектуального анализа данных .процесс обнаружения закономерностей в базе данных, о которых ранее не предполагалось. В каком-то смысле это вопрос генерации гипотезы: нахождение корреляций, которых никто не ожидал и даже не предполагал. Как только паттерны будут найдены, они войдут в цикл, описанный выше, и будут протестированы с использованием новых данных. Это называется неконтролируемое обучение .