В статистике , приблизительная энтропия ( ApEn ) представляет собой метод , используемый для определения количества регулярности и непредсказуемости флуктуаций над временными рядами данными. [1]
Например, есть две серии данных:
- серия 1: (10,20,10,20,10,20,10,20,10,20,10,20 ...), в которой чередуются 10 и 20.
- серия 2: (10,10,20,10,20,20,20,10,10,20,10,20,20 ...), которая имеет значение 10 или 20, выбираемое случайным образом, каждое с вероятностью 1/2.
Статистика моментов , такая как среднее значение и дисперсия , не различает эти два ряда. Не будет ранжировать порядка статистики различить эти серии. И все же серия 1 «совершенно правильная»; знание того, что один член имеет значение 20, позволяет с уверенностью предсказать, что следующий член будет иметь значение 10. Серия 2 оценивается случайным образом; знание того, что один член имеет значение 20, не дает представления о том, какое значение будет иметь следующий член.
Изначально регулярность измерялась точной статистикой регулярности, которая в основном сосредоточивалась на различных показателях энтропии. [1] Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум [2], поэтому применять эти методы к экспериментальным данным нецелесообразно. ApEn был разработан Стивом М. Пинкусом, чтобы справиться с этими ограничениями путем модификации точной статистики регулярности, энтропии Колмогорова – Синая . Первоначально ApEn был разработан для анализа медицинских данных, таких как частота сердечных сокращений, [1], а затем получил распространение в финансах , [3] физиологии , [4] человеческие факторы инженерной , [5] и климат науки. [6]
Алгоритм [ править ]
Подробное пошаговое руководство с объяснением теоретических основ приблизительной энтропии доступно по адресу: [7]
- Шаг 1
- Сформируйте временной ряд данных . Это N значений исходных данных из измерений, равномерно распределенных во времени.
- Шаг 2
- Фикс м , целое число , а г , А положительное действительное число . Значение m представляет собой длину сравниваемой серии данных, а r указывает уровень фильтрации.
- Шаг 3
- Сформируйте последовательность векторов , в , вещественно- мерном пространстве, определяемом как .
- Шаг 4
- Используйте последовательность , чтобы построить для каждого i ,
- в котором определяется как
- Являются м скалярных компонентов . d представляет собой расстояние между векторами и , заданное максимальной разницей в их соответствующих скалярных компонентах. Обратите внимание, что принимает все значения, поэтому совпадение при условии, когда будет засчитано (подпоследовательность сравнивается с самой собой).
- Шаг 5
- Определять
- ,
- Шаг 6
- Определим приблизительную энтропию как
- где - натуральный логарифм для m и r, фиксированных, как на шаге 2.
- Выбор параметра
- обычно выбирают или , а r сильно зависит от приложения.
Реализация на Physionet, [8] , который основан на Пинкусе [2] Использование в то время как оригинальные применения статьи на шаге 4. В то время как забота о искусственно построенных примерах, это, как правило , не является проблема на практике.
Интерпретация [ править ]
Наличие повторяющихся паттернов колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие паттерны отсутствуют. ApEn отражает вероятность того, что подобные образцы наблюдений не будут сопровождаться дополнительными аналогичными наблюдениями. [9] Временной ряд, содержащий множество повторяющихся шаблонов, имеет относительно небольшой ApEn; менее предсказуемый процесс имеет более высокое ApEn.
Один пример [ править ]
Предположим , и последовательность состоит из 51 отсчета частоты сердечных сокращений, равномерно распределенных во времени:
(т. е. последовательность периодическая с периодом 3). Выберем и (значения и можно варьировать, не влияя на результат).
Сформируйте последовательность векторов:
- …
Расстояние рассчитывается следующим образом:
Обратите внимание , так что
По аналогии,
Следовательно, таких, которые включают , а всего 17.
Обратите внимание на шаге 4, для , . Итак, таких, которые включают , а их всего 16.
Затем повторяем вышеуказанные шаги для m = 3. Сначала сформируйте последовательность векторов:
- …
Вычисляя расстояния между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующие характеристики:
Следовательно,
Ну наконец то,
Значение очень маленькое, поэтому подразумевает, что последовательность регулярная и предсказуемая, что согласуется с наблюдением.
Реализация Python [ править ]
импортировать numpy как npdef ApEn ( U , m , r ) -> float : "" "Приблизительная_энтропия." "" def _maxdist ( x_i , x_j ): вернуть max ([ abs ( ua - va ) для ua , va в zip ( x_i , x_j )]) def _phi ( m ): x = [[ U [ j ] для j в диапазоне ( i , i + m - 1 + 1 )] для i в диапазоне ( N - m + 1 )] C = [ len ([ 1 для x_j в x, если _maxdist ( x_i , x_j ) <= r ]) / ( N - m + 1.0 ) для x_i in x ] return ( N - m + 1.0 ) ** ( - 1 ) * sum ( np . Log ( C )) N = len ( U ) вернуть абс ( _phi ( m + 1 ) - _phi ( m ))# Пример использования U = np . массив ([ 85 , 80 , 89 ] * 17 ) print ( ApEn ( U , 2 , 3 )) 1.0996541105257052e-05randU = np . случайный . choice ([ 85 , 80 , 89 ], size = 17 * 3 ) print ( ApEn ( randU , 2 , 3 )) 0.8626664154888908
Преимущества [ править ]
Преимущества ApEn: [2]
- Снижение вычислительной нагрузки. ApEn может быть разработан для работы с небольшими выборками данных (n <50 точек) и может применяться в реальном времени.
- Меньше эффекта от шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.
Приложения [ править ]
ApEn применялся для классификации ЭЭГ при психических заболеваниях, таких как шизофрения [10], эпилепсия [11] и зависимость. [12]
Ограничения [ править ]
Алгоритм ApEn считает каждую последовательность совпадающей, чтобы избежать появления ln (0) в вычислениях. Этот шаг может вызвать смещение ApEn, и это смещение приводит к тому, что ApEn на практике имеет два плохих свойства: [13]
- ApEn сильно зависит от длины записи и всегда ниже, чем ожидалось для коротких записей.
- Ему не хватает относительной последовательности. То есть, если ApEn одного набора данных выше, чем у другого, он должен, но не остается, оставаться выше для всех тестируемых условий.
См. Также [ править ]
- Количественный анализ повторяемости
- Образец энтропии
Ссылки [ править ]
- ^ а б в Пинкус, С.М. Гладстон, И.М.; Эренкранц, Р.А. (1991). «Статистика закономерностей для анализа медицинских данных». Журнал клинического мониторинга и вычислений . 7 (4): 335–345. DOI : 10.1007 / BF01619355 . PMID 1744678 .
- ^ а б в Пинкус, С.М. (1991). «Приблизительная энтропия как мера сложности системы» . Труды Национальной академии наук . 88 (6): 2297–2301. DOI : 10.1073 / pnas.88.6.2297 . PMC 51218 . PMID 11607165 .
- ^ Пинкус, С. М.; Кальман, EK (2004). «Неравномерность, волатильность, риск и временные ряды финансового рынка» . Труды Национальной академии наук . 101 (38): 13709–13714. DOI : 10.1073 / pnas.0405168101 . PMC 518821 . PMID 15358860 .
- ^ Пинкус, С. М.; Гольдбергер, А. Л. (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. DOI : 10.1152 / ajpheart.1994.266.4.H1643 . PMID 8184944 . S2CID 362684 .
- ^ МакКинли, РА; Макинтайр, ЛК; Schmidt, R; Реппергер, DW; Колдуэлл, Дж. А. (2011). «Оценка глазных метрик как детектор усталости». Человеческий фактор . 53 (4): 403–414. DOI : 10.1177 / 0018720811411297 . PMID 21901937 .
- ^ Дельгадо-Бонал, Альфонсо; Маршак Александр; Ян, Юэкуй; Холдэвей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием радиационных данных MERRA-2» . Научные отчеты . 10 (1): 922. DOI : 10.1038 / s41598-020-57917-8 . ISSN 2045-2322 .
- ^ Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019). «Приближенная энтропия и образец энтропии: подробное руководство» . Энтропия . 21 (6): 541. DOI : 10,3390 / e21060541 .
- ^ [1]
- ^ Хо, KK; Moody, Великобритания; Пэн, СК; Mietus, JE; Ларсон, MG; сбор, D; Гольдбергер, А.Л. (1997). «Прогнозирование выживаемости в случае сердечной недостаточности и контрольных субъектов с использованием полностью автоматизированных методов для получения нелинейных и условных показателей динамики сердечного ритма». Тираж . 96 (3): 842–848. DOI : 10.1161 / 01.cir.96.3.842 . PMID 9264491 .
- ^ Sabeti, Malihe (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и участников контрольной группы». Искусственный интеллект в медицине . 47 (3): 263–274. DOI : 10.1016 / j.artmed.2009.03.003 . PMID 19403281 .
- ^ Юань, Ци (2011). «Классификация эпилептических ЭЭГ, основанная на экстремальном машинном обучении и нелинейных характеристиках». Исследование эпилепсии . 96 (1–2): 29–38. DOI : 10.1016 / j.eplepsyres.2011.04.013 . PMID 21616643 .
- ^ Юн, Kyongsik (2012). «Снижение корковой сложности у лиц, злоупотребляющих метамфетамином». Психиатрические исследования: нейровизуализация . 201 (3): 226–32. DOI : 10.1016 / j.pscychresns.2011.07.009 . PMID 22445216 .
- ^ Ричман, JS; Мурман, младший (2000). «Физиологический анализ временных рядов с использованием приблизительной энтропии и энтропии образца». Американский журнал физиологии. Сердце и физиология кровообращения . 278 (6): 2039–2049. DOI : 10.1152 / ajpheart.2000.278.6.H2039 . PMID 10843903 .