Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , приблизительная энтропия ( ApEn ) представляет собой метод , используемый для определения количества регулярности и непредсказуемости флуктуаций над временными рядами данными. [1]

Например, есть две серии данных:

серия 1: (10,20,10,20,10,20,10,20,10,20,10,20 ...), в которой чередуются 10 и 20.
серия 2: (10,10,20,10,20,20,20,10,10,20,10,20,20 ...), которая имеет значение 10 или 20, выбираемое случайным образом, каждое с вероятностью 1/2.

Статистика моментов , такая как среднее значение и дисперсия , не различает эти два ряда. Не будет ранжировать порядка статистики различить эти серии. И все же серия 1 «совершенно правильная»; знание того, что один член имеет значение 20, позволяет с уверенностью предсказать, что следующий член будет иметь значение 10. Серия 2 оценивается случайным образом; знание того, что один член имеет значение 20, не дает представления о том, какое значение будет иметь следующий член.

Изначально регулярность измерялась точной статистикой регулярности, которая в основном сосредоточивалась на различных показателях энтропии. [1] Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум [2], поэтому применять эти методы к экспериментальным данным нецелесообразно. ApEn был разработан Стивом М. Пинкусом, чтобы справиться с этими ограничениями путем модификации точной статистики регулярности, энтропии Колмогорова – Синая . Первоначально ApEn был разработан для анализа медицинских данных, таких как частота сердечных сокращений, [1], а затем получил распространение в финансах , [3] физиологии , [4] человеческие факторы инженерной , [5] и климат науки. [6]

Алгоритм [ править ]

Подробное пошаговое руководство с объяснением теоретических основ приблизительной энтропии доступно по адресу: [7]

Шаг 1
Сформируйте временной ряд данных . Это N значений исходных данных из измерений, равномерно распределенных во времени.
Шаг 2
Фикс м , целое число , а г , А положительное действительное число . Значение m представляет собой длину сравниваемой серии данных, а r указывает уровень фильтрации.
Шаг 3
Сформируйте последовательность векторов , в , вещественно- мерном пространстве, определяемом как .
Шаг 4
Используйте последовательность , чтобы построить для каждого i ,
в котором определяется как
Являются м скалярных компонентов . d представляет собой расстояние между векторами и , заданное максимальной разницей в их соответствующих скалярных компонентах. Обратите внимание, что принимает все значения, поэтому совпадение при условии, когда будет засчитано (подпоследовательность сравнивается с самой собой).
Шаг 5
Определять
,
Шаг 6
Определим приблизительную энтропию как
где - натуральный логарифм для m и r, фиксированных, как на шаге 2.
Выбор параметра
обычно выбирают или , а r сильно зависит от приложения.

Реализация на Physionet, [8] , который основан на Пинкусе [2] Использование в то время как оригинальные применения статьи на шаге 4. В то время как забота о искусственно построенных примерах, это, как правило , не является проблема на практике.

Интерпретация [ править ]

Наличие повторяющихся паттернов колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие паттерны отсутствуют. ApEn отражает вероятность того, что подобные образцы наблюдений не будут сопровождаться дополнительными аналогичными наблюдениями. [9] Временной ряд, содержащий множество повторяющихся шаблонов, имеет относительно небольшой ApEn; менее предсказуемый процесс имеет более высокое ApEn.

Один пример [ править ]

Иллюстрация последовательности пульса

Предположим , и последовательность состоит из 51 отсчета частоты сердечных сокращений, равномерно распределенных во времени:

(т. е. последовательность периодическая с периодом 3). Выберем и (значения и можно варьировать, не влияя на результат).

Сформируйте последовательность векторов:

Расстояние рассчитывается следующим образом:

Обратите внимание , так что

По аналогии,

Следовательно, таких, которые включают , а всего 17.

Обратите внимание на шаге 4, для , . Итак, таких, которые включают , а их всего 16.

Затем повторяем вышеуказанные шаги для m = 3. Сначала сформируйте последовательность векторов:

Вычисляя расстояния между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующие характеристики:

Следовательно,

Ну наконец то,

Значение очень маленькое, поэтому подразумевает, что последовательность регулярная и предсказуемая, что согласуется с наблюдением.

Реализация Python [ править ]

импортировать  numpy  как  npdef  ApEn ( U ,  m ,  r )  ->  float :  "" "Приблизительная_энтропия." "" def  _maxdist ( x_i ,  x_j ):  вернуть  max ([ abs ( ua  -  va )  для  ua ,  va  в  zip ( x_i ,  x_j )]) def  _phi ( m ):  x  =  [[ U [ j ]  для  j  в  диапазоне ( i ,  i  +  m  -  1  +  1 )]  для  i  в  диапазоне ( N  -  m  +  1 )]  C  =  [  len ([ 1  для  x_j  в  x,  если  _maxdist ( x_i ,  x_j )  <=  r ]) /  ( N  -  m  +  1.0 )  для  x_i  in  x  ]  return  ( N  -  m  +  1.0 )  **  ( - 1 )  *  sum ( np . Log ( C )) N  =  len ( U ) вернуть  абс ( _phi ( m  +  1 )  -  _phi ( m ))# Пример использования U  =  np . массив ([ 85 ,  80 ,  89 ]  *  17 ) print ( ApEn ( U ,  2 ,  3 )) 1.0996541105257052e-05randU  =  np . случайный . choice ([ 85 ,  80 ,  89 ],  size = 17  *  3 ) print ( ApEn ( randU ,  2 ,  3 )) 0.8626664154888908

Преимущества [ править ]

Преимущества ApEn: [2]

  • Снижение вычислительной нагрузки. ApEn может быть разработан для работы с небольшими выборками данных (n <50 точек) и может применяться в реальном времени.
  • Меньше эффекта от шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.

Приложения [ править ]

ApEn применялся для классификации ЭЭГ при психических заболеваниях, таких как шизофрения [10], эпилепсия [11] и зависимость. [12]

Ограничения [ править ]

Алгоритм ApEn считает каждую последовательность совпадающей, чтобы избежать появления ln (0) в вычислениях. Этот шаг может вызвать смещение ApEn, и это смещение приводит к тому, что ApEn на практике имеет два плохих свойства: [13]

  1. ApEn сильно зависит от длины записи и всегда ниже, чем ожидалось для коротких записей.
  2. Ему не хватает относительной последовательности. То есть, если ApEn одного набора данных выше, чем у другого, он должен, но не остается, оставаться выше для всех тестируемых условий.

См. Также [ править ]

  • Количественный анализ повторяемости
  • Образец энтропии

Ссылки [ править ]

  1. ^ а б в Пинкус, С.М. Гладстон, И.М.; Эренкранц, Р.А. (1991). «Статистика закономерностей для анализа медицинских данных». Журнал клинического мониторинга и вычислений . 7 (4): 335–345. DOI : 10.1007 / BF01619355 . PMID 1744678 . 
  2. ^ а б в Пинкус, С.М. (1991). «Приблизительная энтропия как мера сложности системы» . Труды Национальной академии наук . 88 (6): 2297–2301. DOI : 10.1073 / pnas.88.6.2297 . PMC 51218 . PMID 11607165 .  
  3. ^ Пинкус, С. М.; Кальман, EK (2004). «Неравномерность, волатильность, риск и временные ряды финансового рынка» . Труды Национальной академии наук . 101 (38): 13709–13714. DOI : 10.1073 / pnas.0405168101 . PMC 518821 . PMID 15358860 .  
  4. ^ Пинкус, С. М.; Гольдбергер, А. Л. (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. DOI : 10.1152 / ajpheart.1994.266.4.H1643 . PMID 8184944 . S2CID 362684 .  
  5. ^ МакКинли, РА; Макинтайр, ЛК; Schmidt, R; Реппергер, DW; Колдуэлл, Дж. А. (2011). «Оценка глазных метрик как детектор усталости». Человеческий фактор . 53 (4): 403–414. DOI : 10.1177 / 0018720811411297 . PMID 21901937 . 
  6. ^ Дельгадо-Бонал, Альфонсо; Маршак Александр; Ян, Юэкуй; Холдэвей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием радиационных данных MERRA-2» . Научные отчеты . 10 (1): 922. DOI : 10.1038 / s41598-020-57917-8 . ISSN 2045-2322 . 
  7. ^ Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019). «Приближенная энтропия и образец энтропии: подробное руководство» . Энтропия . 21 (6): 541. DOI : 10,3390 / e21060541 .
  8. ^ [1]
  9. ^ Хо, KK; Moody, Великобритания; Пэн, СК; Mietus, JE; Ларсон, MG; сбор, D; Гольдбергер, А.Л. (1997). «Прогнозирование выживаемости в случае сердечной недостаточности и контрольных субъектов с использованием полностью автоматизированных методов для получения нелинейных и условных показателей динамики сердечного ритма». Тираж . 96 (3): 842–848. DOI : 10.1161 / 01.cir.96.3.842 . PMID 9264491 . 
  10. ^ Sabeti, Malihe (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и участников контрольной группы». Искусственный интеллект в медицине . 47 (3): 263–274. DOI : 10.1016 / j.artmed.2009.03.003 . PMID 19403281 . 
  11. ^ Юань, Ци (2011). «Классификация эпилептических ЭЭГ, основанная на экстремальном машинном обучении и нелинейных характеристиках». Исследование эпилепсии . 96 (1–2): 29–38. DOI : 10.1016 / j.eplepsyres.2011.04.013 . PMID 21616643 . 
  12. ^ Юн, Kyongsik (2012). «Снижение корковой сложности у лиц, злоупотребляющих метамфетамином». Психиатрические исследования: нейровизуализация . 201 (3): 226–32. DOI : 10.1016 / j.pscychresns.2011.07.009 . PMID 22445216 . 
  13. ^ Ричман, JS; Мурман, младший (2000). «Физиологический анализ временных рядов с использованием приблизительной энтропии и энтропии образца». Американский журнал физиологии. Сердце и физиология кровообращения . 278 (6): 2039–2049. DOI : 10.1152 / ajpheart.2000.278.6.H2039 . PMID 10843903 .