Приблизительная энтропия

В статистике , приблизительная энтропия ( ApEn ) представляет собой метод , используемый для определения количества регулярности и непредсказуемости флуктуаций над временными рядами данными. ^[1]

Например, есть две серии данных:

серия 1: (10,20,10,20,10,20,10,20,10,20,10,20 ...), в которой чередуются 10 и 20.

серия 2: (10,10,20,10,20,20,20,10,10,20,10,20,20 ...), которая имеет значение 10 или 20, выбираемое случайным образом, каждое с вероятностью 1/2.

Статистика моментов , такая как среднее значение и дисперсия , не различает эти два ряда. Не будет ранжировать порядка статистики различить эти серии. И все же серия 1 «совершенно правильная»; знание того, что один член имеет значение 20, позволяет с уверенностью предсказать, что следующий член будет иметь значение 10. Серия 2 оценивается случайным образом; знание того, что один член имеет значение 20, не дает представления о том, какое значение будет иметь следующий член.

Изначально регулярность измерялась точной статистикой регулярности, которая в основном сосредоточивалась на различных показателях энтропии. ^[1] Однако точный расчет энтропии требует огромных объемов данных, и на результаты будет сильно влиять системный шум ^[2], поэтому применять эти методы к экспериментальным данным нецелесообразно. ApEn был разработан Стивом М. Пинкусом, чтобы справиться с этими ограничениями путем модификации точной статистики регулярности, энтропии Колмогорова – Синая . Первоначально ApEn был разработан для анализа медицинских данных, таких как частота сердечных сокращений, ^[1], а затем получил распространение в финансах , ^[3] физиологии , ^[4] человеческие факторы инженерной , ^[5] и климат науки. ^[6]

Алгоритм [ править ]

Подробное пошаговое руководство с объяснением теоретических основ приблизительной энтропии доступно по адресу: ^[7]

Шаг 1

Сформируйте временной ряд данных . Это

N

значений исходных данных из измерений, равномерно распределенных во времени.

{\ Displaystyle \ U (1), и (2), \ ldots, и (N)}

Шаг 2

Фикс

м

, целое число , а

г

, А положительное действительное число . Значение

m

представляет собой длину сравниваемой серии данных, а

r

указывает уровень фильтрации.

Шаг 3

Сформируйте последовательность векторов , в , вещественно- мерном пространстве, определяемом как .

{\ Displaystyle \ mathbf {х} (1)}

{\ Displaystyle \ mathbf {x} (2), \ ldots, \ mathbf {x} (N-m + 1)}

{\ Displaystyle \ mathbf {R} ^ {m}}

{\ displaystyle \ m}

{\ Displaystyle \ mathbf {х} (я) = [и (я), и (я + 1), \ ldots, и (я + м-1)]}

Шаг 4

Используйте последовательность , чтобы построить для каждого

i

,

{\ Displaystyle \ mathbf {х} (1)}

{\ Displaystyle \ mathbf {x} (2), \ ldots, \ mathbf {x} (N-m + 1)}

{\ Displaystyle 1 \ Leq я \ Leq Н-м + 1}

C_{i}^{m}(r)=({\text{number of }}x(j){\text{ such that }}d[x(i),x(j)]\leq r)/(N-m+1)

в котором определяется как

\ d[x,x^{*}]

d[x,x^{*}]=\max _{a}|u(a)-u^{*}(a)|\,

Являются

м

скалярных компонентов .

d

представляет собой расстояние между векторами и , заданное максимальной разницей в их соответствующих скалярных компонентах. Обратите внимание, что принимает все значения, поэтому совпадение при условии, когда будет засчитано (подпоследовательность сравнивается с самой собой).

u(a)

\mathbf {x}

\mathbf {x} (i)

\mathbf {x} (j)

j

i=j

Шаг 5

Определять

\Phi ^{m}(r)=(N-m+1)^{-1}\sum _{i=1}^{N-m+1}\log(C_{i}^{m}(r))

,

Шаг 6

Определим приблизительную энтропию как

\ (\mathrm {ApEn} )

\mathrm {ApEn} =\Phi ^{m}(r)-\Phi ^{m+1}(r).

где - натуральный логарифм для

m

и

r,

фиксированных, как на шаге 2.

\log

Выбор параметра

обычно выбирают или , а

r

сильно зависит от приложения.

m=2

m=3

Реализация на Physionet, ^[8] , который основан на Пинкусе ^[2] Использование в то время как оригинальные применения статьи на шаге 4. В то время как забота о искусственно построенных примерах, это, как правило , не является проблема на практике. $d[x(i),x(j)]<r$ $d[x(i),x(j)]\leq r$

Интерпретация [ править ]

Наличие повторяющихся паттернов колебаний во временном ряду делает его более предсказуемым, чем временной ряд, в котором такие паттерны отсутствуют. ApEn отражает вероятность того, что подобные образцы наблюдений не будут сопровождаться дополнительными аналогичными наблюдениями. ^[9] Временной ряд, содержащий множество повторяющихся шаблонов, имеет относительно небольшой ApEn; менее предсказуемый процесс имеет более высокое ApEn.

Один пример [ править ]

Иллюстрация последовательности пульса

Предположим , и последовательность состоит из 51 отсчета частоты сердечных сокращений, равномерно распределенных во времени: $\ N=51$

\ S_{N}=\{85,80,89,85,80,89,\ldots \}

(т. е. последовательность периодическая с периодом 3). Выберем и (значения и можно варьировать, не влияя на результат). $\ m=2$ $\ r=3$ $\ m$ $\ r$

Сформируйте последовательность векторов:

\mathbf {x} (1)=[u(1)\,u(2)]=[85\,80]

\mathbf {x} (2)=[u(2)\,u(3)]=[80\,89]

\mathbf {x} (3)=[u(3)\,u(4)]=[89\,85]

\mathbf {x} (4)=[u(4)\,u(5)]=[85\,80]

…

Расстояние рассчитывается следующим образом:

\ d[\mathbf {x} (1),\mathbf {x} (1)]=\max _{a}|u(a)-u^{*}(a)|=0<r=3

Обратите внимание , так что $\ |u(2)-u(3)|>|u(1)-u(2)|$

\ d[\mathbf {x} (1),\mathbf {x} (2)]=\max _{a}|u(a)-u^{*}(a)|=|u(2)-u(3)|=9>r=3

По аналогии,

\ d[\mathbf {x} (1),\mathbf {x} (3)]=|u(2)-u(4)|=5>r

\ d[\mathbf {x} (1),\mathbf {x} (4)]=|u(1)-u(4)|=|u(2)-u(5)|=0<r

Следовательно, таких, которые включают , а всего 17. $\mathbf {x} (j){\text{s}}$ $\ d[\mathbf {x} (1),\mathbf {x} (j)]\leq r$ $\mathbf {x} (1),\mathbf {x} (4),\mathbf {x} (7),\ldots ,\mathbf {x} (49)$

\ C_{1}^{2}(3)={\frac {17}{50}}

\ C_{2}^{2}(3)={\frac {17}{50}}

\ C_{3}^{2}(3)={\frac {16}{50}}

\ C_{4}^{2}(3)={\frac {17}{50}}\ \ldots

Обратите внимание на шаге 4, для , . Итак, таких, которые включают , а их всего 16. $\mathbf {x} (i)$ $\ 1\leq i\leq N-m+1$ $\mathbf {x} (j){\text{s}}$ $\ d[\mathbf {x} (3),\mathbf {x} (j)]<r$ $\mathbf {x} (3),\mathbf {x} (6),\mathbf {x} (9),\ldots ,\mathbf {x} (48)$

\Phi ^{2}(3)=(50)^{-1}\sum _{i=1}^{50}\log(C_{i}^{2}(3))\approx -1.0982

Затем повторяем вышеуказанные шаги для m = 3. Сначала сформируйте последовательность векторов:

\mathbf {x} (1)=[u(1)\,u(2)\,u(3)]=[85\,80\,89]

\mathbf {x} (2)=[u(2)\,u(3)\,u(4)]=[80\,89\,85]

\mathbf {x} (3)=[u(3)\,u(4)\,u(5)]=[89\,85\,80]

\mathbf {x} (4)=[u(4)\,u(5)\,u(6)]=[85\,80\,89]

…

Вычисляя расстояния между векторами , мы находим, что векторы, удовлетворяющие уровню фильтрации, имеют следующие характеристики: $\mathbf {x} (i),\mathbf {x} (j),1\leq i\leq 49$

\ d[\mathbf {x} (i),\mathbf {x} (i+3)]=0<r

Следовательно,

\ C_{1}^{3}(3)={\frac {17}{49}}

\ C_{2}^{3}(3)={\frac {16}{49}}

\ C_{3}^{3}(3)={\frac {16}{49}}

\ C_{4}^{3}(3)={\frac {17}{49}}\ \ldots

\Phi ^{3}(3)=(49)^{-1}\sum _{i=1}^{49}\log(C_{i}^{3}(3))\approx -1.0982

Ну наконец то,

\mathrm {ApEn} =\Phi ^{2}(3)-\Phi ^{3}(3)\approx 0.000010997

Значение очень маленькое, поэтому подразумевает, что последовательность регулярная и предсказуемая, что согласуется с наблюдением.

Реализация Python [ править ]

импортировать  numpy  как  npdef  ApEn ( U ,  m ,  r )  ->  float :  "" "Приблизительная_энтропия." "" def  _maxdist ( x_i ,  x_j ):  вернуть  max ([ abs ( ua  -  va )  для  ua ,  va  в  zip ( x_i ,  x_j )]) def  _phi ( m ):  x  =  [[ U [ j ]  для  j  в  диапазоне ( i ,  i  +  m  -  1  +  1 )]  для  i  в  диапазоне ( N  -  m  +  1 )]  C  =  [  len ([ 1  для  x_j  в  x,  если  _maxdist ( x_i ,  x_j )  <=  r ]) /  ( N  -  m  +  1.0 )  для  x_i  in  x  ]  return  ( N  -  m  +  1.0 )  **  ( - 1 )  *  sum ( np . Log ( C )) N  =  len ( U ) вернуть  абс ( _phi ( m  +  1 )  -  _phi ( m ))# Пример использования U  =  np . массив ([ 85 ,  80 ,  89 ]  *  17 ) print ( ApEn ( U ,  2 ,  3 )) 1.0996541105257052e-05randU  =  np . случайный . choice ([ 85 ,  80 ,  89 ],  size = 17  *  3 ) print ( ApEn ( randU ,  2 ,  3 )) 0.8626664154888908

Преимущества [ править ]

Преимущества ApEn: ^[2]

Снижение вычислительной нагрузки. ApEn может быть разработан для работы с небольшими выборками данных (n <50 точек) и может применяться в реальном времени.
Меньше эффекта от шума. Если данные зашумлены, показатель ApEn можно сравнить с уровнем шума в данных, чтобы определить, какое качество истинной информации может присутствовать в данных.

Приложения [ править ]

ApEn применялся для классификации ЭЭГ при психических заболеваниях, таких как шизофрения ^[10], эпилепсия ^[11] и зависимость. ^[12]

Ограничения [ править ]

Алгоритм ApEn считает каждую последовательность совпадающей, чтобы избежать появления ln (0) в вычислениях. Этот шаг может вызвать смещение ApEn, и это смещение приводит к тому, что ApEn на практике имеет два плохих свойства: ^[13]

ApEn сильно зависит от длины записи и всегда ниже, чем ожидалось для коротких записей.
Ему не хватает относительной последовательности. То есть, если ApEn одного набора данных выше, чем у другого, он должен, но не остается, оставаться выше для всех тестируемых условий.

См. Также [ править ]

Количественный анализ повторяемости
Образец энтропии

Ссылки [ править ]

^ а б в Пинкус, С.М. Гладстон, И.М.; Эренкранц, Р.А. (1991). «Статистика закономерностей для анализа медицинских данных». Журнал клинического мониторинга и вычислений . 7 (4): 335–345. DOI : 10.1007 / BF01619355 . PMID 1744678 .
^ а б в Пинкус, С.М. (1991). «Приблизительная энтропия как мера сложности системы» . Труды Национальной академии наук . 88 (6): 2297–2301. DOI : 10.1073 / pnas.88.6.2297 . PMC 51218 . PMID 11607165 .
^ Пинкус, С. М.; Кальман, EK (2004). «Неравномерность, волатильность, риск и временные ряды финансового рынка» . Труды Национальной академии наук . 101 (38): 13709–13714. DOI : 10.1073 / pnas.0405168101 . PMC 518821 . PMID 15358860 .
^ Пинкус, С. М.; Гольдбергер, А. Л. (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. DOI : 10.1152 / ajpheart.1994.266.4.H1643 . PMID 8184944 . S2CID 362684 .
^ МакКинли, РА; Макинтайр, ЛК; Schmidt, R; Реппергер, DW; Колдуэлл, Дж. А. (2011). «Оценка глазных метрик как детектор усталости». Человеческий фактор . 53 (4): 403–414. DOI : 10.1177 / 0018720811411297 . PMID 21901937 .
^ Дельгадо-Бонал, Альфонсо; Маршак Александр; Ян, Юэкуй; Холдэвей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием радиационных данных MERRA-2» . Научные отчеты . 10 (1): 922. DOI : 10.1038 / s41598-020-57917-8 . ISSN 2045-2322 .
^ Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019). «Приближенная энтропия и образец энтропии: подробное руководство» . Энтропия . 21 (6): 541. DOI : 10,3390 / e21060541 .
^ [1]
^ Хо, KK; Moody, Великобритания; Пэн, СК; Mietus, JE; Ларсон, MG; сбор, D; Гольдбергер, А.Л. (1997). «Прогнозирование выживаемости в случае сердечной недостаточности и контрольных субъектов с использованием полностью автоматизированных методов для получения нелинейных и условных показателей динамики сердечного ритма». Тираж . 96 (3): 842–848. DOI : 10.1161 / 01.cir.96.3.842 . PMID 9264491 .
^ Sabeti, Malihe (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и участников контрольной группы». Искусственный интеллект в медицине . 47 (3): 263–274. DOI : 10.1016 / j.artmed.2009.03.003 . PMID 19403281 .
^ Юань, Ци (2011). «Классификация эпилептических ЭЭГ, основанная на экстремальном машинном обучении и нелинейных характеристиках». Исследование эпилепсии . 96 (1–2): 29–38. DOI : 10.1016 / j.eplepsyres.2011.04.013 . PMID 21616643 .
^ Юн, Kyongsik (2012). «Снижение корковой сложности у лиц, злоупотребляющих метамфетамином». Психиатрические исследования: нейровизуализация . 201 (3): 226–32. DOI : 10.1016 / j.pscychresns.2011.07.009 . PMID 22445216 .
^ Ричман, JS; Мурман, младший (2000). «Физиологический анализ временных рядов с использованием приблизительной энтропии и энтропии образца». Американский журнал физиологии. Сердце и физиология кровообращения . 278 (6): 2039–2049. DOI : 10.1152 / ajpheart.2000.278.6.H2039 . PMID 10843903 .

[Pincus1991-1] а б в Пинкус, С.М. Гладстон, И.М.; Эренкранц, Р.А. (1991). «Статистика закономерностей для анализа медицинских данных». Журнал клинического мониторинга и вычислений . 7 (4): 335–345. DOI : 10.1007 / BF01619355 . PMID 1744678 .

[Pincus21991-2] а б в Пинкус, С.М. (1991). «Приблизительная энтропия как мера сложности системы» . Труды Национальной академии наук . 88 (6): 2297–2301. DOI : 10.1073 / pnas.88.6.2297 . PMC 51218 . PMID 11607165 .

[Pincus2004-3] Пинкус, С. М.; Кальман, EK (2004). «Неравномерность, волатильность, риск и временные ряды финансового рынка» . Труды Национальной академии наук . 101 (38): 13709–13714. DOI : 10.1073 / pnas.0405168101 . PMC 518821 . PMID 15358860 .

[Pincus1994-4] Пинкус, С. М.; Гольдбергер, А. Л. (1994). «Физиологический анализ временных рядов: что количественно определяет регулярность?». Американский журнал физиологии . 266 (4): 1643–1656. DOI : 10.1152 / ajpheart.1994.266.4.H1643 . PMID 8184944 . S2CID 362684 .

[humanfactor-5] МакКинли, РА; Макинтайр, ЛК; Schmidt, R; Реппергер, DW; Колдуэлл, Дж. А. (2011). «Оценка глазных метрик как детектор усталости». Человеческий фактор . 53 (4): 403–414. DOI : 10.1177 / 0018720811411297 . PMID 21901937 .

[6] Дельгадо-Бонал, Альфонсо; Маршак Александр; Ян, Юэкуй; Холдэвей, Дэниел (2020-01-22). «Анализ изменений в сложности климата за последние четыре десятилетия с использованием радиационных данных MERRA-2» . Научные отчеты . 10 (1): 922. DOI : 10.1038 / s41598-020-57917-8 . ISSN 2045-2322 .

[7] Дельгадо-Бонал, Альфонсо; Маршак, Александр (июнь 2019). «Приближенная энтропия и образец энтропии: подробное руководство» . Энтропия . 21 (6): 541. DOI : 10,3390 / e21060541 .

[physionet-8] [1]

[9] Хо, KK; Moody, Великобритания; Пэн, СК; Mietus, JE; Ларсон, MG; сбор, D; Гольдбергер, А.Л. (1997). «Прогнозирование выживаемости в случае сердечной недостаточности и контрольных субъектов с использованием полностью автоматизированных методов для получения нелинейных и условных показателей динамики сердечного ритма». Тираж . 96 (3): 842–848. DOI : 10.1161 / 01.cir.96.3.842 . PMID 9264491 .

[Sabeti2009-10] Sabeti, Malihe (2009). «Меры энтропии и сложности для классификации сигналов ЭЭГ шизофреников и участников контрольной группы». Искусственный интеллект в медицине . 47 (3): 263–274. DOI : 10.1016 / j.artmed.2009.03.003 . PMID 19403281 .

[Yuan2011-11] Юань, Ци (2011). «Классификация эпилептических ЭЭГ, основанная на экстремальном машинном обучении и нелинейных характеристиках». Исследование эпилепсии . 96 (1–2): 29–38. DOI : 10.1016 / j.eplepsyres.2011.04.013 . PMID 21616643 .

[Yun2012-12] Юн, Kyongsik (2012). «Снижение корковой сложности у лиц, злоупотребляющих метамфетамином». Психиатрические исследования: нейровизуализация . 201 (3): 226–32. DOI : 10.1016 / j.pscychresns.2011.07.009 . PMID 22445216 .

[13] Ричман, JS; Мурман, младший (2000). «Физиологический анализ временных рядов с использованием приблизительной энтропии и энтропии образца». Американский журнал физиологии. Сердце и физиология кровообращения . 278 (6): 2039–2049. DOI : 10.1152 / ajpheart.2000.278.6.H2039 . PMID 10843903 .

[1]