Информационное измерение

Эта статья нуждается в дополнительных ссылках на другие статьи, чтобы помочь интегрировать ее в энциклопедию . Пожалуйста, помогите улучшить эту статью , добавив ссылки , соответствующие контексту в существующем тексте. ( Январь 2016 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

В теории информации , информационное измерение является информационной мерой для случайных векторов в евклидовом пространстве , на основе нормированной энтропии тонко квантованных версий случайных векторов. Эта концепция была впервые введена Альфредом Реньи в 1959 г. ^[1]

Проще говоря, это мера фрактальной размерности в виде распределения вероятностей . Он характеризует скорость роста энтропии Шеннона, задаваемую последовательно более тонкой дискретизацией пространства.

В 2010 году Ву и Верду дали рабочую характеристику информационного измерения Реньи как фундаментального ограничения практически без потерь сжатия данных для аналоговых источников при различных ограничениях регулярности кодера / декодера.

Определение и свойства [ править ]

Энтропия дискретной случайной величины равна ${\ displaystyle Z}$

{\ displaystyle \ mathbb {H} _ {0} (Z) = \ sum _ {z \ in supp (P_ {Z})} P_ {Z} (z) \ log _ {2} {\ frac {1} {P_ {Z} (z)}}}

где - мера вероятности того, когда , а обозначает набор . ${\ Displaystyle P_ {Z} (г)}$ ${\ displaystyle Z}$ ${\ displaystyle Z = z}$ ${\ displaystyle supp (P_ {Z})}$ ${\ displaystyle \ {z | z \ in {\ mathcal {Z}}, P_ {Z} (z)> 0 \}}$

Позвольте быть произвольной действительной случайной величиной. Учитывая положительное целое число , мы создаем новую дискретную случайную величину $X$ $m$

\langle X\rangle _{m}={\frac {\lfloor mX\rfloor }{m}}

где - оператор пола, который преобразует действительное число в наибольшее целое меньшее его. Затем $\lfloor \cdot \rfloor$

{\underline {d}}(X)=\liminf _{m\rightarrow \infty }{\frac {\mathbb {H} _{0}(\langle X\rangle _{m})}{\log _{2}m}}

и

{\bar {d}}(X)=\limsup _{m\rightarrow \infty }{\frac {\mathbb {H} _{0}(\langle X\rangle _{m})}{\log _{2}m}}

называются нижним и верхним информационными измерениями соответственно. Когда мы называем это ценностным информационным измерением , $X$ ${\underline {d}}(X)={\bar {d}}(X)$ $X$

d(X)=\lim _{m\rightarrow \infty }{\frac {\mathbb {H} _{0}(\langle X\rangle _{m})}{\log _{2}m}}

Некоторые важные свойства информационного измерения : $d(X)$

Если мягкое условие выполнено, то у нас есть . $\mathbb {H} (\lfloor X\rfloor )<\infty$ $0\leq {\underline {d}}(X)\leq {\bar {d}}(X)\leq 1$
Для -мерного случайного вектора первое свойство можно обобщить на . $n$ ${\vec {X}}$ $0\leq {\underline {d}}({\vec {X}})\leq {\bar {d}}({\vec {X}})\leq n$
При ограничении экспоненциальной подпоследовательностью достаточно вычислить верхнюю и нижнюю информационные размерности . $m=2^{l}$
${\underline {d}}(X)$ и остаются неизменными, если при квантовании используются функции округления или ограничения. ${\bar {d}}(X)$

$d$ -Пространственная энтропия [ править ]

Если существует информационное измерение , можно определить -мерную энтропию этого распределения как $d$ $d$

\mathbb {H} _{d(X)}(X)=\lim _{n\rightarrow +\infty }(\mathbb {H} _{0}(\langle X\rangle _{n})-d(X)\log _{2}n)

при условии, что лимит существует. Если , нульмерная энтропия равна стандартной энтропии Шеннона . Для целого размерности , то -мерная энтропия является -кратно интегралом , определяющий соответствующим дифференциал энтропии . $d=0$ $\mathbb {H} _{0}(X)$ $d=n\geq 1$ $n$ $n$

Дискретно-непрерывные распределения смеси [ править ]

В соответствии с теоремой Лебега разложения , ^[2] распределение вероятностей может быть однозначно представлено смесью

$v=pP_{Xd}+qP_{Xc}+rP_{Xs}$

где и ; является чисто атомарной вероятностной мерой (дискретная часть), является абсолютно непрерывной вероятностной мерой и является вероятностной мерой, сингулярной по отношению к мере Лебега, но без атомов (сингулярная часть). Позвольте быть случайной величиной, такой что . Предположим, что распределение можно представить как $p+q+r=1$ $p,q,r\geq 0$ $P_{Xd}$ $P_{Xc}$ $P_{Xs}$ $X$ $\mathbb {H} (\lfloor X\rfloor )<\infty$ $X$

$v=(1-\rho )P_{Xd}+\rho P_{Xc}$

где - дискретная мера, - абсолютно непрерывная вероятностная мера с . Затем $P_{Xd}$ $P_{Xc}$ $0\leq \rho \leq 1$

$d(X)=\rho$

Кроме того, учитывая и дифференциальную энтропию , то -мерная энтропия просто задаются $\mathbb {H} _{0}(P_{Xd})$ $h(P_{Xc})$ $d$

$\mathbb {H} _{\rho }(X)=(1-\rho )\mathbb {H} _{0}(P_{Xd})+\rho h(P_{Xc})+\mathbb {H} _{0}(\rho )$

где это Шеннон энтропия дискретной случайной величины с и и задаются $\mathbb {H} _{0}(\rho )$ $Z$ $P_{Z}(1)=\rho$ $P_{Z}(0)=1-\rho$

$\mathbb {H} _{0}(\rho )=\rho \log _{2}{\frac {1}{\rho }}+(1-\rho )\log _{2}{\frac {1}{1-\rho }}$

Пример [ править ]

Рассмотрим сигнал с гауссовым распределением вероятностей .

Мы пропускаем сигнал через полуволновой выпрямитель, который преобразует все отрицательные значения в 0 и поддерживает все остальные значения. Однополупериодный выпрямитель можно охарактеризовать функцией

$f(x)={\begin{cases}x,&{\text{if }}x\geq 0\\0,&x<0\end{cases}}$

Тогда на выходе выпрямителя сигнал имеет выпрямленное гауссово распределение . Он характеризуется атомной массой 0,5 и имеет гауссову PDF для всех . $x>0$

С этим смешанным распределением мы применяем приведенную выше формулу и получаем информационную размерность распределения и вычисляем -мерную энтропию. $d$ $d$

$d(X)=\rho =0.5$

Нормализованная правая часть гауссова распределения с нулевым средним имеет энтропию , следовательно, $h(P_{Xc})={\frac {1}{2}}\log _{2}(2\pi e\sigma ^{2})-1$

${\begin{aligned}\mathbb {H} _{0.5}(X)&=(1-0.5)(1\log _{2}1)+0.5h(P_{Xc})+\mathbb {H} _{0}(0.5)\\&=0+{\frac {1}{2}}({\frac {1}{2}}\log _{2}(2\pi e\sigma ^{2})-1)+1\\&={\frac {1}{4}}\log _{2}(2\pi e\sigma ^{2})+{\frac {1}{2}}\,{\text{ bit(s)}}\end{aligned}}$

Связь с дифференциальной энтропией [ править ]

Показано ^[3], что информационная размерность и дифференциальная энтропия тесно связаны.

Позвольте быть случайной величиной с непрерывной плотностью . $X$ $f(x)$

Предположим, мы делим диапазон на интервалы длины . По теореме о среднем значении в каждой ячейке существует такое значение , что $X$ $\Delta$ $x_{i}$

f(x_{i})\Delta =\int _{i\Delta }^{(i+1)\Delta }f(x)\;\mathrm {d} x

Рассмотрим дискретизированную случайную величину, если . $X^{\Delta }=x_{i}$ $i\Delta \leq X<(i+1)\Delta$

Вероятность каждой точки поддержки равна $X^{\Delta }=x_{i}$

P_{X^{\Delta }}(x_{i})=\int _{i\Delta }^{(i+1)\Delta }f(x)\;\mathrm {d} x=f(x_{i})\Delta

Пусть . Энтропия IS $S=\operatorname {supp} (P_{X^{\Delta }})$ $X^{\Delta }$

{\begin{aligned}\mathbb {H} _{0}(X^{\Delta })&=-\sum _{x_{i}\in S}P_{X^{\Delta }}\log _{2}P_{X^{\Delta }}\\&=-\sum _{x_{i}\in S}f(x_{i})\Delta \log _{2}(f(x_{i})\Delta )\\&=-\sum _{x_{i}\in S}\Delta f(x_{i})\log _{2}f(x_{i})-\sum _{x_{i}\in S}f(x_{i})\Delta \log _{2}\Delta \\&=-\sum _{x_{i}\in S}\Delta f(x_{i})\log _{2}f(x_{i})-\log _{2}\Delta \\\end{aligned}}

Если мы установили, а затем мы делаем точно такое же квантование, что и определение информационного измерения. Поскольку перемаркировка событий дискретной случайной величины не изменяет ее энтропию, мы имеем $\Delta =1/m$ $x_{i}=i/m$

\mathbb {H} _{0}(X^{1/m})=\mathbb {H} _{0}(\langle X\rangle _{m}).

Это дает

\mathbb {H} _{0}(\langle X\rangle _{m})=-\sum {\frac {1}{m}}f(x_{i})\log _{2}f(x_{i})+\log _{2}m

а когда достаточно большой, $m$

-\sum \Delta f(x_{i})\log _{2}f(x_{i})\approx \int f(x)\log _{2}{\frac {1}{f(x)}}\mathrm {d} x

которая является дифференциальной энтропией непрерывной случайной величины. В частности, если она интегрируема по Риману, то $h(x)$ $f(x)$

h(X)=\lim _{m\rightarrow \infty }\mathbb {H} _{0}(\langle X\rangle _{m})-\log _{2}(m).

Сравнение этой энтропии с -мерной энтропией показывает, что дифференциальная энтропия - это в точности одномерная энтропия $d$

h(X)=\mathbb {H} _{1}(X).

Фактически, это можно обобщить на более высокие измерения. Реньи показывает, что если - случайный вектор в -мерном евклидовом пространстве с абсолютно непрерывным распределением с функцией плотности вероятности и конечной энтропией целой части ( ), то имеем ${\vec {X}}$ $n$ $\Re ^{n}$ $f_{\vec {X}}({\vec {x}})$ $H_{0}(\langle {\vec {X}}\rangle _{m})<\infty$ $d({\vec {X}})=n$

и

\mathbb {H} _{n}({\vec {X}})=\int \cdots \int f_{\vec {X}}({\vec {x}})\log _{2}{\frac {1}{f_{\vec {X}}({\vec {x}})}}\mathrm {d} {\vec {x}},

если интеграл существует.

Сжатие данных без потерь [ править ]

Информационное измерение распределения дает теоретическую верхнюю границу степени сжатия, если кто-то хочет сжать переменную, полученную из этого распределения. В контексте сжатия данных без потерь мы пытаемся сжать действительное число с меньшим числом действительного числа, оба из которых имеют бесконечную точность.

Основная цель сжатия данных без потерь - найти эффективные представления для исходных реализаций с помощью . Код представляет собой пару отображений: $x^{n}\in {\mathcal {X}}^{n}$ $y^{n}\in {\mathcal {Y}}^{n}$ $(n,k)-$ $\{X_{i}:i\in {\mathcal {N}}\}$

кодировщик: который преобразует информацию из источника в символы для передачи или хранения; $f_{n}:{\mathcal {X}}^{n}\rightarrow {\mathcal {Y}}^{k}$
декодер: обратный процесс преобразования кодовых символов обратно в форму, понятную получателю. $g_{n}:{\mathcal {Y}}^{k}\rightarrow {\mathcal {X}}^{n}$

Вероятность ошибки блока составляет . ${\mathcal {P}}\{g_{n}(f_{n}(X^{n}))\neq X^{n}\}$

Определим как нижнюю грань таких, что существует такая последовательность кодов, что для всех достаточно велика . $r(\epsilon )$ $r\geq 0$ $(n,\lfloor rn\rfloor )-$ ${\mathcal {P}}\{g_{n}(f_{n}(X^{n}))\neq X^{n}\}\leq \epsilon$ $n$

Таким образом, в основном дает соотношение между длиной кода и длиной источника, это показывает, насколько хороша конкретная пара кодеров-декодеров. Основные ограничения в кодировании источников без потерь заключаются в следующем. ^[4] $r(\epsilon )$

Рассмотрим функцию непрерывного кодирования с ее функцией непрерывного декодирования . Если мы не налагаем регулярности и , благодаря богатой структуре , у нас будет минимально- достижимая ставка для всех . Это означает, что можно построить пару кодер-декодер с бесконечной степенью сжатия. $f(x):\Re ^{n}\rightarrow \Re ^{\lfloor Rn\rfloor }$ $g(x):\Re ^{\lfloor Rn\rfloor }\rightarrow \Re ^{n}$ $f(x)$ $g(x)$ $\Re$ $\epsilon$ $R_{0}(\epsilon )=0$ $0<\epsilon \leq 1$

Чтобы получить какие-то нетривиальные и содержательные выводы, приведем минимально достижимую скорость для линейного кодера и декодера Бореля. Если случайная величина имеет распределение, которое представляет собой смесь дискретной и непрерывной частей. Тогда для всех. Предположим, мы ограничиваем декодер до липшицевой функции и выполняется, тогда минимально достижимая скорость для всех . $R^{*}(\epsilon )$ $\epsilon -$ $X$ $R^{*}(\epsilon )=d(X)$ $0<\epsilon \leq 1$ ${\bar {d}}(X)<\infty$ $\epsilon -$ $R(\epsilon )\geq {\bar {d}}(X)$ $0<\epsilon \leq 1$

См. Также [ править ]

Фрактальное измерение
Измерение корреляции
Энтропия (теория информации)

Заметки [ править ]

^ См Рение 1959 .
^ См. Çınlar 2011 .
^ См. Обложка и Томас 2012 .
^ См. Wu & Verdu 2010 .

Ссылки [ править ]

Чинлар, Эрхан (2011). Вероятность и стохастика . Тексты для выпускников по математике. 261 . Springer. DOI : 10.1007 / 978-0-387-87859-1 . ISBN 978-0-387-87858-4.CS1 maint: ref=harv (link)

Обложка, Томас М .; Томас, Джой А. (2012). Элементы теории информации (2-е изд.). Вайли. С. 247–248. ISBN 9781118585771.CS1 maint: ref=harv (link)

Реньи, А. (март 1959 г.). «О размерности и энтропии вероятностных распределений». Acta Mathematica Academiae Scientiarum Hungaricae . 10 (1–2): 193–215. DOI : 10.1007 / BF02063299 . ISSN 0001-5954 .CS1 maint: ref=harv (link)

Ву, Ихонг; Верду, С. (август 2010 г.). «Информационное измерение Реньи: фундаментальные пределы аналогового сжатия почти без потерь». IEEE Transactions по теории информации . 56 (8): 3721–3748. DOI : 10.1109 / TIT.2010.2050803 . ISSN 0018-9448 .CS1 maint: ref=harv (link)

[1] См Рение 1959 .

[2] См. Çınlar 2011 .

[3] См. Обложка и Томас 2012 .

[4] См. Wu & Verdu 2010 .

[1]