Оценка плотности ядра

Оценка плотности ядра 100 нормально распределенных случайных чисел с использованием различных полос сглаживания.

В статистике , оценка плотности ядра ( KDE ) представляет собой непараметрический способ оценки в функции плотности вероятности в виде случайной величины . Оценка плотности ядра - это фундаментальная проблема сглаживания данных, когда выводы о совокупности делаются на основе конечной выборки данных . В некоторых областях, таких как обработка сигналов и эконометрика, его также называют оконным методом Парзена – Розенблатта в честь Эмануэля Парзена и Мюррея Розенблатта., которым обычно приписывают самостоятельное создание в нынешнем виде. ^[1]^[2] Один из известных применений оценки плотности ядра при оценке класса-условного предельные плотностей данных при использовании наивного байесовского классификатора , ^[3]^[4] , который может улучшить его точность прогнозирования. ^[3]

Определение [ править ]

Пусть ( x ₁ , x ₂ ,…, x _n ) - независимые и одинаково распределенные выборки, взятые из некоторого одномерного распределения с неизвестной плотностью ƒ в любой заданной точке x . Нас интересует оценка формы этой функции ƒ . Его оценка плотности ядра :

{\widehat {f}}_{h}(x)={\frac {1}{n}}\sum _{i=1}^{n}K_{h}(x-x_{i})={\frac {1}{nh}}\sum _{i=1}^{n}K{\Big (}{\frac {x-x_{i}}{h}}{\Big )},

где K - ядро ( неотрицательная функция), а h > 0 - параметр сглаживания, называемый полосой пропускания . Ядро с индексом h называется масштабированным ядром и определяется как K _h ( x ) = 1 / h K ( x / h ) . Интуитивно хочется выбрать h настолько маленьким, насколько позволяют данные; однако всегда существует компромисс между смещением оценки и ее дисперсией. Более подробно выбор полосы пропускания обсуждается ниже.

Обычно используется ряд функций ядра : равномерный, треугольный, двухвес, трехвес, Епанечников, нормальный и другие. Ядро Епанечникова является оптимальным в смысле среднеквадратичной ошибки ^[5], хотя потеря эффективности для ядер, перечисленных ранее, невелика. ^[6] Из-за его удобных математических свойств часто используется нормальное ядро, что означает K ( x ) = ϕ ( x ) , где ϕ - стандартная нормальная функция плотности.

Построение оценки плотности ядра находит интерпретацию в областях, не связанных с оценкой плотности. ^[7] Например, в термодинамике это эквивалентно количеству тепла, выделяемого, когда тепловые ядра (фундаментальное решение уравнения теплопроводности ) размещаются в каждой точке данных x _i . Подобные методы используются для построения дискретных операторов Лапласа на облаках точек для обучения многообразию (например, карта диффузии ).

Пример [ править ]

Оценки плотности ядра тесно связаны с гистограммами , но могут быть наделены такими свойствами, как гладкость или непрерывность, с помощью подходящего ядра. Диаграмма ниже, основанная на этих 6 точках данных, иллюстрирует эту взаимосвязь:

Образец	1	2	3	4	5	6
Ценить	-2,1	-1,3	-0,4	1.9	5.1	6.2

Для гистограммы сначала горизонтальная ось делится на подинтервалы или интервалы, которые покрывают диапазон данных: в этом случае шесть интервалов шириной 2. Каждый раз, когда точка данных попадает в этот интервал, появляется прямоугольник высотой 1 / 12 находится там. Если в одну ячейку попадает более одной точки данных, ящики складываются друг на друга.

Для оценки плотности ядра нормальные ядра со стандартным отклонением 2,25 (обозначены красными пунктирными линиями) помещаются в каждую из точек данных x _i . Ядра суммируются, чтобы сделать оценку плотности ядра (сплошная синяя кривая). Гладкость оценки плотности ядра (по сравнению с дискретностью гистограммы) показывает, как оценки плотности ядра быстрее сходятся к истинной базовой плотности для непрерывных случайных величин. ^[8]

Сравнение гистограммы (слева) и оценки плотности ядра (справа), построенной с использованием тех же данных. Шесть отдельных ядер представляют собой красные пунктирные кривые, оценка плотности ядра - синие кривые. Точки данных представляют собой график коврика на горизонтальной оси.

Выбор пропускной способности [ править ]

Оценка плотности ядра (KDE) с различной пропускной способностью случайной выборки из 100 точек из стандартного нормального распределения. Серый: истинная плотность (стандартная нормальная). Красный: KDE с h = 0,05. Черный: KDE с h = 0,337. Зеленый: KDE с h = 2.

Полоса пропускания ядра - это свободный параметр, который оказывает сильное влияние на итоговую оценку. Чтобы проиллюстрировать его эффект, мы берем смоделированную случайную выборку из стандартного нормального распределения (нанесенного синими шипами на графике коврика по горизонтальной оси). Серая кривая - истинная плотность (нормальная плотность со средним значением 0 и дисперсией 1). Для сравнения, красная кривая не сглажена, поскольку она содержит слишком много ложных артефактов данных, возникающих из-за использования полосы пропускания h = 0,05, которая слишком мала. Зеленая кривая излишне сглажена, поскольку при использовании полосы пропускания h= 2 скрывает большую часть базовой структуры. Черная кривая с шириной полосы h = 0,337 считается оптимально сглаженной, поскольку ее оценка плотности близка к истинной плотности. Экстремальная ситуация возникает в пределе (без сглаживания), когда оценка представляет собой сумму n дельта-функций с центрами в координатах анализируемых выборок. В другом крайнем пределе оценка сохраняет форму используемого ядра, центрированного на среднем значении выборок (полностью гладкое). $h\to 0$ $h\to \infty$

Наиболее распространенным критерием оптимальности, используемым для выбора этого параметра, является ожидаемая функция риска L ₂ , также называемая средней интегрированной квадратичной ошибкой :

\operatorname {MISE} (h)=\operatorname {E} \!\left[\,\int ({\hat {f}}_{h}(x)-f(x)?)^{2}\,dx\right].

При слабых предположениях относительно ƒ и K , ( ƒ - обычно неизвестная действительная функция плотности), ^[1]^[2] MISE ( h ) = AMISE ( h ) + o (1 / (nh) + h ⁴ ), где o это маленькая нотация . AMISE - это асимптотическая MISE, которая состоит из двух ведущих терминов.

\operatorname {AMISE} (h)={\frac {R(K)}{nh}}+{\frac {1}{4}}m_{2}(K)^{2}h^{4}R(f'')

где для функции г , и ƒ «» является второй производной ƒ . Минимум этого AMISE является решением этого дифференциального уравнения $R(g)=\int g(x)^{2}\,dx$ $m_{2}(K)=\int x^{2}K(x)\,dx$

{\frac {\partial }{\partial h}}\operatorname {AMISE} (h)=-{\frac {R(K)}{nh^{2}}}+m_{2}(K)^{2}h^{3}R(f'')=0

или же

h_{\operatorname {AMISE} }={\frac {R(K)^{1/5}}{m_{2}(K)^{2/5}R(f'')^{1/5}n^{1/5}}}.

Ни формулы AMISE, ни формулы h _AMISE нельзя использовать напрямую, поскольку они включают неизвестную функцию плотности ƒ или ее вторую производную '' , поэтому для выбора полосы пропускания были разработаны различные автоматические методы на основе данных. Было проведено множество обзорных исследований для сравнения их эффективности ^[9]^[10]^[11]^[12]^[13]^[14]^[15]] с общим мнением о том, что селекторы плагинов ^[7]^[16]^{[ 17]} и селекторы перекрестной проверки ^[18]^[19]^[20] являются наиболее полезными для широкого диапазона наборов данных.

Подстановка любой ширины полосы h, имеющей тот же асимптотический порядок n ^−1/5, что и h _AMISE, в AMISE дает AMISE ( h ) = O ( n ^−4/5 ), где O - нотация большого o . Можно показать, что при слабых предположениях не может существовать непараметрическая оценка, которая сходится с большей скоростью, чем ядерная оценка. ^[21] Обратите внимание, что скорость n ^-4/5 ниже, чем типичная скорость сходимости n ^-1 параметрических методов.

Если полоса пропускания не удерживается фиксированной, а изменяется в зависимости от местоположения либо оценки (баллонная оценка), либо выборок (точечная оценка), это дает особенно эффективный метод, называемый адаптивной оценкой плотности ядра с переменной полосой пропускания .

Выбор полосы пропускания для оценки плотности ядра распределений с тяжелым хвостом является относительно трудным. ^[22]

Практическое правило оценки пропускной способности [ править ]

Если для аппроксимации одномерных данных используются базисные функции Гаусса , а базовая плотность, оцениваемая по Гауссу, является оптимальным выбором для h (то есть полосы пропускания, которая минимизирует среднюю интегрированную квадратичную ошибку ): ^[23]

h=\left({\frac {4{\hat {\sigma }}^{5}}{3n}}\right)^{\frac {1}{5}}\approx 1.06\,{\hat {\sigma }}\,n^{-1/5},

Чтобы сделать значение h более устойчивым, чтобы обеспечить хорошее соответствие как для длиннохвостого, так и для асимметричного распределения, а также для бимодального смешанного распределения, лучше заменить значение другим параметром A, который определяется как: ${\hat {\sigma }}$

A = min (стандартное отклонение, межквартильный размах / 1,34).

Еще одна модификация, улучшающая модель, - снижение коэффициента с 1,06 до 0,9. Тогда окончательная формула будет такой:

h=0.9\,\min \left({\hat {\sigma }},{\frac {IQR}{1.34}}\right)\,n^{-{\frac {1}{5}}}

где - стандартное отклонение выборок, n - размер выборки. IQR - это межквартильный размах. ${\hat {\sigma }}$

Это приближение называется приближением нормального распределения, приближением Гаусса или эмпирическим правилом Сильвермана . ^[23] Хотя это эмпирическое правило легко вычислить, его следует использовать с осторожностью, поскольку оно может привести к весьма неточным оценкам, когда плотность не близка к нормальной. Например, при оценке модели бимодальной гауссовской смеси

Сравнение между практическим правилом и пропускной способностью решения уравнения.

\textstyle {\frac {1}{2{\sqrt {2\pi }}}}e^{-{\frac {1}{2}}(x-10)^{2}}+{\frac {1}{2{\sqrt {2\pi }}}}e^{-{\frac {1}{2}}(x+10)^{2}}

из выборки 200 точек. На рисунке справа показаны истинная плотность и две оценки плотности ядра - одна с использованием полосы пропускания, основанная на практическом правиле, а другая с использованием полосы пропускания на основе решения уравнения. ^[7]^[17] Оценка, основанная на практическом опыте, значительно преувеличена.

Связь с оценкой плотности характеристической функции [ править ]

Для выборки ( x ₁ , x ₂ ,…, x _n ) естественно оценить характеристическую функцию φ ( t ) = E [ e ^itX ] как

{\widehat {\varphi }}(t)={\frac {1}{n}}\sum _{j=1}^{n}e^{itx_{j}}

Зная характеристическую функцию, можно найти соответствующую функцию плотности вероятности с помощью формулы преобразования Фурье . Одна из трудностей с применением этой формулы обращения состоит в том, что она приводит к расходящемуся интегралу, поскольку оценка ненадежна для больших t ’s. Чтобы обойти эту проблему, оценка умножается на функцию демпфирования ψ _h ( t ) = ψ ( ht ) , которая равна 1 в начале координат, а затем падает до 0 на бесконечности. «Параметр полосы пропускания» h определяет, насколько быстро мы пытаемся ослабить функцию . В частности, когда h мало, то $\scriptstyle {\widehat {\varphi }}(t)$ $\scriptstyle {\widehat {\varphi }}(t)$ $\scriptstyle {\widehat {\varphi }}(t)$ ψ _h ( t ) будет приблизительно равным единице для большого диапазона значений t ’s, что означает, что он остается практически неизменным в наиболее важной области t ’ s. $\scriptstyle {\widehat {\varphi }}(t)$

Наиболее распространенный выбор для функции ψ - это либо равномерная функция ψ ( t ) = 1 {−1 ≤ t ≤ 1 }, что фактически означает усечение интервала интегрирования в формуле обращения до [−1 / h , 1 / h ] , или гауссова функция ψ ( t ) = e ^{- $π$ t ²} . После того, как функция ψ выбрана, можно применить формулу инверсии, и оценщик плотности будет

{\begin{aligned}{\widehat {f}}(x)&={\frac {1}{2\pi }}\int _{-\infty }^{+\infty }{\widehat {\varphi }}(t)\psi _{h}(t)e^{-itx}\,dt={\frac {1}{2\pi }}\int _{-\infty }^{+\infty }{\frac {1}{n}}\sum _{j=1}^{n}e^{it(x_{j}-x)}\psi (ht)\,dt\\[5pt]&={\frac {1}{nh}}\sum _{j=1}^{n}{\frac {1}{2\pi }}\int _{-\infty }^{+\infty }e^{-i(ht){\frac {x-x_{j}}{h}}}\psi (ht)\,d(ht)={\frac {1}{nh}}\sum _{j=1}^{n}K{\Big (}{\frac {x-x_{j}}{h}}{\Big )},\end{aligned}}

где K - преобразование Фурье функции демпфирования ψ . Таким образом, оценка плотности ядра совпадает с оценкой плотности характеристической функции.

Геометрические и топологические особенности [ править ]

Мы можем расширить определение (глобального) режима до локального значения и определить локальные режимы:

M=\{x:g(x)=0,\lambda _{1}(x)<0\}

А именно, это набор точек, для которых функция плотности локально максимальна. Естественная оценка является плагиным из KDE, ^[24]^[25] , где и является KDE версией и . При умеренных предположениях - непротиворечивая оценка . Обратите внимание, что можно использовать алгоритм среднего сдвига ^[26]^[27]^[28] для численного вычисления оценки . $M$ $M$ $g(x)$ $\lambda _{1}(x)$ $g(x)$ $\lambda _{1}(x)$ $M_{c}$ $M$ $M_{c}$

Статистическая реализация [ править ]

Неполный список программных реализаций ядерных оценщиков плотности включает:

В версии 4.4 Analytica для параметра « Сглаживание» для результатов PDF используется KDE, а из выражений он доступен через встроенную Pdfфункцию.
В C / C ++ , Figtree это библиотека , которая может быть использована для оценки плотности вычислительных ядра с использованием нормальных ядер. Доступен интерфейс MATLAB.
В C ++ , libagf библиотека для оценки переменной плотности ядра .
В C ++ , mlpack это библиотека , которая может вычислить KDE , используя много различных ядер. Это позволяет установить допуск к ошибкам для более быстрого вычисления. Доступны интерфейсы Python и R.
в C # и F # , Math.NET Числовые является открытой библиотекой источника для численного расчета , который включает в себя оценку плотности ядра
В CrimeStat оценка плотности ядра реализована с использованием пяти различных функций ядра - нормального, равномерного, четвертого, отрицательного экспоненциального и треугольного. Доступны как одноядерные, так и двухъядерные процедуры оценки плотности. Оценка плотности ядра также используется при интерполяции подпрограммы Head Bang, при оценке двумерной функции плотности пути к преступлению и при оценке трехмерной байесовской оценки пути к преступлению.
В ELKI функции плотности ядра можно найти в пакетеde.lmu.ifi.dbs.elki.math.statistics.kernelfunctions
В продуктах ESRI отображение плотности ядра управляется из набора инструментов Spatial Analyst и использует ядро Quartic (двумерное).
В Excel Королевское химическое общество создало надстройку для оценки плотности ядра на основе Технического описания 4 комитета по аналитическим методам .
В gnuplot оценка плотности ядра реализуется smooth kdensityопцией, файл данных может содержать вес и полосу пропускания для каждой точки, или же полоса пропускания может быть установлена автоматически ^{[29] в} соответствии с «эмпирическим правилом Сильвермана» (см. Выше).
В Haskell плотность ядра реализована в пакете статистики .
В IGOR Pro оценка плотности ядра реализована StatsKDEоперацией (добавлено в Igor Pro 7.00). Пропускная способность может быть указана пользователем или оценена с помощью Silverman, Scott или Bowmann и Azzalini. Типы ядер: Епанечников, Двухвес, Трехвес, Треугольное, Гауссовское и Прямоугольное.
В Java , то Weka (машинное обучение) пакет предоставляет weka.estimators.KernelEstimator , среди других.
В JavaScript пакет визуализации D3.js предлагает пакет KDE в своем пакете science.stats.
В JMP платформа Graph Builder использует оценку плотности ядра для предоставления контурных графиков и областей с высокой плотностью (HDR) для двумерных плотностей, а также графиков скрипки и HDR для одномерных плотностей. Ползунки позволяют пользователю изменять пропускную способность. Двумерные и одномерные оценки плотности ядра также предоставляются платформами Fit Y by X и Distribution соответственно.
В Julia оценка плотности ядра реализована в пакете KernelDensity.jl .
В MATLAB оценка плотности ядра реализована с помощью ksdensityфункции (Statistics Toolbox). Начиная с версии MATLAB 2018a, можно указать как полосу пропускания, так и сглаживание ядра, включая другие параметры, такие как определение диапазона плотности ядра. ^{[30] В} качестве альтернативы, бесплатный программный пакет MATLAB, который реализует метод автоматического выбора полосы пропускания ^[7] , доступен из MATLAB Central File Exchange для
- 1-мерные данные
- 2-мерные данные
- n-мерные данные
  На этих страницах доступен бесплатный набор инструментов MATLAB с реализацией ядерной регрессии, оценки плотности ядра, оценки ядра функции риска и многих других (этот набор инструментов является частью книги ^[31] ).
В системе Mathematica числовая оценка плотности ядра реализуется функцией SmoothKernelDistribution^[32], а символьная оценка реализуется с помощью функции KernelMixtureDistribution^[33], обе из которых обеспечивают управляемую данными полосу пропускания.
В Minitab Королевское химическое общество создало макрос для оценки плотности ядра на основе их Технического описания 4 Комитета по аналитическим методам ^[34].
В библиотеке NAG оценка плотности ядра реализована с помощью g10baпроцедуры (доступной как в версиях библиотеки Fortran ^{[35], так} и в версии C ^[36] ).
В Nuklei , C ++ методы плотности ядра сосредоточены на данных из группы Special Евклида . $SE(3)$
В Octave оценка плотности ядра реализована kernel_densityопцией (пакет эконометрики).
В Origin , 2D Kernel плотность участок может быть выполнен из пользовательского интерфейса, а также две функции, Ksdensity для 1D и Ks2density для 2D может быть использован с его LabTALK , Python или C код.
В Perl реализацию можно найти в модуле Statistics-KernelEstimation.
В PHP реализацию можно найти в библиотеке MathPHP.
В Python существует множество реализаций: модуль pyqt_fit.kde в пакете PyQt-Fit , SciPy ( scipy.stats.gaussian_kde), Statsmodels ( KDEUnivariateи KDEMultivariate) и Scikit-learn ( KernelDensity) (см. Сравнение ^[37] ). KDEpy поддерживает взвешенные данные, и его реализация БПФ на порядки быстрее, чем другие реализации. Часто используемая библиотека pandas [1] предлагает поддержку построения графиков kde с помощью метода plot ( df.plot(kind='kde')[2] ). getdistПакет для взвешенных и коррелированных выборок MCMC поддерживает оптимизированную полосу пропускания, коррекцию границ и методы более высокого порядка для одномерных и двухмерных распределений. Одним из недавно используемых пакетов для оценки плотности ядра является seaborn ( import seaborn as sns, sns.kdeplot()). ^[38] Также существует реализация KDE на графическом процессоре. ^[39]
В R это реализовано densityв базовом распределении, а bw.nrd0функция используется в пакете статистики, эта функция использует оптимизированную формулу из книги Сильвермана. bkdeв библиотеке KernSmooth , ParetoDensityEstimationв библиотеке DataVisualizations (для оценки плотности распределения Парето), kdeв библиотеке К.С. , dkdenи dbckdenв библиотеке evmix (последней для оценки плотности граничной скорректированного ядра для ограниченной поддержки), npudensв библиотеке нп (числовой и категоричен данные) , sm.densityв библиотеке sm . Для реализацииkde.Rфункция, которая не требует установки каких - либо пакетов или библиотек, см kde.R . Библиотека btb , предназначенная для городского анализа, реализует оценку плотности ядра через kernel_smoothing.
В SAS , proc kdeможет быть использована для оценки одномерных и двумерный ядро плотности.
В Apache Спарк , то KernelDensity()класс ^[40]
В Stata это реализовано через kdensity: ^[41] например histogram x, kdensity. В качестве альтернативы бесплатного Stata модуль KDENS доступен из здесь позволяет пользователю оценить функции плотности 1D или 2D.
В Swift это реализовано SwiftStats.KernelDensityEstimationв библиотеке статистики с открытым исходным кодом SwiftStats .

См. Также [ править ]

Викискладе есть средства массовой информации, связанные с оценкой плотности ядра .

Ядро (статистика)
Сглаживание ядра
Регрессия ядра
Оценка плотности (с представлением других примеров)
Средний сдвиг
Масштабируемое пространство : тройки {( x , h , KDE с полосой пропускания h, оцениваемой как x : все x , h > 0} образуют представление данных в масштабном пространстве .
Оценка многомерной плотности ядра
Оценка плотности переменного ядра
Голова / хвост ломаются

Ссылки [ править ]

^ a b Розенблатт, М. (1956). «Замечания о некоторых непараметрических оценках функции плотности» . Летопись математической статистики . 27 (3): 832–837. DOI : 10.1214 / АОМ / 1177728190 .
^ a b Парзен, Э. (1962). «Об оценке функции плотности вероятности и моды» . Летопись математической статистики . 33 (3): 1065–1076. DOI : 10.1214 / АОМ / 1177704472 . JSTOR 2237880 .
^ a b Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.06.2020). «Роль аналитики данных в управлении инфраструктурными активами: преодоление проблем с размером и качеством данных». Журнал транспортного машиностроения, часть B: Тротуары . 146 (2): 04020022. DOI : 10,1061 / JPEODX.0000175 .
^ Хасти, Тревор. (2001). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование: с 200 полноцветными иллюстрациями . Тибширани, Роберт., Фридман, Дж. Х. (Джером Х.). Нью-Йорк: Спрингер. ISBN 0-387-95284-5. OCLC 46809224 .
^ Епанечникова, В. А. (1969). «Непараметрическая оценка многомерной плотности вероятности». Теория вероятностей и ее приложения . 14 : 153–158. DOI : 10.1137 / 1114019 .
^ Жезл, МП; Джонс, MC (1995). Сглаживание ядра . Лондон: Chapman & Hall / CRC. ISBN 978-0-412-55270-0.
^ а б в г Ботев, Здравко (2007). Непараметрическая оценка плотности с помощью диффузионного перемешивания (Технический отчет). Университет Квинсленда.
^ Скотт, Д. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. DOI : 10.1093 / Biomet / 66.3.605 .
^ Парк, BU; Маррон, JS (1990). «Сравнение управляемых данными селекторов полосы пропускания». Журнал Американской статистической ассоциации . 85 (409): 66–72. CiteSeerX 10.1.1.154.7321 . DOI : 10.1080 / 01621459.1990.10475307 . JSTOR 2289526 .
^ Парк, BU; Турлах, BA (1992). «Практическая работа нескольких селекторов полосы пропускания, управляемых данными (с обсуждением)» . Вычислительная статистика . 7 : 251–270.
^ Цао, Р .; Cuevas, A .; Manteiga, WG (1994). «Сравнительное исследование нескольких методов сглаживания при оценке плотности». Вычислительная статистика и анализ данных . 17 (2): 153–176. DOI : 10.1016 / 0167-9473 (92) 00066-Z .
^ Джонс, MC; Маррон, JS; Шизер, SJ (1996). «Краткий обзор выбора полосы пропускания для оценки плотности». Журнал Американской статистической ассоциации . 91 (433): 401–407. DOI : 10.2307 / 2291420 . JSTOR 2291420 .
^ Sheather, SJ (1992). «Производительность шести популярных методов выбора полосы пропускания на некоторых реальных наборах данных (с обсуждением)». Вычислительная статистика . 7 : 225–250, 271–281.
^ Agarwal, N .; Алуру, Н.Р. (2010). «Управляемый данными стохастический подход к коллокации для количественной оценки неопределенности в МЭМС» (PDF) . Международный журнал численных методов в инженерии . 83 (5): 575–597.
^ Сюй, X .; Ян, З .; Сюй, С. (2015). «Оценка вероятностного распределения скорости ветра методом ядерной плотности на основе диффузии». Исследование электроэнергетических систем . 121 : 28–37. DOI : 10.1016 / j.epsr.2014.11.029 .
^ Ботев, ЗИ; Grotowski, JF; Крозе, Д.П. (2010). «Оценка плотности ядра посредством диффузии». Анналы статистики . 38 (5): 2916–2957. arXiv : 1011.2602 . DOI : 10.1214 / 10-AOS799 .
^ a b Sheather, SJ; Джонс, MC (1991). «Надежный метод выбора полосы пропускания на основе данных для оценки плотности ядра». Журнал Королевского статистического общества, Series B . 53 (3): 683–690. DOI : 10.1111 / j.2517-6161.1991.tb01857.x . JSTOR 2345597 .
^ Rudemo, М. (1982). «Эмпирический выбор гистограмм и ядерных оценок плотности». Скандинавский статистический журнал . 9 (2): 65–78. JSTOR 4615859 .
Перейти ↑ Bowman, AW (1984). «Альтернативный метод перекрестной проверки для сглаживания оценок плотности». Биометрика . 71 (2): 353–360. DOI : 10.1093 / Biomet / 71.2.353 .
^ Холл, P .; Маррон, JS; Парк, БУ (1992). «Сглаженная перекрестная проверка». Теория вероятностей и смежные области . 92 : 1–20. DOI : 10.1007 / BF01205233 .
^ Вахба, G. (1975). «Свойства оптимальной сходимости методов переменного узла, ядра и ортогональных рядов для оценки плотности» . Анналы статистики . 3 (1): 15–29. DOI : 10.1214 / AOS / 1176342997 .
Перейти ↑ Buch-Larsen, TINE (2005). «Оценка плотности ядра для распределений с тяжелыми хвостами с использованием преобразования Чамперноуна». Статистика . 39 (6): 503–518. CiteSeerX 10.1.1.457.1544 . DOI : 10.1080 / 02331880500439782 .
^ a b Сильверман, BW (1986). Оценка плотности для статистики и анализа данных . Лондон: Chapman & Hall / CRC. п. 45 . ISBN 978-0-412-24620-3.
^ Чен, Йен-Чи; Genovese, Christopher R .; Вассерман, Ларри (2016). «Комплексный подход к кластеризации режимов» . Электронный статистический журнал . 10 (1): 210–241. DOI : 10.1214 / 15-ejs1102 . ISSN 1935-7524 .
^ Шазаль, Фредерик; Фаси, Бриттани Тереза; Леччи, Фабрицио; Ринальдо, Алессандро; Вассерман, Ларри (2014). «Стохастическая конвергенция постоянных ландшафтов и силуэтов». Ежегодный симпозиум по вычислительной геометрии - SOCG'14 . Нью-Йорк, Нью-Йорк, США: ACM Press: 474–483. DOI : 10.1145 / 2582112.2582128 . ISBN 978-1-4503-2594-3.
^ Фукунага, К .; Хостетлер, Л. (январь 1975 г.). «Оценка градиента функции плотности с приложениями в распознавании образов». IEEE Transactions по теории информации . 21 (1): 32–40. DOI : 10,1109 / tit.1975.1055330 . ISSN 0018-9448 .
^ Yizong Cheng (1995). «Средний сдвиг, поиск режима и кластеризация». IEEE Transactions по анализу шаблонов и машинному анализу . 17 (8): 790–799. DOI : 10.1109 / 34.400568 . ISSN 0162-8828 .
^ Comaniciu, D .; Меер, П. (май 2002 г.). «Среднее смещение: надежный подход к анализу пространства признаков». IEEE Transactions по анализу шаблонов и машинному анализу . 24 (5): 603–619. DOI : 10.1109 / 34.1000236 . ISSN 0162-8828 .
^ Janert, Филипп K (2009). Gnuplot в действии: понимание данных с помощью графиков . Коннектикут, США: Manning Publications. ISBN 978-1-933988-39-9.См. Раздел 13.2.2, озаглавленный « Оценки плотности ядра» .
^ "Оценка функции сглаживания ядра для одномерных и двумерных данных - MATLAB ksde density" . www.mathworks.com . Проверено 5 ноября 2020 .
^ Horová, I .; Koláček, J .; Зелинка, Дж. (2012). Сглаживание ядра в MATLAB: теория и практика сглаживания ядра . Сингапур: World Scientific Publishing. ISBN 978-981-4405-48-5.
^ «SmoothKernelDistribution - Документация по языку Wolfram Language» . reference.wolfram.com . Проверено 5 ноября 2020 .
^ «KernelMixtureDistribution - Документация по языку Wolfram Language» . reference.wolfram.com . Проверено 5 ноября 2020 .
^ «Программное обеспечение для расчета плотности ядра» . www.rsc.org . Проверено 5 ноября 2020 .
^ Группа численных алгоритмов. «Стандартный документ библиотеки NAG: nagf_smooth_kerndens_gauss (g10baf)» (PDF) . Руководство библиотеки NAG, Марк 23 . Проверено 16 февраля 2012 .
^ Группа численных алгоритмов. «Стандартный документ библиотеки NAG: nag_kernel_de density_estim (g10bac)» (PDF) . Руководство библиотеки NAG, Mark 9 . Архивировано из оригинального (PDF) 24 ноября 2011 года . Проверено 16 февраля 2012 .
^ Vanderplas, Джейк (2013-12-01). «Оценка плотности ядра в Python» . Проверено 12 марта 2014 .
^ "seaborn.kdeplot - документация seaborn 0.10.1" . seaborn.pydata.org . Проверено 12 мая 2020 .
^ https://pypi.org/project/kde-gpu/#description
^ «Базовая статистика - API на основе RDD - Документация по Spark 3.0.1» . spark.apache.org . Проверено 5 ноября 2020 .
^ https://www.stata.com/manuals15/rkde density.pdf

Внешние ссылки [ править ]

Введение в оценку плотности ядра Краткое руководство, которое мотивирует использование оценок плотности ядра как улучшение по сравнению с гистограммами.
Оптимизация пропускной способности ядра . Бесплатный онлайн-инструмент, который генерирует оптимизированную оценку плотности ядра.
Бесплатное онлайн-программное обеспечение (калькулятор) вычисляет оценку плотности ядра для ряда данных в соответствии со следующими ядрами: Гауссово, Эпанечникова, Прямоугольное, Треугольное, Двувесное, Косинусное и Опткосинусное.
Апплет оценки плотности ядра Интерактивный онлайн-пример оценки плотности ядра. Требуется .NET 3.0 или новее.

[Ros1956-1] Розенблатт, М. (1956). «Замечания о некоторых непараметрических оценках функции плотности» . Летопись математической статистики . 27 (3): 832–837. DOI : 10.1214 / АОМ / 1177728190 .

[Par1962-2] Парзен, Э. (1962). «Об оценке функции плотности вероятности и моды» . Летопись математической статистики . 33 (3): 1065–1076. DOI : 10.1214 / АОМ / 1177704472 . JSTOR 2237880 .

[:0-3] Пирьонеси С. Мадех; Эль-Дираби Тамер Э. (01.06.2020). «Роль аналитики данных в управлении инфраструктурными активами: преодоление проблем с размером и качеством данных». Журнал транспортного машиностроения, часть B: Тротуары . 146 (2): 04020022. DOI : 10,1061 / JPEODX.0000175 .

[4] Хасти, Тревор. (2001). Элементы статистического обучения: интеллектуальный анализ данных, вывод и прогнозирование: с 200 полноцветными иллюстрациями . Тибширани, Роберт., Фридман, Дж. Х. (Джером Х.). Нью-Йорк: Спрингер. ISBN 0-387-95284-5. OCLC 46809224 .

[5] Епанечникова, В. А. (1969). «Непараметрическая оценка многомерной плотности вероятности». Теория вероятностей и ее приложения . 14 : 153–158. DOI : 10.1137 / 1114019 .

[WJ1995-6] Жезл, МП; Джонс, MC (1995). Сглаживание ядра . Лондон: Chapman & Hall / CRC. ISBN 978-0-412-55270-0.

[bo07-7] а б в г Ботев, Здравко (2007). Непараметрическая оценка плотности с помощью диффузионного перемешивания (Технический отчет). Университет Квинсленда.

[8] Скотт, Д. (1979). «Об оптимальных и основанных на данных гистограммах». Биометрика . 66 (3): 605–610. DOI : 10.1093 / Biomet / 66.3.605 .

[9] Парк, BU; Маррон, JS (1990). «Сравнение управляемых данными селекторов полосы пропускания». Журнал Американской статистической ассоциации . 85 (409): 66–72. CiteSeerX 10.1.1.154.7321 . DOI : 10.1080 / 01621459.1990.10475307 . JSTOR 2289526 .

[10] Парк, BU; Турлах, BA (1992). «Практическая работа нескольких селекторов полосы пропускания, управляемых данными (с обсуждением)» . Вычислительная статистика . 7 : 251–270.

[11] Цао, Р .; Cuevas, A .; Manteiga, WG (1994). «Сравнительное исследование нескольких методов сглаживания при оценке плотности». Вычислительная статистика и анализ данных . 17 (2): 153–176. DOI : 10.1016 / 0167-9473 (92) 00066-Z .

[12] Джонс, MC; Маррон, JS; Шизер, SJ (1996). «Краткий обзор выбора полосы пропускания для оценки плотности». Журнал Американской статистической ассоциации . 91 (433): 401–407. DOI : 10.2307 / 2291420 . JSTOR 2291420 .

[13] Sheather, SJ (1992). «Производительность шести популярных методов выбора полосы пропускания на некоторых реальных наборах данных (с обсуждением)». Вычислительная статистика . 7 : 225–250, 271–281.

[14] Agarwal, N .; Алуру, Н.Р. (2010). «Управляемый данными стохастический подход к коллокации для количественной оценки неопределенности в МЭМС» (PDF) . Международный журнал численных методов в инженерии . 83 (5): 575–597.

[15] Сюй, X .; Ян, З .; Сюй, С. (2015). «Оценка вероятностного распределения скорости ветра методом ядерной плотности на основе диффузии». Исследование электроэнергетических систем . 121 : 28–37. DOI : 10.1016 / j.epsr.2014.11.029 .

[bo10-16] Ботев, ЗИ; Grotowski, JF; Крозе, Д.П. (2010). «Оценка плотности ядра посредством диффузии». Анналы статистики . 38 (5): 2916–2957. arXiv : 1011.2602 . DOI : 10.1214 / 10-AOS799 .

[SJ91-17] Sheather, SJ; Джонс, MC (1991). «Надежный метод выбора полосы пропускания на основе данных для оценки плотности ядра». Журнал Королевского статистического общества, Series B . 53 (3): 683–690. DOI : 10.1111 / j.2517-6161.1991.tb01857.x . JSTOR 2345597 .

[18] Rudemo, М. (1982). «Эмпирический выбор гистограмм и ядерных оценок плотности». Скандинавский статистический журнал . 9 (2): 65–78. JSTOR 4615859 .

[19] Перейти ↑ Bowman, AW (1984). «Альтернативный метод перекрестной проверки для сглаживания оценок плотности». Биометрика . 71 (2): 353–360. DOI : 10.1093 / Biomet / 71.2.353 .

[20] Холл, P .; Маррон, JS; Парк, БУ (1992). «Сглаженная перекрестная проверка». Теория вероятностей и смежные области . 92 : 1–20. DOI : 10.1007 / BF01205233 .

[21] Вахба, G. (1975). «Свойства оптимальной сходимости методов переменного узла, ядра и ортогональных рядов для оценки плотности» . Анналы статистики . 3 (1): 15–29. DOI : 10.1214 / AOS / 1176342997 .

[Buch2005-22] Перейти ↑ Buch-Larsen, TINE (2005). «Оценка плотности ядра для распределений с тяжелыми хвостами с использованием преобразования Чамперноуна». Статистика . 39 (6): 503–518. CiteSeerX 10.1.1.457.1544 . DOI : 10.1080 / 02331880500439782 .

[SI1998-23] Сильверман, BW (1986). Оценка плотности для статистики и анализа данных . Лондон: Chapman & Hall / CRC. п. 45 . ISBN 978-0-412-24620-3.

[24] Чен, Йен-Чи; Genovese, Christopher R .; Вассерман, Ларри (2016). «Комплексный подход к кластеризации режимов» . Электронный статистический журнал . 10 (1): 210–241. DOI : 10.1214 / 15-ejs1102 . ISSN 1935-7524 .

[25] Шазаль, Фредерик; Фаси, Бриттани Тереза; Леччи, Фабрицио; Ринальдо, Алессандро; Вассерман, Ларри (2014). «Стохастическая конвергенция постоянных ландшафтов и силуэтов». Ежегодный симпозиум по вычислительной геометрии - SOCG'14 . Нью-Йорк, Нью-Йорк, США: ACM Press: 474–483. DOI : 10.1145 / 2582112.2582128 . ISBN 978-1-4503-2594-3.

[26] Фукунага, К .; Хостетлер, Л. (январь 1975 г.). «Оценка градиента функции плотности с приложениями в распознавании образов». IEEE Transactions по теории информации . 21 (1): 32–40. DOI : 10,1109 / tit.1975.1055330 . ISSN 0018-9448 .

[27] Yizong Cheng (1995). «Средний сдвиг, поиск режима и кластеризация». IEEE Transactions по анализу шаблонов и машинному анализу . 17 (8): 790–799. DOI : 10.1109 / 34.400568 . ISSN 0162-8828 .

[28] Comaniciu, D .; Меер, П. (май 2002 г.). «Среднее смещение: надежный подход к анализу пространства признаков». IEEE Transactions по анализу шаблонов и машинному анализу . 24 (5): 603–619. DOI : 10.1109 / 34.1000236 . ISSN 0162-8828 .

[29] Janert, Филипп K (2009). Gnuplot в действии: понимание данных с помощью графиков . Коннектикут, США: Manning Publications. ISBN 978-1-933988-39-9.См. Раздел 13.2.2, озаглавленный « Оценки плотности ядра» .

[30] "Оценка функции сглаживания ядра для одномерных и двумерных данных - MATLAB ksde density" . www.mathworks.com . Проверено 5 ноября 2020 .

[HorKolZel-31] Horová, I .; Koláček, J .; Зелинка, Дж. (2012). Сглаживание ядра в MATLAB: теория и практика сглаживания ядра . Сингапур: World Scientific Publishing. ISBN 978-981-4405-48-5.

[32] «SmoothKernelDistribution - Документация по языку Wolfram Language» . reference.wolfram.com . Проверено 5 ноября 2020 .

[33] «KernelMixtureDistribution - Документация по языку Wolfram Language» . reference.wolfram.com . Проверено 5 ноября 2020 .

[34] «Программное обеспечение для расчета плотности ядра» . www.rsc.org . Проверено 5 ноября 2020 .

[35] Группа численных алгоритмов. «Стандартный документ библиотеки NAG: nagf_smooth_kerndens_gauss (g10baf)» (PDF) . Руководство библиотеки NAG, Марк 23 . Проверено 16 февраля 2012 .

[36] Группа численных алгоритмов. «Стандартный документ библиотеки NAG: nag_kernel_de density_estim (g10bac)» (PDF) . Руководство библиотеки NAG, Mark 9 . Архивировано из оригинального (PDF) 24 ноября 2011 года . Проверено 16 февраля 2012 .

[37] Vanderplas, Джейк (2013-12-01). «Оценка плотности ядра в Python» . Проверено 12 марта 2014 .

[38] "seaborn.kdeplot - документация seaborn 0.10.1" . seaborn.pydata.org . Проверено 12 мая 2020 .

[39] ttps://pypi.org/project/kde-gpu/#description

[40] «Базовая статистика - API на основе RDD - Документация по Spark 3.0.1» . spark.apache.org . Проверено 5 ноября 2020 .

[41] ttps://www.stata.com/manuals15/rkde density.pdf

[1]