Алгоритмический вывод

Алгоритмический вывод объединяет новые разработки в методах статистического вывода, которые стали возможными благодаря мощным вычислительным устройствам, широко доступным любому аналитику данных. Краеугольными камнями в этой области являются теория вычислительного обучения , гранулярные вычисления , биоинформатика и, давным-давно, структурная вероятность ( Fraser 1966 ). Основное внимание уделяется алгоритмам, которые вычисляют статистику, основанную на исследовании случайного явления, а также объем данных, которые они должны использовать для получения надежных результатов. Это смещает интерес математиков с изучения законов распределения к функциональным свойствам статистики., а также интерес компьютерных ученых от алгоритмов обработки данных к информации, которую они обрабатывают.

Проблема параметрического вывода Фишера [ править ]

Относительно определения параметров закона распределения зрелый читатель может вспомнить длительные споры в середине 20-го века об интерпретации их изменчивости с точки зрения фидуциального распределения ( Fisher, 1956 ), структурных вероятностей ( Fraser, 1966 ), априорных / апостериорных ( Ramsey 1925 ) и т. Д. С точки зрения эпистемологии , это повлекло за собой сопутствующий спор о природе вероятности : следует ли описывать физическую характеристику явлений с помощью случайных величин или способ синтеза данных о явлении? Выбирая последнее, Фишер определяет реперное распределение.закон параметров данной случайной величины, который он выводит из выборки ее спецификаций. С помощью этого закона он вычисляет, например, «вероятность того, что μ (среднее значение гауссовской переменной - наше примечание) меньше любого приписанного значения, или вероятность того, что оно находится между любыми приписанными значениями, или, короче, его распределение вероятностей, в свете наблюдаемого образца ».

Классическое решение [ править ]

Фишер упорно боролся, чтобы защитить различие и превосходство своего понятия распределения параметров по сравнению с аналогичными понятиями, такими как апостериорное распределение Байеса , конструктивная вероятность Фрейзера и доверительные интервалы Неймана . В течение полувека доверительные интервалы Неймана преобладали во всех практических целях, что объясняется феноменологической природой вероятности. С этой точки зрения, когда вы имеете дело с гауссовой переменной, ее среднее значение μ фиксируется физическими особенностями наблюдаемого вами явления, где наблюдения являются случайными операторами, следовательно, наблюдаемые значения являются характеристиками случайной выборки.. Из-за их случайности вы можете вычислить из выборки конкретных интервалов, содержащих фиксированный μ, с заданной вероятностью, которую вы обозначаете достоверностью .

Пример [ править ]

Пусть Х гауссовский переменная ^[1] с параметрами и и образец взяты из него. Работа со статистикой ${\ displaystyle \ mu}$ ${\ displaystyle \ sigma ^ {2}}$ ${\ Displaystyle \ {X_ {1}, \ ldots, X_ {m} \}}$

{\ Displaystyle S _ {\ mu} = \ сумма _ {я = 1} ^ {м} X_ {я}}

а также

S_{\sigma ^{2}}=\sum _{i=1}^{m}(X_{i}-{\overline {X}})^{2},{\text{ where }}{\overline {X}}={\frac {S_{\mu }}{m}}

является выборочным средним, мы признаем, что

T={\frac {S_{\mu }-m\mu }{\sqrt {S_{\sigma ^{2}}}}}{\sqrt {\frac {m-1}{m}}}={\frac {{\overline {X}}-\mu }{\sqrt {S_{\sigma ^{2}}/(m(m-1))}}}

следует t-распределению Стьюдента ( Wilks, 1962 ) с параметром (степенями свободы) m - 1, так что

f_{T}(t)={\frac {\Gamma (m/2)}{\Gamma ((m-1)/2)}}{\frac {1}{\sqrt {\pi (m-1)}}}\left(1+{\frac {t^{2}}{m-1}}\right)^{m/2}.

Измеряя T между двумя квантилями и инвертируя его выражение как функцию, вы получаете доверительные интервалы для . $\mu$ $\mu$

С образцом спецификации:

\mathbf {x} =\{7.14,6.3,3.9,6.46,0.2,2.94,4.14,4.69,6.02,1.58\}

имея размер m = 10, вы вычисляете статистику и и получаете доверительный интервал 0,90 для с крайностями (3,03, 5,65). $s_{\mu }=43.37$ $s_{\sigma ^{2}}=46.07$ $\mu$

Вывод функций с помощью компьютера [ править ]

С точки зрения моделирования весь спор выглядит как дилемма курица-яйцо: либо фиксированные данные первыми и вероятностное распределение их свойств как следствие, либо фиксированные свойства первыми и распределение вероятностей наблюдаемых данных как следствие. У классического решения есть одно преимущество и один недостаток. Первое особенно ценилось в те времена, когда люди еще выполняли вычисления с помощью листа и карандаша. По сути, задача вычисления доверительного интервала Неймана для фиксированного параметра θ является сложной: вы не знаете θ, но вы ищете возможность расположить вокруг него интервал с, возможно, очень низкой вероятностью неудачи. Аналитическое решение разрешено для очень ограниченного числа теоретических случаев. И наоборот, большое количество примеров может быть быстро решено приблизительным способом.через центральную предельную теорему в терминах доверительного интервала вокруг гауссова распределения - это преимущество. Недостатком является то, что центральная предельная теорема применима, когда размер выборки достаточно велик. Следовательно, он все меньше и меньше применим к образцу, задействованному в современных примерах вывода. Ошибка не в размере выборки как таковой. Скорее, этот размер недостаточно велик из-за сложности проблемы логического вывода.

При наличии больших вычислительных мощностей ученые переориентировались с вывода изолированных параметров на вывод сложных функций, то есть наборов сильно вложенных параметров, идентифицирующих функции. В этих случаях мы говорим об обучении функциям (например, в терминах регрессии , нейронечеткой системы или вычислительного обучения ) на основе высокоинформативных выборок. Первым эффектом наличия сложной структуры, связывающей данные, является уменьшение количества степеней свободы выборки., т.е. сжигание части точек выборки, так что эффективный размер выборки, который следует учитывать в центральной предельной теореме, слишком мал. Сосредоточение внимания на размере выборки, обеспечивающем ограниченную ошибку обучения с заданным уровнем достоверности , следствием этого является то, что нижняя граница этого размера растет с индексами сложности, такими как измерение VC или детали класса, к которому принадлежит функция, которую мы хотим изучить.

Пример [ править ]

Выборки из 1000 независимых битов достаточно, чтобы гарантировать абсолютную ошибку не более 0,081 при оценке параметра p базовой переменной Бернулли с достоверностью не менее 0,99. Один и тот же размер не может гарантировать пороговое значение менее 0,088 с такой же достоверностью 0,99, когда ошибка определяется с вероятностью того, что 20-летний мужчина, живущий в Нью-Йорке, не соответствует диапазонам роста, веса и талии, наблюдаемым на 1000 Big Обитатели яблони. Недостаток точности возникает из-за того, что как размерность ВК, так и детализация класса параллелепипедов, среди которых попадает наблюдаемый из диапазонов 1000 жителей, равны 6.

Общая проблема инверсии, решающая вопрос Фишера [ править ]

При недостаточно больших выборках подход: фиксированная выборка - случайные свойства предлагает процедуры вывода в три этапа:

1.

Механизм отбора проб . Он состоит из пары , где начальное значение Z - это случайная величина без неизвестных параметров, а объясняющая функция - это отображение функции из выборок Z в выборки интересующей нас случайной величины X. Вектор параметров является спецификацией случайный параметр . Его составляющие являются параметрами закона распределения X. Теорема интегрального преобразования гарантирует существование такого механизма для каждого (скалярного или векторного) X, когда начальное число совпадает со случайной величиной U, равномерно распределенной в .

(Z,g_{\boldsymbol {\theta }})

g_{\boldsymbol {\theta }}

{\boldsymbol {\theta }}

\mathbf {\Theta }

[0,1]

Пример.

Для X, следующего за распределением Парето с параметрами a и k , т. Е.

F_{X}(x)=\left(1-{\frac {k}{x}}^{a}\right)I_{[k,\infty )}(x),

механизм отбора проб для X с семенем U гласит: $(U,g_{(a,k)})$

g_{(a,k)}(u)=k(1-u)^{-{\frac {1}{a}}},

или, что то же самое, $g_{(a,k)}(u)=ku^{-1/a}.$

2.

Основные уравнения . Фактическая связь между моделью и наблюдаемыми данными выражается в виде набора отношений между статистикой данных и неизвестными параметрами, которые являются следствием механизмов выборки. Мы называем эти отношения основными уравнениями . Основное уравнение, вращающееся вокруг статистики , выглядит следующим образом:

s=h(x_{1},\ldots ,x_{m})=h(g_{\boldsymbol {\theta }}(z_{1}),\ldots ,g_{\boldsymbol {\theta }}(z_{m}))

s=\rho ({\boldsymbol {\theta }};z_{1},\ldots ,z_{m})

.

С помощью этих соотношений мы можем проверить значения параметров, которые могли бы сгенерировать выборку с наблюдаемой статистикой из конкретной настройки начальных значений, представляющих начальное значение выборки. Следовательно, совокупности образцов семян соответствует совокупность параметров. Чтобы гарантировать чистоту свойств этой совокупности, достаточно случайным образом нарисовать начальные значения и включить в главные уравнения либо достаточную статистику, либо просто статистику правильного поведения по параметрам.

Например, статистики и оказывается достаточно для параметров a и k случайной величины X по Парето . Благодаря (эквивалентной форме) механизму выборки мы можем читать их как $s_{1}=\sum _{i=1}^{m}\log x_{i}$ $s_{2}=\min _{i=1,\ldots ,m}\{x_{i}\}$ $g_{(a,k)}$

s_{1}=m\log k+1/a\sum _{i=1}^{m}\log u_{i}

s_{2}=\min _{i=1,\ldots ,m}\{ku_{i}^{-{\frac {1}{a}}}\},

соответственно.

3.

Население параметра . Установив набор основных уравнений, вы можете сопоставить выборку начальных значений с параметрами либо численно с помощью начальной загрузки популяции , либо аналитически с помощью аргумента скручивания . Следовательно, из популяции семян вы получаете совокупность параметров.

Пример.

Из приведенного выше основного уравнения мы можем построить пару параметров , совместимых с наблюдаемым образцом, решив следующую систему уравнений:

(a,k)

a={\frac {\sum \log u_{i}-m\log \min\{u_{i}\}}{s_{1}-m\log s_{2}}}.

k=\mathrm {e} ^{\frac {as_{1}-\sum \log u_{i}}{ma}}

где и - наблюдаемая статистика и набор однородных семян. Перенося в параметры вероятность (плотность) воздействия на семена, вы получаете закон распределения случайных параметров A и K, совместимый с наблюдаемой вами статистикой. $s_{1}$ $s_{2}$ $u_{1},\ldots ,u_{m}$

Совместимость обозначает параметры совместимых популяций, то есть популяций, которые могли бы сформировать выборку, дающую начало наблюдаемой статистике. Вы можете формализовать это понятие следующим образом:

Определение [ править ]

Для случайной величины и взятой из нее выборки совместимое распределение является распределением , имеющим один и тот же механизм выборки из X со значением случайного параметра , полученным из мастер - уравнения с корнем на хорошо вли себя статистические с . ${\mathcal {M}}_{X}=(Z,g_{\boldsymbol {\theta }})$ ${\boldsymbol {\theta }}$ $\mathbf {\Theta }$

Пример [ править ]

Совместная эмпирическая кумулятивная функция распределения параметров случайной величины Парето.

(A,K)

Кумулятивная функция распределения среднего M гауссовой случайной величины

Вы можете найти закон распределения параметров Парето A и K в качестве примера реализации метода начальной загрузки населения, как показано на рисунке слева.

Реализуя метод скручивающего аргумента , вы получаете закон распределения среднего M гауссовой переменной X на основе статистики, когда известно, что она равна ( Apolloni, Malchiodi & Gaito 2006 ). Его выражение: $F_{M}(\mu )$ $s_{M}=\sum _{i=1}^{m}x_{i}$ $\Sigma ^{2}$ $\sigma ^{2}$

F_{M}(\mu )=\Phi \left({\frac {m\mu -s_{M}}{\sigma {\sqrt {m}}}}\right),

показано на рисунке справа, где это интегральная функция распределения из стандартного нормального распределения . $\Phi$

Верхний (пурпурная кривая) и нижний (синяя кривая) крайние значения 90% -ного доверительного интервала среднего M гауссовой случайной величины для фиксированного и различных значений статистики s _m .

\sigma

Вычислить доверительный интервал для M с учетом его функции распределения несложно: нам нужно найти только два квантиля (например, и квантили в случае, если нас интересует доверительный интервал уровня δ, симметричный относительно вероятностей хвоста), как показано слева на диаграмме. показывающий поведение двух границ для разных значений статистики s _m . $\delta /2$ $1-\delta /2$

Ахиллесова пята подхода Фишера заключается в совместном распределении более чем одного параметра, например среднего и дисперсии гауссова распределения. Напротив, с помощью последнего подхода (и вышеупомянутых методов: начальной загрузки популяции и аргумента скручивания ) мы можем узнать совместное распределение многих параметров. Например, сосредоточив внимание на распределении двух или многих других параметров, на рисунках ниже мы указываем две области достоверности, в которых функция, которую необходимо изучить, падает с достоверностью 90%. Первый касается вероятности, с которой машина расширенного вектора поддержки приписывает двоичную метку 1 точкам $(x,y)$ самолет. Две поверхности нарисованы на основе набора точек выборки, по очереди помеченных в соответствии с определенным законом распределения ( Аполлони и др., 2008 ). Последнее касается доверительной области вероятности рецидива рака груди, рассчитанной на основе цензурированной выборки ( Apolloni, Malchiodi & Gaito, 2006 ).

90% доверительная область для семейства машин с опорными векторами, наделенных функцией профиля гиперболического тангенса

90% доверительная область для функции риска рецидива рака молочной железы, рассчитанная на основе цензурированной выборки, где> t обозначает время, прошедшее цензуру.

t=(9,13,>13,18,12,23,31,34,>45,48,>161),\,

Заметки [ править ]

^ По умолчанию заглавные буквы (такие как U , X ) обозначают случайные величины, а строчные буквы ( u , x ) - их соответствующие спецификации.

Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . Пожалуйста, помогите улучшить эту статью, добавив более точные цитаты. ( Июль 2011 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Ссылки [ править ]

Фрейзер, DAS (1966), "Структурная вероятность и обобщения", Biometrika , 53 (1/2): 1-9, DOI : 10,2307 / 2334048 , JSTOR 2334048 .
Фишер, Массачусетс (1956), Статистические методы и научный вывод , Эдинбург и Лондон: Оливер и Бойд
Apolloni, B .; Malchiodi, D .; Гайто, С. (2006), Алгоритмический вывод в машинном обучении , Международная серия по продвинутому интеллекту, 5 (2-е изд.), Аделаида: Мэджилл, Advanced Knowledge International
Apolloni, B .; Bassis, S .; Malchiodi, D .; Витольд, П. (2008), Загадка гранулярных вычислений , Исследования в области вычислительного интеллекта, 138 , Берлин: Springer, ISBN 9783540798637
Рэмси, FP (1925), "Основы математики", Труды Лондонского математического общества : 338-384, DOI : 10,1112 / ПНИЛ / s2-25.1.338 .
Уилкс, СС (1962), Математическая статистика , публикации Wiley Publications in Statistics, Нью-Йорк: Джон Вили

[1] По умолчанию заглавные буквы (такие как U , X ) обозначают случайные величины, а строчные буквы ( u , x ) - их соответствующие спецификации.

[1]