Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Алгоритмический вывод объединяет новые разработки в методах статистического вывода, которые стали возможными благодаря мощным вычислительным устройствам, широко доступным любому аналитику данных. Краеугольными камнями в этой области являются теория вычислительного обучения , гранулярные вычисления , биоинформатика и, давным-давно, структурная вероятность ( Fraser 1966 ). Основное внимание уделяется алгоритмам, которые вычисляют статистику, основанную на исследовании случайного явления, а также объем данных, которые они должны использовать для получения надежных результатов. Это смещает интерес математиков с изучения законов распределения к функциональным свойствам статистики., а также интерес компьютерных ученых от алгоритмов обработки данных к информации, которую они обрабатывают.

Проблема параметрического вывода Фишера [ править ]

Относительно определения параметров закона распределения зрелый читатель может вспомнить длительные споры в середине 20-го века об интерпретации их изменчивости с точки зрения фидуциального распределения ( Fisher, 1956 ), структурных вероятностей ( Fraser, 1966 ), априорных / апостериорных ( Ramsey 1925 ) и т. Д. С точки зрения эпистемологии , это повлекло за собой сопутствующий спор о природе вероятности : следует ли описывать физическую характеристику явлений с помощью случайных величин или способ синтеза данных о явлении? Выбирая последнее, Фишер определяет реперное распределение.закон параметров данной случайной величины, который он выводит из выборки ее спецификаций. С помощью этого закона он вычисляет, например, «вероятность того, что μ (среднее значение гауссовской переменной - наше примечание) меньше любого приписанного значения, или вероятность того, что оно находится между любыми приписанными значениями, или, короче, его распределение вероятностей, в свете наблюдаемого образца ».

Классическое решение [ править ]

Фишер упорно боролся, чтобы защитить различие и превосходство своего понятия распределения параметров по сравнению с аналогичными понятиями, такими как апостериорное распределение Байеса , конструктивная вероятность Фрейзера и доверительные интервалы Неймана . В течение полувека доверительные интервалы Неймана преобладали во всех практических целях, что объясняется феноменологической природой вероятности. С этой точки зрения, когда вы имеете дело с гауссовой переменной, ее среднее значение μ фиксируется физическими особенностями наблюдаемого вами явления, где наблюдения являются случайными операторами, следовательно, наблюдаемые значения являются характеристиками случайной выборки.. Из-за их случайности вы можете вычислить из выборки конкретных интервалов, содержащих фиксированный μ, с заданной вероятностью, которую вы обозначаете достоверностью .

Пример [ править ]

Пусть Х гауссовский переменная [1] с параметрами и и образец взяты из него. Работа со статистикой

а также

является выборочным средним, мы признаем, что

следует t-распределению Стьюдента ( Wilks, 1962 ) с параметром (степенями свободы) m  - 1, так что

Измеряя T между двумя квантилями и инвертируя его выражение как функцию, вы получаете доверительные интервалы для .

С образцом спецификации:

имея размер m = 10, вы вычисляете статистику и и получаете доверительный интервал 0,90 для с крайностями (3,03, 5,65).

Вывод функций с помощью компьютера [ править ]

С точки зрения моделирования весь спор выглядит как дилемма курица-яйцо: либо фиксированные данные первыми и вероятностное распределение их свойств как следствие, либо фиксированные свойства первыми и распределение вероятностей наблюдаемых данных как следствие. У классического решения есть одно преимущество и один недостаток. Первое особенно ценилось в те времена, когда люди еще выполняли вычисления с помощью листа и карандаша. По сути, задача вычисления доверительного интервала Неймана для фиксированного параметра θ является сложной: вы не знаете θ, но вы ищете возможность расположить вокруг него интервал с, возможно, очень низкой вероятностью неудачи. Аналитическое решение разрешено для очень ограниченного числа теоретических случаев. И наоборот, большое количество примеров может быть быстро решено приблизительным способом.через центральную предельную теорему в терминах доверительного интервала вокруг гауссова распределения - это преимущество. Недостатком является то, что центральная предельная теорема применима, когда размер выборки достаточно велик. Следовательно, он все меньше и меньше применим к образцу, задействованному в современных примерах вывода. Ошибка не в размере выборки как таковой. Скорее, этот размер недостаточно велик из-за сложности проблемы логического вывода.

При наличии больших вычислительных мощностей ученые переориентировались с вывода изолированных параметров на вывод сложных функций, то есть наборов сильно вложенных параметров, идентифицирующих функции. В этих случаях мы говорим об обучении функциям (например, в терминах регрессии , нейронечеткой системы или вычислительного обучения ) на основе высокоинформативных выборок. Первым эффектом наличия сложной структуры, связывающей данные, является уменьшение количества степеней свободы выборки., т.е. сжигание части точек выборки, так что эффективный размер выборки, который следует учитывать в центральной предельной теореме, слишком мал. Сосредоточение внимания на размере выборки, обеспечивающем ограниченную ошибку обучения с заданным уровнем достоверности , следствием этого является то, что нижняя граница этого размера растет с индексами сложности, такими как измерение VC или детали класса, к которому принадлежит функция, которую мы хотим изучить.

Пример [ править ]

Выборки из 1000 независимых битов достаточно, чтобы гарантировать абсолютную ошибку не более 0,081 при оценке параметра p базовой переменной Бернулли с достоверностью не менее 0,99. Один и тот же размер не может гарантировать пороговое значение менее 0,088 с такой же достоверностью 0,99, когда ошибка определяется с вероятностью того, что 20-летний мужчина, живущий в Нью-Йорке, не соответствует диапазонам роста, веса и талии, наблюдаемым на 1000 Big Обитатели яблони. Недостаток точности возникает из-за того, что как размерность ВК, так и детализация класса параллелепипедов, среди которых попадает наблюдаемый из диапазонов 1000 жителей, равны 6.

Общая проблема инверсии, решающая вопрос Фишера [ править ]

При недостаточно больших выборках подход: фиксированная выборка - случайные свойства предлагает процедуры вывода в три этапа:

Определение [ править ]

Для случайной величины и взятой из нее выборки совместимое распределение является распределением , имеющим один и тот же механизм выборки из X со значением случайного параметра , полученным из мастер - уравнения с корнем на хорошо вли себя статистические с .

Пример [ править ]

Совместная эмпирическая кумулятивная функция распределения параметров случайной величины Парето.
Кумулятивная функция распределения среднего M гауссовой случайной величины

Вы можете найти закон распределения параметров Парето A  и K  в качестве примера реализации  метода начальной загрузки населения, как показано на рисунке слева.

Реализуя метод скручивающего аргумента  , вы получаете закон распределения  среднего M  гауссовой переменной X  на основе статистики,  когда  известно, что она равна  ( Apolloni, Malchiodi & Gaito 2006 ). Его выражение:

показано на рисунке справа, где это интегральная функция распределения из стандартного нормального распределения .

Верхний (пурпурная кривая) и нижний (синяя кривая) крайние значения 90% -ного доверительного интервала среднего M гауссовой случайной величины для фиксированного и различных значений статистики s m .

Вычислить доверительный интервал  для M с  учетом его функции распределения несложно: нам нужно найти только два квантиля (например,  и  квантили в случае, если нас интересует доверительный интервал уровня δ, симметричный относительно вероятностей хвоста), как показано слева на диаграмме. показывающий поведение двух границ для разных значений статистики s m .

Ахиллесова пята подхода Фишера заключается в совместном распределении более чем одного параметра, например среднего и дисперсии гауссова распределения. Напротив, с помощью последнего подхода (и вышеупомянутых методов: начальной загрузки популяции и аргумента скручивания ) мы можем узнать совместное распределение многих параметров. Например, сосредоточив внимание на распределении двух или многих других параметров, на рисунках ниже мы указываем две области достоверности, в которых функция, которую необходимо изучить, падает с достоверностью 90%. Первый касается вероятности, с которой машина расширенного вектора поддержки приписывает двоичную метку 1 точкамсамолет. Две поверхности нарисованы на основе набора точек выборки, по очереди помеченных в соответствии с определенным законом распределения ( Аполлони и др., 2008 ). Последнее касается доверительной области вероятности рецидива рака груди, рассчитанной на основе цензурированной выборки ( Apolloni, Malchiodi & Gaito, 2006 ).


Заметки [ править ]

  1. ^ По умолчанию заглавные буквы (такие как U , X ) обозначают случайные величины, а строчные буквы ( u , x ) - их соответствующие спецификации.

Ссылки [ править ]

  • Фрейзер, DAS (1966), "Структурная вероятность и обобщения", Biometrika , 53 (1/2): 1-9, DOI : 10,2307 / 2334048 , JSTOR  2334048 .
  • Фишер, Массачусетс (1956), Статистические методы и научный вывод , Эдинбург и Лондон: Оливер и Бойд
  • Apolloni, B .; Malchiodi, D .; Гайто, С. (2006), Алгоритмический вывод в машинном обучении , Международная серия по продвинутому интеллекту, 5 (2-е изд.), Аделаида: Мэджилл, Advanced Knowledge International
  • Apolloni, B .; Bassis, S .; Malchiodi, D .; Витольд, П. (2008), Загадка гранулярных вычислений , Исследования в области вычислительного интеллекта, 138 , Берлин: Springer, ISBN 9783540798637
  • Рэмси, FP (1925), "Основы математики", Труды Лондонского математического общества : 338-384, DOI : 10,1112 / ПНИЛ / s2-25.1.338 .
  • Уилкс, СС (1962), Математическая статистика , публикации Wiley Publications in Statistics, Нью-Йорк: Джон Вили