Алгоритмический вывод объединяет новые разработки в методах статистического вывода, которые стали возможными благодаря мощным вычислительным устройствам, широко доступным любому аналитику данных. Краеугольными камнями в этой области являются теория вычислительного обучения , гранулярные вычисления , биоинформатика и, давным-давно, структурная вероятность ( Fraser 1966 ). Основное внимание уделяется алгоритмам, которые вычисляют статистику, основанную на исследовании случайного явления, а также объем данных, которые они должны использовать для получения надежных результатов. Это смещает интерес математиков с изучения законов распределения к функциональным свойствам статистики., а также интерес компьютерных ученых от алгоритмов обработки данных к информации, которую они обрабатывают.
Проблема параметрического вывода Фишера [ править ]
Относительно определения параметров закона распределения зрелый читатель может вспомнить длительные споры в середине 20-го века об интерпретации их изменчивости с точки зрения фидуциального распределения ( Fisher, 1956 ), структурных вероятностей ( Fraser, 1966 ), априорных / апостериорных ( Ramsey 1925 ) и т. Д. С точки зрения эпистемологии , это повлекло за собой сопутствующий спор о природе вероятности : следует ли описывать физическую характеристику явлений с помощью случайных величин или способ синтеза данных о явлении? Выбирая последнее, Фишер определяет реперное распределение.закон параметров данной случайной величины, который он выводит из выборки ее спецификаций. С помощью этого закона он вычисляет, например, «вероятность того, что μ (среднее значение гауссовской переменной - наше примечание) меньше любого приписанного значения, или вероятность того, что оно находится между любыми приписанными значениями, или, короче, его распределение вероятностей, в свете наблюдаемого образца ».
Классическое решение [ править ]
Фишер упорно боролся, чтобы защитить различие и превосходство своего понятия распределения параметров по сравнению с аналогичными понятиями, такими как апостериорное распределение Байеса , конструктивная вероятность Фрейзера и доверительные интервалы Неймана . В течение полувека доверительные интервалы Неймана преобладали во всех практических целях, что объясняется феноменологической природой вероятности. С этой точки зрения, когда вы имеете дело с гауссовой переменной, ее среднее значение μ фиксируется физическими особенностями наблюдаемого вами явления, где наблюдения являются случайными операторами, следовательно, наблюдаемые значения являются характеристиками случайной выборки.. Из-за их случайности вы можете вычислить из выборки конкретных интервалов, содержащих фиксированный μ, с заданной вероятностью, которую вы обозначаете достоверностью .
Пример [ править ]
Пусть Х гауссовский переменная [1] с параметрами и и образец взяты из него. Работа со статистикой
а также
является выборочным средним, мы признаем, что
следует t-распределению Стьюдента ( Wilks, 1962 ) с параметром (степенями свободы) m - 1, так что
Измеряя T между двумя квантилями и инвертируя его выражение как функцию, вы получаете доверительные интервалы для .
С образцом спецификации:
имея размер m = 10, вы вычисляете статистику и и получаете доверительный интервал 0,90 для с крайностями (3,03, 5,65).
Вывод функций с помощью компьютера [ править ]
С точки зрения моделирования весь спор выглядит как дилемма курица-яйцо: либо фиксированные данные первыми и вероятностное распределение их свойств как следствие, либо фиксированные свойства первыми и распределение вероятностей наблюдаемых данных как следствие. У классического решения есть одно преимущество и один недостаток. Первое особенно ценилось в те времена, когда люди еще выполняли вычисления с помощью листа и карандаша. По сути, задача вычисления доверительного интервала Неймана для фиксированного параметра θ является сложной: вы не знаете θ, но вы ищете возможность расположить вокруг него интервал с, возможно, очень низкой вероятностью неудачи. Аналитическое решение разрешено для очень ограниченного числа теоретических случаев. И наоборот, большое количество примеров может быть быстро решено приблизительным способом.через центральную предельную теорему в терминах доверительного интервала вокруг гауссова распределения - это преимущество. Недостатком является то, что центральная предельная теорема применима, когда размер выборки достаточно велик. Следовательно, он все меньше и меньше применим к образцу, задействованному в современных примерах вывода. Ошибка не в размере выборки как таковой. Скорее, этот размер недостаточно велик из-за сложности проблемы логического вывода.
При наличии больших вычислительных мощностей ученые переориентировались с вывода изолированных параметров на вывод сложных функций, то есть наборов сильно вложенных параметров, идентифицирующих функции. В этих случаях мы говорим об обучении функциям (например, в терминах регрессии , нейронечеткой системы или вычислительного обучения ) на основе высокоинформативных выборок. Первым эффектом наличия сложной структуры, связывающей данные, является уменьшение количества степеней свободы выборки., т.е. сжигание части точек выборки, так что эффективный размер выборки, который следует учитывать в центральной предельной теореме, слишком мал. Сосредоточение внимания на размере выборки, обеспечивающем ограниченную ошибку обучения с заданным уровнем достоверности , следствием этого является то, что нижняя граница этого размера растет с индексами сложности, такими как измерение VC или детали класса, к которому принадлежит функция, которую мы хотим изучить.
Пример [ править ]
Выборки из 1000 независимых битов достаточно, чтобы гарантировать абсолютную ошибку не более 0,081 при оценке параметра p базовой переменной Бернулли с достоверностью не менее 0,99. Один и тот же размер не может гарантировать пороговое значение менее 0,088 с такой же достоверностью 0,99, когда ошибка определяется с вероятностью того, что 20-летний мужчина, живущий в Нью-Йорке, не соответствует диапазонам роста, веса и талии, наблюдаемым на 1000 Big Обитатели яблони. Недостаток точности возникает из-за того, что как размерность ВК, так и детализация класса параллелепипедов, среди которых попадает наблюдаемый из диапазонов 1000 жителей, равны 6.
Общая проблема инверсии, решающая вопрос Фишера [ править ]
При недостаточно больших выборках подход: фиксированная выборка - случайные свойства предлагает процедуры вывода в три этапа:
1. | Механизм отбора проб . Он состоит из пары , где начальное значение Z - это случайная величина без неизвестных параметров, а объясняющая функция - это отображение функции из выборок Z в выборки интересующей нас случайной величины X. Вектор параметров является спецификацией случайный параметр . Его составляющие являются параметрами закона распределения X. Теорема интегрального преобразования гарантирует существование такого механизма для каждого (скалярного или векторного) X, когда начальное число совпадает со случайной величиной U, равномерно распределенной в .
| ||
2. | Основные уравнения . Фактическая связь между моделью и наблюдаемыми данными выражается в виде набора отношений между статистикой данных и неизвестными параметрами, которые являются следствием механизмов выборки. Мы называем эти отношения основными уравнениями . Основное уравнение, вращающееся вокруг статистики , выглядит следующим образом:
С помощью этих соотношений мы можем проверить значения параметров, которые могли бы сгенерировать выборку с наблюдаемой статистикой из конкретной настройки начальных значений, представляющих начальное значение выборки. Следовательно, совокупности образцов семян соответствует совокупность параметров. Чтобы гарантировать чистоту свойств этой совокупности, достаточно случайным образом нарисовать начальные значения и включить в главные уравнения либо достаточную статистику, либо просто статистику правильного поведения по параметрам. Например, статистики и оказывается достаточно для параметров a и k случайной величины X по Парето . Благодаря (эквивалентной форме) механизму выборки мы можем читать их как соответственно. | ||
3. | Население параметра . Установив набор основных уравнений, вы можете сопоставить выборку начальных значений с параметрами либо численно с помощью начальной загрузки популяции , либо аналитически с помощью аргумента скручивания . Следовательно, из популяции семян вы получаете совокупность параметров.
Совместимость обозначает параметры совместимых популяций, то есть популяций, которые могли бы сформировать выборку, дающую начало наблюдаемой статистике. Вы можете формализовать это понятие следующим образом: |
Определение [ править ]
Для случайной величины и взятой из нее выборки совместимое распределение является распределением , имеющим один и тот же механизм выборки из X со значением случайного параметра , полученным из мастер - уравнения с корнем на хорошо вли себя статистические с .
Пример [ править ]
Вы можете найти закон распределения параметров Парето A и K в качестве примера реализации метода начальной загрузки населения, как показано на рисунке слева.
Реализуя метод скручивающего аргумента , вы получаете закон распределения среднего M гауссовой переменной X на основе статистики, когда известно, что она равна ( Apolloni, Malchiodi & Gaito 2006 ). Его выражение:
показано на рисунке справа, где это интегральная функция распределения из стандартного нормального распределения .
Вычислить доверительный интервал для M с учетом его функции распределения несложно: нам нужно найти только два квантиля (например, и квантили в случае, если нас интересует доверительный интервал уровня δ, симметричный относительно вероятностей хвоста), как показано слева на диаграмме. показывающий поведение двух границ для разных значений статистики s m .
Ахиллесова пята подхода Фишера заключается в совместном распределении более чем одного параметра, например среднего и дисперсии гауссова распределения. Напротив, с помощью последнего подхода (и вышеупомянутых методов: начальной загрузки популяции и аргумента скручивания ) мы можем узнать совместное распределение многих параметров. Например, сосредоточив внимание на распределении двух или многих других параметров, на рисунках ниже мы указываем две области достоверности, в которых функция, которую необходимо изучить, падает с достоверностью 90%. Первый касается вероятности, с которой машина расширенного вектора поддержки приписывает двоичную метку 1 точкамсамолет. Две поверхности нарисованы на основе набора точек выборки, по очереди помеченных в соответствии с определенным законом распределения ( Аполлони и др., 2008 ). Последнее касается доверительной области вероятности рецидива рака груди, рассчитанной на основе цензурированной выборки ( Apolloni, Malchiodi & Gaito, 2006 ).
Заметки [ править ]
- ^ По умолчанию заглавные буквы (такие как U , X ) обозначают случайные величины, а строчные буквы ( u , x ) - их соответствующие спецификации.
Эта статья включает в себя список общих ссылок , но он остается в значительной степени непроверенным, поскольку в нем отсутствует достаточное количество соответствующих встроенных ссылок . Июль 2011 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения ) ( |
Ссылки [ править ]
- Фрейзер, DAS (1966), "Структурная вероятность и обобщения", Biometrika , 53 (1/2): 1-9, DOI : 10,2307 / 2334048 , JSTOR 2334048 .
- Фишер, Массачусетс (1956), Статистические методы и научный вывод , Эдинбург и Лондон: Оливер и Бойд
- Apolloni, B .; Malchiodi, D .; Гайто, С. (2006), Алгоритмический вывод в машинном обучении , Международная серия по продвинутому интеллекту, 5 (2-е изд.), Аделаида: Мэджилл,
Advanced Knowledge International
- Apolloni, B .; Bassis, S .; Malchiodi, D .; Витольд, П. (2008), Загадка гранулярных вычислений , Исследования в области вычислительного интеллекта, 138 , Берлин: Springer, ISBN 9783540798637
- Рэмси, FP (1925), "Основы математики", Труды Лондонского математического общества : 338-384, DOI : 10,1112 / ПНИЛ / s2-25.1.338 .
- Уилкс, СС (1962), Математическая статистика , публикации Wiley Publications in Statistics, Нью-Йорк: Джон Вили