Из Википедии, бесплатной энциклопедии
  (Перенаправлен из непараметрического теста )
Перейти к навигации Перейти к поиску

Непараметрическая статистика - это отрасль статистики, которая не основана исключительно на параметризованных семействах вероятностных распределений (распространенными примерами параметров являются среднее значение и дисперсия). Непараметрическая статистика основана либо на отсутствии распределения, либо на наличии определенного распределения, но с неопределенными параметрами распределения. Непараметрическая статистика включает как описательную статистику, так и статистический вывод . Непараметрические тесты часто используются, когда допущения параметрических тестов нарушаются. [1]

Определения [ править ]

Термин «непараметрическая статистика» был неточно определен следующими двумя способами, среди прочего.

  1. Первое значение непараметрического охватывает методы, которые не полагаются на данные, принадлежащие какому-либо конкретному параметрическому семейству распределений вероятностей.

    К ним, среди прочего, относятся:

    Статистика заказов , основанная на рангах наблюдений, является одним из примеров такой статистики.

    Следующее обсуждение взято из Kendall's . [2]

    Статистические гипотезы касаются поведения наблюдаемых случайных величин .... Например, гипотеза (а) о том, что нормальное распределение имеет заданное среднее значение, а дисперсия является статистической; такова гипотеза (б) о том, что оно имеет заданное среднее значение, но неопределенную дисперсию; такова гипотеза (c) о том, что распределение имеет нормальную форму с неопределенными средним и дисперсией; наконец, такова гипотеза (d) о том, что два неопределенных непрерывных распределения идентичны.

    Следует отметить, что в примерах (а) и (b) распределение, лежащее в основе наблюдений, было принято как имеющее определенную форму (нормальную), и гипотеза полностью касалась значения одного или обоих его параметров. Такая гипотеза по понятным причинам называется параметрической .

    Гипотеза (c) имела иную природу, так как в формулировке гипотезы не указаны значения параметров; мы можем с полным основанием назвать такую ​​гипотезу непараметрической . Гипотеза (d) также является непараметрической, но, кроме того, она даже не определяет лежащую в основе форму распределения и теперь может быть обоснованно названа свободной от распределения . Несмотря на эти различия, в статистической литературе сейчас обычно применяется ярлык «непараметрические» к процедурам тестирования, которые мы только что назвали «нераспространяемыми», тем самым теряя полезную классификацию.

  2. Второе значение непараметрического охватывает методы, которые не предполагают, что структура модели фиксирована. Как правило, размер модели увеличивается с учетом сложности данных. В этих методах, отдельные переменные , которые , как правило , предполагается, принадлежат к параметрическим распределениям и предположения о типах связей между переменными также сделаны. Эти методы включают, среди прочего:
    • непараметрическая регрессия , которая представляет собой моделирование, при котором структура взаимосвязи между переменными обрабатывается непараметрически, но при этом, тем не менее, могут существовать параметрические предположения о распределении остатков модели.
    • непараметрические иерархические байесовские модели , такие как модели, основанные на процессе Дирихле , которые позволяют количеству скрытых переменных увеличиваться по мере необходимости, чтобы соответствовать данным, но где отдельные переменные все еще следуют параметрическим распределениям и даже процессу, контролирующему скорость роста скрытые переменные подчиняются параметрическому распределению.

Приложения и цель [ править ]

Непараметрические методы широко используются для изучения популяций, которые занимают ранжированный порядок (например, обзоры фильмов, получившие от одной до четырех звезд). Использование непараметрических методов может быть необходимо, когда данные имеют ранжирование, но не имеют четкой числовой интерпретации, например, при оценке предпочтений . С точки зрения уровней измерения непараметрические методы приводят к порядковым данным .

Поскольку непараметрические методы делают меньше предположений, их применимость намного шире, чем у соответствующих параметрических методов. В частности, они могут применяться в ситуациях, когда о рассматриваемом приложении известно меньше. Кроме того, из-за использования меньшего числа предположений непараметрические методы более надежны .

Еще одно оправдание использования непараметрических методов - простота. В некоторых случаях, даже когда использование параметрических методов оправдано, непараметрические методы могут быть проще в использовании. Как из-за этой простоты, так и из-за их большей надежности, непараметрические методы рассматриваются некоторыми статистиками как оставляющие меньше места для неправильного использования и недоразумений.

Более широкая применимость и повышенная надежность непараметрических тестов обходятся дорого: в случаях, когда параметрический тест может быть уместен, непараметрические тесты имеют меньшую мощность . Другими словами, может потребоваться больший размер выборки, чтобы делать выводы с той же степенью уверенности.

Непараметрические модели [ править ]

Непараметрические модели отличаются от параметрических тем, что структура модели не указывается априори, а определяется на основе данных. Термин непараметрический не означает, что такие модели полностью лишены параметров, но что количество и характер параметров являются гибкими и не фиксируются заранее.

  • Гистограмма представляет собой простую непараметрическая оценку распределения вероятностей.
  • Оценка плотности ядра дает более точные оценки плотности, чем гистограммы.
  • На основе ядер , сплайнов и вейвлетов были разработаны методы непараметрической регрессии и полупараметрической регрессии .
  • Анализ охвата данных обеспечивает коэффициенты эффективности, аналогичные тем, которые получены с помощью многомерного анализа, без каких-либо предположений о распределении.
  • KNN классифицируют невидимый экземпляр на основе K точек в обучающем наборе, которые являются ближайшими к нему.
  • Опорных векторов (с ядром гауссовой) является непараметрической большой рентабельностью классификатор.
  • Метод моментов (статистики) с полиномиальными вероятностными распределениями.

Методы [ править ]

Непараметрические (или свободные от распределения ) методы логической статистики - это математические процедуры для проверки статистических гипотез, которые, в отличие от параметрической статистики , не делают никаких предположений о распределении вероятностей оцениваемых переменных. Наиболее часто используемые тесты включают

  • Анализ сходства
  • Тест Андерсона – Дарлинга : проверяет, взята ли выборка из данного распределения.
  • Статистические методы начальной загрузки : оценивает точность / выборочное распределение статистики.
  • Вопрос Кокрана : проверяет, имеют ли k лечения в рандомизированных блочных схемах с исходами 0/1 идентичные эффекты
  • Каппа Коэна : измеряет согласованность между экспертами по категориальным пунктам
  • Двусторонний дисперсионный анализ Фридмана по рангам: проверяет, имеют ли k обработок в рандомизированных блочных схемах одинаковые эффекты
  • Каплан-Мейер : оценивает функцию выживания на основе данных о продолжительности жизни, моделируя цензурирование.
  • Тау Кендалла : измеряет статистическую зависимость между двумя переменными
  • W Кендалла : показатель согласия между экспертами от 0 до 1
  • Тест Колмогорова-Смирнова : проверяет, взята ли выборка из данного распределения или две выборки взяты из одного и того же распределения.
  • Односторонний дисперсионный анализ Краскала – Уоллиса по рангам: проверяет, взяты ли более 2 независимых выборок из одного распределения
  • Тест Койпера : проверяет, взята ли выборка из данного распределения, чувствительна к циклическим изменениям, таким как день недели.
  • Тест логранка : сравнивает распределения выживаемости двух скошенных вправо, цензурированных выборок.
  • U- критерий Манна – Уитни или критерий суммы рангов Уилкоксона: проверяет, взяты ли две выборки из одного и того же распределения по сравнению с заданной альтернативной гипотезой.
  • Тест Макнемара : проверяет, равны ли в таблицах сопряженности 2 × 2 с дихотомическим признаком и совпадающими парами субъектов граничные частоты строк и столбцов
  • Медианный тест : проверяет, взяты ли две выборки из распределений с равными медианами.
  • Тест перестановки Питмана: тест статистической значимости, который дает точные значения p путем изучения всех возможных перестановок меток
  • Ранжирование продуктов : обнаруживает дифференциально экспрессируемые гены в повторных экспериментах с микрочипами
  • Тест Зигеля – Тьюки : тесты на различия в шкале между двумя группами
  • Знаковый тест : проверяет, взяты ли образцы совпадающих пар из распределений с равными медианами.
  • Коэффициент ранговой корреляции Спирмена : измеряет статистическую зависимость между двумя переменными с помощью монотонной функции.
  • Тест квадратичных рангов : проверяет равенство дисперсий в двух или более выборках.
  • Тест Тьюки – Дакворта : проверяет равенство двух распределений с помощью рангов
  • Вальд-Вулфовиц запускает тест : проверяет, являются ли элементы последовательности взаимно независимыми / случайными.
  • Знаковый ранговый тест Уилкоксона : проверяет, взяты ли подходящие парные выборки из популяций с разными средними рангами

История [ править ]

Ранний непараметрические статистические данные включают медиану (13 - го век или ранее, использование в оценке по Эдварду Райт , 1599, см Median § Истории ) и тест знака на Джоне Арбетнот (1710) в анализе соотношения человеческого секса при рождении (см теста Знака § История ). [3] [4]

См. Также [ править ]

  • Непараметрический доверительный интервал на основе CDF
  • Параметрическая статистика
  • Ресэмплинг (статистика)
  • Полупараметрическая модель

Примечания [ править ]

  1. ^ Пирс, Дж; Деррик, Б. (2019). «Предварительное тестирование: черт статистики?» . Reinvention: Международный журнал исследований студентов . 12 (2). DOI : 10,31273 / reinvention.v12i2.339 .
  2. ^ Стюарт А., Орд Дж. К., Арнольд С. (1999), Расширенная теория статистики Кендалла: Том 2A - Классический вывод и линейная модель , шестое издание, §20.2–20.3 ( Арнольд ).
  3. ^ Коновер, WJ (1999), «Глава 3.4: Знаковый тест», Практическая непараметрическая статистика (третье издание), Wiley, стр. 157–176, ISBN 0-471-16068-7
  4. ^ Спрент, П. (1989), Прикладные непараметрические статистические методы (второе издание), Chapman & Hall, ISBN 0-412-44980-3

Общие ссылки [ править ]

  • Багдонавичюс, В., Круопис, Дж., Никулин, М.С. (2011). «Непараметрические тесты для полных данных», ISTE & WILEY: London & Hoboken. ISBN 978-1-84821-269-5 . 
  • Кордер, ГВт; Форман, Д.И. (2014). Непараметрическая статистика: пошаговый подход . Вайли. ISBN 978-1118840313.
  • Гиббонс, Джин Дикинсон ; Чакраборти, Субхабрата (2003). Непараметрический статистический вывод , 4-е изд. CRC Press. ISBN 0-8247-4052-1 . 
  • Hettmansperger, T. P .; Маккин, Дж. У. (1998). Робастные непараметрические статистические методы . Библиотека статистики Кендалла. 5 (Первое изд.). Лондон: Эдвард Арнольд . Нью-Йорк: Джон Вили и сыновья. ISBN 0-340-54937-8. Руководство по ремонту  1604954 .также ISBN 0-471-19479-4 . 
  • Холландер М., Вулф Д.А., Цыпленок Э. (2014). Непараметрические статистические методы , John Wiley & Sons.
  • Шескин, Дэвид Дж. (2003) Справочник по параметрическим и непараметрическим статистическим процедурам . CRC Press. ISBN 1-58488-440-1 
  • Вассерман, Ларри (2007). Вся непараметрическая статистика , Springer. ISBN 0-387-25145-6 .