Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Нахождение медианы в наборах данных с нечетным и четным числом значений

В статистике и теории вероятностей , то медианное этом значение , отделяя более высокую половину от нижней половины выборки данных , в популяции или распределения вероятности . Для набора данных это можно рассматривать как «среднее» значение. Основная особенность медианы при описании данных по сравнению со средним значением (часто описываемым просто как «среднее») заключается в том, что оно не искажается небольшой долей чрезвычайно больших или малых значений и, следовательно, обеспечивает лучшее представление «типичного» " ценить. Средний доходнапример, это может быть лучшим способом предположить, что такое «типичный» доход, потому что распределение доходов может быть очень асимметричным. Медиана имеет центральное значение в надежной статистике , поскольку она является наиболее устойчивой статистикой , имеющей точку разбивки 50%: пока не более половины данных загрязнены, медиана не является произвольно большим или малым результатом.

Конечный набор данных чисел [ править ]

Медиана конечного списка чисел - это «среднее» число, когда эти числа перечислены в порядке от наименьшего к наибольшему.

Если в наборе данных нечетное количество наблюдений, выбирается средний. Например, следующий список из семи чисел,

1, 3, 3, 6 , 7, 8, 9

имеет медиану 6 , что является четвертым значением.

В общем случае , для набора из элементов, это может быть записано как:

Набор из четного числа наблюдений не имеет отчетливого среднего значения, а медиана обычно определяется как среднее из двух средних значений. [1] [2] Например, набор данных

1, 2, 3, 4, 5 , 6, 8, 9

имеет медианное значение 4,5 , то есть . (В более технических терминах это интерпретирует медианное значение как полностью усеченный средний диапазон ). Согласно этому соглашению, медиана может быть определена следующим образом (для четного числа наблюдений):

Формальное определение [ править ]

Формально медиана совокупности - это любое значение, такое, что не более половины совокупности меньше предложенной медианы и не более половины больше предложенной медианы. Как видно выше, медианы не могут быть уникальными. Если каждый набор содержит менее половины генеральной совокупности, то некоторая часть совокупности точно равна уникальной медиане.

Медиана четко определена для любых упорядоченных (одномерных) данных и не зависит от какой-либо метрики расстояния . Таким образом, медиана может применяться к классам, которые ранжируются, но не числовыми (например, вычисление средней оценки, когда учащиеся получают оценку от A до F), хотя результат может быть посередине между классами, если число случаев четное.

С другой стороны, геометрическая медиана определяется в любом количестве измерений. Связанная концепция, в которой результат вынужден соответствовать члену выборки, - это медоид .

Там нет широко приняты стандартные обозначения для медианы, но некоторые авторы представляют медиана переменной х либо как х или как мкм 1/2 [1] иногда также M . [3] [4] В любом из этих случаев использование этих или других символов для медианы должно быть явно определено при их введении.

Медиана - это частный случай других способов суммирования типичных значений, связанных со статистическим распределением : это 2-й квартиль , 5-й дециль и 50-й процентиль .

Использует [ редактировать ]

Медиана может использоваться в качестве меры местоположения, когда крайним значениям придается меньшее значение, обычно потому, что распределение искажено , экстремальные значения неизвестны или выбросы не заслуживают доверия, т. Е. Могут быть ошибками измерения / транскрипции.

Например, рассмотрим мультимножество

1, 2, 2, 2, 3, 14.

В этом случае медиана равна 2 (как и режим ), и это можно рассматривать как лучшее указание на центр, чем среднее арифметическое 4, которое больше, чем все значения, кроме одного. Однако широко цитируемое эмпирическое соотношение, согласно которому среднее смещается «дальше в хвост» распределения, чем медиана, в целом неверно. В лучшем случае можно сказать, что эти две статистики не могут быть «слишком далеко» друг от друга; см. § Неравенство относительно средних и медиан ниже. [5]

Поскольку медиана основана на средних данных в наборе, нет необходимости знать значение экстремальных результатов для ее вычисления. Например, в психологическом тесте, изучающем время, необходимое для решения проблемы, если небольшое количество людей вообще не смогли решить проблему за заданное время, можно вычислить медианное значение. [6]

Поскольку медиана проста для понимания и расчета, а также является надежным приближением к среднему , медиана является популярной сводной статистикой в описательной статистике . В этом контексте существует несколько вариантов измерения вариабельности : диапазон , межквартильный размах , среднее абсолютное отклонение и среднее абсолютное отклонение .

Для практических целей различные меры местоположения и дисперсии часто сравниваются на основе того, насколько хорошо соответствующие значения совокупности могут быть оценены на основе выборки данных. Медиана, рассчитанная с использованием медианы выборки, имеет в этом отношении хорошие свойства. Хотя обычно предполагается, что данное распределение населения не является оптимальным, его свойства всегда достаточно хорошие. Например, сравнение эффективности потенциальных оценщиков показывает, что выборочное среднее более статистически эффективно, когда - и только когда - данные не загрязнены данными из распределений с тяжелыми хвостами или из смесей распределений. [ необходима цитата ] Даже в этом случае медиана имеет эффективность 64% по сравнению со средним значением с минимальной дисперсией (для больших нормальных выборок), то есть дисперсия медианы будет на ~ 50% больше, чем дисперсия среднего. [7] [8]

Распределения вероятностей [ править ]

Геометрическая визуализация режима, медианы и среднего значения произвольной функции плотности вероятности [9]

Для любого реального значного распределения вероятностей с кумулятивной функцией распределения  F , медиана определяются как любой действительное числом  т , удовлетворяющие неравенства

.

Эквивалентная формулировка использует случайную величину X, распределенную согласно F :

Обратите внимание, что это определение не требует, чтобы X имело абсолютно непрерывное распределение (которое имеет функцию плотности вероятности ƒ ), а также не требует дискретного распределения . В первом случае неравенства могут быть увеличены до равенства: медиана удовлетворяет

.

Любое распределение вероятностей на R имеет по меньшей мере одну медианы, но и в патологических случаях может быть более чем один медиана: если Р постоянна 1/2 на интервале (так что ƒ = 0), то любое значение этого интервала является медиана.

Медианы отдельных распределений [ править ]

Медианы некоторых типов распределений могут быть легко вычислены по их параметрам; более того, они существуют даже для некоторых распределений, в которых отсутствует четко определенное среднее значение, таких как распределение Коши :

  • Медиана симметричного унимодального распределения совпадает с модой.
  • Медиана симметричного распределения, которая имеет среднее значение μ, также принимает значение μ .
    • Медиана нормального распределения со средним значением μ и дисперсией σ 2 равна μ. Фактически, для нормального распределения среднее значение = медиана = мода.
    • Медиана равномерного распределения в интервале [ ab ] равна ( a  +  b ) / 2, что также является средним.
  • Медиана распределения Коши с параметром местоположения x 0 и параметром масштаба y равна  x 0 , параметру местоположения.
  • Медиана степенного распределения x - a с показателем a  > 1 равна 2 1 / ( a  - 1) x min , где x min - минимальное значение, для которого выполняется степенной закон [10]
  • Медиана экспоненциального распределения с параметром скорости λ - это натуральный логарифм 2, деленный на параметр скорости: λ −1 ln 2.
  • Медиана распределения Вейбулла с параметром формы k и параметром масштаба λ равна  λ (ln 2) 1 / k .

Популяции [ править ]

Свойство оптимальности [ править ]

Средняя абсолютная ошибка реального переменных с относительно случайной величины  X является

При условии , что распределение вероятностей X таково , что приведенное выше математическое ожидание существует, то т является медианой X тогда и только тогда , когда т является минимизантом средней абсолютной погрешности по отношению к X . [11] В частности, m является выборкой медианы тогда и только тогда, когда m минимизирует среднее арифметическое абсолютных отклонений. [12]

В более общем смысле медиана определяется как минимум

как описано ниже в разделе о многомерных медианах (в частности, о пространственной медиане ).

Это основанное на оптимизации определение медианы полезно при статистическом анализе данных, например, при кластеризации k- средних .

Неравенство, относящееся к средним и медианам [ править ]

Сравнение среднего , медианы и режима двух логнормальных распределений с разной асимметрией

Если распределение имеет конечную дисперсию, то расстояние между медианой и средним значением ограничено одним стандартным отклонением .

Эта оценка была доказана Мэллоусом [13], который дважды использовал неравенство Дженсена следующим образом. Использование | · | для абсолютного значения имеем

Первое и третье неравенства происходят из неравенства Дженсена, примененного к функции абсолютного значения и функции квадрата, каждая из которых является выпуклой. Второе неравенство возникает из-за того, что медиана минимизирует функцию абсолютного отклонения .

Доказательство Маллоуса можно обобщить и получить многомерную версию неравенства [14], просто заменив абсолютное значение нормой :

где m - пространственная медиана , то есть минимизатор функции . Пространственная медиана уникальна, когда размерность набора данных равна двум или более. [15] [16]

Альтернативное доказательство использует одностороннее неравенство Чебышева; это проявляется в неравенстве по параметрам расположения и масштаба . Эта формула также непосредственно следует из неравенства Кантелли . [17]

Унимодальные распределения [ править ]

В случае унимодальных распределений можно получить более точную оценку расстояния между медианой и средним значением:

. [18]

Аналогичная связь существует между медианой и модой:

Неравенство Дженсена для медиан [ править ]

Неравенство Йенсена утверждает, что для любой случайной величины X с конечным математическим ожиданием E [ X ] и для любой выпуклой функции f

Это неравенство распространяется и на медианное значение. Мы говорим, что функция F: ℝ → ℝ является функцией C , если для любого т ,

представляет собой замкнутый интервал (допускающий вырожденные случаи единственной точки или пустого множества ). Каждая функция C выпукла, но обратное неверно. Если f - C-функция, то

Если медианы не уникальны, утверждение верно для соответствующей супремы. [19]

Медианы для образцов [ править ]

Выборочная медиана [ править ]

Эффективное вычисление медианы выборки [ править ]

Несмотря на то, что для сравнения-сортировки n элементов требуется Ω ( n log n ) операций, алгоритмы выбора могут вычислить k- й наименьший из n элементов с помощью только Θ ( n ) операций. Сюда входит медиана, которая являетсяп/2статистика-го порядка (или для четного числа выборок среднее арифметическое двух статистик среднего порядка). [20]

Алгоритмы выбора по-прежнему имеют недостаток, заключающийся в том , что они требуют памяти Ω ( n ) , то есть они должны иметь в памяти полную выборку (или ее часть линейного размера). Поскольку это, а также линейное требование времени могут быть недопустимыми, было разработано несколько процедур оценки медианы. Простое правило - это правило трех элементов, которое оценивает медиану как медиану трехэлементной подвыборки; это обычно используется в качестве подпрограммы в алгоритме сортировки быстрой сортировки, который использует оценку медианы входных данных. Более надежные оценки является Тьюки «ы ninther , что средний из трех правило применяется с ограниченной рекурсии: [21] , если- это образец, представленный в виде массива , и

med3 ( A ) = медиана ( A [1], A [п/2], A [ n ]) ,

тогда

ninther ( A ) = med3 (med3 ( A [1 ...1/3n ]), med3 ( A [1/3п ...2/3n ]), med3 ( A [2/3п ... п ]))

Средство исправления - это средство оценки медианы, которое требует линейного времени, но сублинейной памяти, работающей за один проход по выборке. [22]

Распределение выборки [ править ]

Распределение как выборочного среднего, так и выборочного медианы было определено Лапласом . [23] Распределение медианы выборки из совокупности с функцией плотности асимптотически нормальное со средним значением и дисперсией [24]

где - медиана, а - размер выборки. Современное доказательство следует ниже. Результат Лапласа теперь понимается как частный случай асимптотического распределения произвольных квантилей .

Для нормальных выборок плотность равна , поэтому для больших выборок дисперсия медианы равна [7] (см. Также раздел №Эффективность ниже).

Вывод асимптотического распределения [ править ]

Мы считаем размер выборки нечетным числом и предполагаем, что наша переменная непрерывна; формула для случая дискретных переменных приведена ниже в разделе «Эмпирическая локальная плотность» . Выборку можно резюмировать как «ниже медианы», «на медиане» и «выше медианы», что соответствует трехчлену распределения с вероятностями , и . Для непрерывной переменной вероятность того, что несколько значений выборки будут точно равны медиане, равна 0, поэтому можно вычислить плотность в точке непосредственно из трехчленного распределения:

.

Теперь мы вводим бета-функцию. Для целочисленных аргументов и это можно выразить как . Также помните об этом . Использование этих отношений и установка обоих и равных позволяет последнему выражению записываться как

Следовательно, функция плотности медианы является симметричным бета - распределение выдвигается вперед с помощью . Его среднее значение, как и следовало ожидать, составляет 0,5, а его дисперсия - . Согласно цепному правилу , соответствующая дисперсия медианы выборки равна

.

Дополнительные 2 незначительны в пределе .

Эмпирическая местная плотность [ править ]

На практике функции и часто не известны или не предполагаются. Однако их можно оценить по наблюдаемому частотному распределению. В этом разделе мы приводим пример. Рассмотрим следующую таблицу, представляющую выборку из 3800 (дискретных) наблюдений:

Поскольку наблюдения имеют дискретные значения, построение точного распределения медианы не является непосредственным переводом приведенного выше выражения для ; можно (и обычно имеет) несколько экземпляров медианы в одной выборке. Итак, мы должны суммировать все эти возможности:

Здесь i - количество точек строго меньше медианы, а k - количество строго большее.

Используя эти предварительные сведения, можно исследовать влияние размера выборки на стандартные ошибки среднего и медианы. Наблюдаемое среднее значение составляет 3,16, наблюдаемая необработанная медиана - 3, а наблюдаемая интерполированная медиана - 3,174. Следующая таблица дает некоторую статистику сравнения.

Ожидаемое значение медианы немного уменьшается по мере увеличения размера выборки, в то время как, как и следовало ожидать, стандартные ошибки медианы и среднего пропорциональны обратному квадратному корню из размера выборки. Асимптотическое приближение проявляет осторожность из-за переоценки стандартной ошибки.

Оценка отклонения от выборочных данных [ править ]

Значение - асимптотическое значение, где - медиана совокупности - изучалось несколькими авторами. Стандартный метод складного ножа «удалить один» дает противоречивые результаты. [25] Альтернатива - метод «удалить k», где растет с размером выборки, оказалась асимптотически согласованной. [26] Этот метод может быть дорогостоящим для больших наборов данных. Оценку начальной загрузки , как известно, быть последовательным, [27] , но сходится очень медленно ( порядок из ). [28] Были предложены другие методы, но их поведение может отличаться для больших и малых выборок. [29]

Эффективность[ редактировать ]

Эффективность образца медианы, измеренная как отношение дисперсии к средней дисперсии медианы, зависит от размера образца и от основного распределения населения. Для выборки размера из нормального распределения эффективность для больших N равна

Эффективность стремится к , как стремится к бесконечности.

Другими словами, относительная дисперсия медианы будет , или 57% больше , чем дисперсия средняя - относительная стандартная ошибка медианы будет , или на 25% больше , чем стандартная ошибка средней , (смотри также раздел # Распределение выборки выше.). [30]

Другие оценщики [ править ]

Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса – Лемана является надежной и высокоэффективной оценкой медианы совокупности. [31]

Если данные представлены статистической моделью, определяющей конкретное семейство распределений вероятностей , то оценки медианы могут быть получены путем подгонки этого семейства распределений вероятностей к данным и вычисления теоретической медианы подобранного распределения. [ необходимая цитата ] Интерполяция Парето является применением этого, когда предполагается, что совокупность имеет распределение Парето .

Многомерная медиана [ править ]

Ранее в этой статье обсуждалась одномерная медиана, когда выборка или совокупность были одномерными. Когда размерность равна двум или выше, существует несколько концепций, расширяющих определение одномерной медианы; каждая такая многомерная медиана согласуется с одномерной медианной, когда размерность ровно одна. [31] [32] [33] [34]

Маргинальная медиана [ править ]

Маргинальная медиана определяется для векторов, определенных относительно фиксированного набора координат. Маргинальная медиана определяется как вектор, компоненты которого являются одномерными медианами. Маргинальную медиану легко вычислить, и ее свойства были изучены Пури и Сеном [31] [35].

Геометрическая медиана [ править ]

Геометрическая медианный дискретного множества точек выборки в евклидовом пространстве есть [а] точка минимизации суммы расстояний до точек выборки.

В отличие от маргинальной медианы, геометрическая медиана эквивариантна по отношению к преобразованиям евклидова подобия, таким как смещения и вращения .

Центральная точка [ править ]

Альтернативным обобщением медианы в более высоких измерениях является центральная точка .

Другие концепции, связанные с медианными [ править ]

Интерполированная медиана [ править ]

При работе с дискретной переменной иногда полезно рассматривать наблюдаемые значения как средние точки лежащих в основе непрерывных интервалов. Примером этого является шкала Лайкерта, по которой мнения или предпочтения выражаются по шкале с заданным количеством возможных ответов. Если шкала состоит из положительных целых чисел, наблюдение 3 можно рассматривать как интервал от 2,50 до 3,50. Можно оценить медианное значение базовой переменной. Если, скажем, 22% наблюдений имеют значение 2 или ниже, а 55,0% имеют значение 3 или ниже (поэтому 33% имеют значение 3), то медиана равна 3, поскольку медиана - это наименьшее значение, для которого больше чем половина. Но интерполированная медиана находится где-то между 2,50 и 3,50. Сначала добавляем половину ширины интервалак медиане, чтобы получить верхнюю границу медианного интервала. Затем мы вычитаем ту долю ширины интервала, которая равна доле 33%, лежащих выше отметки 50%. Другими словами, мы делим ширину интервала пропорционально количеству наблюдений. В этом случае 33% делятся на 28% ниже медианы и 5% выше нее, поэтому мы вычитаем 5/33 ширины интервала из верхней границы 3,50, чтобы получить интерполированное медианное значение 3,35. Более формально, если значения известны, интерполированная медиана может быть вычислена из

В качестве альтернативы, если в наблюдаемой выборке есть баллы выше средней категории, баллы в ней и баллы ниже нее, то интерполированная медиана определяется как

Псевдо-медиана [ править ]

Для одномерных распределений, симметричных относительно одной медианы, оценка Ходжеса – Лемана является надежной и высокоэффективной оценкой медианы совокупности; для несимметричных распределений оценка Ходжеса – Лемана является надежной и высокоэффективной оценкой псевдомедианы совокупности , которая является медианой симметризованного распределения и близка к медиане совокупности. [37] Оценка Ходжеса – Лемана была обобщена на многомерные распределения. [38]

Варианты регресса [ править ]

Оценка Тейла – Сена - это метод надежной линейной регрессии, основанный на нахождении медиан наклонов . [39]

Медианный фильтр [ править ]

В контексте обработки изображений в черно - белых растровых изображениях существует тип шума, известный как соль и перец шум , когда каждый пиксель независимо друг от друга , становится черным (с некоторой малой вероятностью) или белым (с некоторой малой вероятностью), и не изменяется в противном случае (с вероятностью, близкой к 1). Изображение, построенное из средних значений окрестностей (например, квадрат 3 × 3), может в этом случае эффективно уменьшить шум . [ необходима цитата ]

Кластерный анализ [ править ]

В кластерном анализе , что к-медианы кластеризации алгоритма обеспечивает способ определения кластеров, в которых критерий максимального расстояния между кластерными-средствами , который используется в K-средних кластеризации , заменяется максимизация расстояния между кластерной-медианами.

Срединная – срединная линия [ править ]

Это метод надежной регрессии. Идея восходит к Уолду в 1940 году, который предложил разделить набор двумерных данных на две половины в зависимости от значения независимого параметра : левая половина со значениями меньше медианы и правая половина со значениями больше медианы. [40] Он предложил использовать средние значения зависимых и независимых переменных левой и правой половин и оценить наклон линии, соединяющей эти две точки. Затем линию можно было бы скорректировать, чтобы она соответствовала большинству точек в наборе данных.

Наир и Шривастава в 1942 г. предложили аналогичную идею, но вместо этого выступили за разделение выборки на три равные части перед вычислением средних значений подвыборок. [41] Браун и Муд в 1951 г. предложили идею использования медиан двух подвыборок, а не средних. [42] Тьюки объединил эти идеи и рекомендовал разделить выборку на три подвыборки равного размера и оценить линию на основе медиан подвыборок. [43]

Средне-несмещенные оценки [ править ]

Любой средний -unbiased оценщик минимизирует риск ( ожидаемый убыток ) по отношению к квадратным ошибкам функции потерь , как заметил Гаусс . Медианный -unbiased оценка сводит к минимуму риска по отношению к абсолютному отклонению функции потерь, а наблюдаемая Лаплас . Другие функции потерь используются в статистической теории , особенно в надежной статистике .

Теория несмещенных оценок по медиане была возрождена Джорджем Брауном в 1947 г .: [44]

Оценка одномерного параметра θ будет называться несмещенной по медиане, если для фиксированного θ медиана распределения оценки находится на значении θ; то есть оценка занижается так же часто, как и завышается. Для большинства целей это требование выполняет столько же, сколько и требование несмещенного среднего, и обладает дополнительным свойством, состоящим в том, что оно инвариантно относительно однозначного преобразования.

-  стр. 584

Сообщалось о других свойствах средне-несмещенных оценок. [45] [46] [47] [48] Несмещенные по медиане оценки инвариантны относительно однозначных преобразований .

Существуют методы построения оптимальных оценок без смещения по медиане (в некотором смысле аналогичные свойству минимальной дисперсии для оценок с несмещенным средним). Такие конструкции существуют для распределений вероятностей, имеющих монотонные функции правдоподобия . [49] [50] Одна такая процедура является аналогом процедуры Рао – Блэквелла для несмещенных оценок: процедура выполняется для меньшего класса вероятностных распределений, чем процедура Рао – Блэквелла, но для большего класса функций потерь . [51]

История [ править ]

Научные исследователи на древнем Ближнем Востоке, похоже, не использовали сводную статистику полностью, вместо этого выбирая значения, которые предлагали максимальную согласованность с более широкой теорией, объединяющей широкий спектр явлений. [52] В средиземноморском (а позднее и европейском) научном сообществе статистика, как и среднее значение, по сути, является развитием средневековья и раннего Нового времени. (История медианы за пределами Европы и ее предшественников остается относительно неизученной.)

Идея медианы возникла в 13 веке в Талмуде , чтобы объективно проанализировать расходящиеся оценки . [53] [54] Однако эта концепция не распространилась на более широкое научное сообщество.

Вместо этого ближайшим предком современной медианы является средний диапазон , изобретенный Аль-Бируни . [55] : 31 [56] Передача работ Аль-Бируни более поздним ученым неясна. Аль-Бируни применил свою технику для анализа металлов, но после того, как он опубликовал свою работу, большинство аналитиков по-прежнему принимали самые неблагоприятные значения своих результатов, чтобы не показалось, что они обманывают . [55] : 35–8 Однако усиление судоходства в море в Эпоху Великих географических открытийозначало, что судоводителям все чаще приходилось пытаться определять широту в неблагоприятную погоду против враждебных берегов, что привело к возобновлению интереса к сводной статистике. Независимо от того, открыт ли он заново или изобретен независимо, он рекомендован мореплавателям в «Инструкциях к путешествию Рэли в Гвиану, 1595». [55] : 45–8

Идея медианы, возможно, впервые появилась в книге Эдварда Райта 1599 года « Определенные ошибки в навигации» в разделе о навигации по компасу . Райт не хотел отказываться от измеренных значений и, возможно, считал, что медиана, включающая большую часть набора данных, чем средний диапазон, с большей вероятностью будет правильной. Однако Райт не привел примеров использования своей техники, что затрудняет проверку того, что он описал современное понятие медианы. [52] [56] [b] Медиана (в контексте вероятности), безусловно, фигурирует в переписке Христиана Гюйгенса , но как пример статистики, не подходящей дляактуарная практика . [52]

Самая ранняя рекомендация медианы датируется 1757 годом, когда Роджер Джозеф Боскович разработал метод регрессии, основанный на норме L 1 и, следовательно, неявно на медиане. [52] [57] В 1774 году Лаплас ясно выразил это желание: он предложил использовать медиану в качестве стандартной оценки значения апостериорной PDF . Конкретный критерий заключался в минимизации ожидаемой величины ошибки; где - оценка, а - истинное значение. С этой целью Лаплас определил распределения как выборочного среднего, так и выборочного медианного в начале 1800-х годов. [23] [58] Однако десять лет спустяГаусс и Лежандр разработали метод наименьших квадратов , который сводит к минимуму для получения среднего. В контексте регрессии инновация Гаусса и Лежандра предлагает гораздо более простые вычисления. Следовательно, предложение Лапласа обычно отклонялось до появления вычислительных устройств 150 лет спустя (и до сих пор это относительно необычный алгоритм). [59]

Антуан Огюстен Курно в 1843 г. был первым [60], кто использовал термин « медиана» ( valeur médiane ) для значения, которое делит распределение вероятностей на две равные половины. Густав Теодор Фехнер использовал медианное значение ( Centralwerth ) в социологических и психологических явлениях. [61] Ранее он использовался только в астрономии и смежных областях. Густав Фехнер популяризировал медиану в формальном анализе данных, хотя ранее она использовалась Лапласом [61], а медиана появилась в учебнике Ф. Я. Эджворта . [62] Фрэнсис Гальтон использовал английский терминмедиана в 1881 г. [63] [64] ранее использовала термины « среднее значение» в 1869 г. и « среднее значение» в 1880 г. [65] [66]

Статистики активно поощряли использование медиан на протяжении всего XIX века из-за их интуитивной ясности и простоты вычислений вручную. Однако понятие медианы не поддается теории высших моментов, в отличие от среднего арифметического , и его гораздо труднее вычислить на компьютере. В результате в течение 20 века медиана неуклонно вытеснялась как понятие общего среднего средним арифметическим. [52] [56]

См. Также [ править ]

  • Медоиды, которые являются обобщением медианы в более высоких измерениях
  • Основная тенденция
    • Иметь в виду
    • Режим
  • Абсолютное отклонение
  • Смещение оценщика
  • Концентрация меры для липшицевых
  • Медиана (геометрия)
  • Медианный график
  • Медианный поиск
  • Средний наклон
  • Теория медианного избирателя
  • Взвешенная медиана
  • Медиана медианы : алгоритм вычисления приблизительной медианы за линейное время

Примечания [ править ]

  1. ^ Геометрическая медиана уникальна, если образец не коллинеарен. [36]
  2. ^ Последующие исследователи, похоже, соглашаются с Эйзенхартом в том, что цифры 1580 г. Боро, наводящие на размышления о медиане, на самом деле описывают среднее арифметическое; [55] : 62–3 «Районы» не упоминаются ни в одной другой работе.

Ссылки [ править ]

  1. ^ а б Вайсштейн, Эрик В. «Статистическая медиана» . MathWorld .
  2. ^ Саймон, Лаура Дж .; «Описательная статистика». Архивировано 30 июля2010 г. в Wayback Machine , Комплект ресурсов для статистического образования , Статистический департамент штата Пенсильвания.
  3. ^ David J. Шескин (27 августа 2003). Справочник по параметрическим и непараметрическим статистическим процедурам: третье издание . CRC Press. С. 7–. ISBN 978-1-4200-3626-8. Проверено 25 февраля 2013 года .
  4. ^ Дерек Бисселл (1994). Статистические методы для Spc и Tqm . CRC Press. С. 26–. ISBN 978-0-412-39440-9. Проверено 25 февраля 2013 года .
  5. ^ "Журнал статистического образования, v13n2: Пол Т. фон Хиппель" . amstat.org .
  6. ^ Робсон, Колин (1994). Эксперимент, дизайн и статистика в психологии . Пингвин. С. 42–45. ISBN 0-14-017648-9.
  7. ^ a b Уильямс, Д. (2001). Взвешивая шансы . Издательство Кембриджского университета. п. 165 . ISBN 052100618X.
  8. ^ Майндональд, Джон; Браун, У. Джон (06.05.2010). Анализ данных и графики с использованием R: подход на основе примеров . Издательство Кембриджского университета. п. 104. ISBN 978-1-139-48667-5.
  9. ^ «Обзор статистики AP - кривые плотности и нормальные распределения» . Архивировано из оригинала 8 апреля 2015 года . Проверено 16 марта 2015 года .
  10. ^ Ньюман, Марк EJ. «Степенные законы, распределения Парето и закон Ципфа». Современная физика 46.5 (2005): 323–351.
  11. ^ Струк, Daniel (2011). Теория вероятностей . Издательство Кембриджского университета. С.  43 . ISBN 978-0-521-13250-3.
  12. ^ Андре Николя ( https://math.stackexchange.com/users/6312/andr%c3%a9-nicolas ), Медиана минимизирует сумму абсолютных отклонений (норма $ {L} _ {1} $), URL (версия: 25.02.2012): https://math.stackexchange.com/q/113336
  13. ^ Мальва, Колин (август 1991). «Еще один комментарий к О'Синнейде». Американский статистик . 45 (3): 257. DOI : 10,1080 / 00031305.1991.10475815 .
  14. ^ Piché, Роберт (2012). Случайные векторы и случайные последовательности . Lambert Academic Publishing. ISBN 978-3659211966.
  15. ^ Kemperman, Johannes HB (1987). Додж, Ядола (ред.). «Медиана конечной меры в банаховом пространстве: статистический анализ данных на основе L1-нормы и связанных методов». Документы из первой международной конференции , состоявшейся в Невшатель, 31 августа-4 сентября 1987 года . Амстердам: Издательство Северной Голландии: 217–230. Руководство по ремонту 0949228 . 
  16. ^ Милашевич, Филипп; Дюшарм, Жиль Р. (1987). «Уникальность пространственной медианы» . Анналы статистики . 15 (3): 1332–1333. DOI : 10.1214 / AOS / 1176350511 . Руководство по ремонту 0902264 . 
  17. ^ К. Ван Стин Заметки о вероятности и статистике
  18. ^ Басу, S .; Дасгупта, А. (1997). «Среднее, медианное и режим одномодальных распределений: характеристика». Теория вероятностей и ее приложения . 41 (2): 210–223. DOI : 10.1137 / S0040585X97975447 . S2CID 54593178 . 
  19. Перейти ↑ Merkle, M. (2005). «Неравенство Дженсена для медиан». Статистические и вероятностные письма . 71 (3): 277–281. DOI : 10.1016 / j.spl.2004.11.010 .
  20. ^ Альфред В. Ахо и Джон Э. Хопкрофт и Джеффри Д. Ульман (1974). Дизайн и анализ компьютерных алгоритмов . Ридинг / МА: Эддисон-Уэсли. ISBN 0-201-00029-6. Здесь: Раздел 3.6 «Статистика заказов», стр.97-99, в частности алгоритм 3.6 и теорема 3.9.
  21. ^ Бентли, Джон Л .; Макилрой, М. Дуглас (1993). «Разработка функции сортировки» . Программное обеспечение - практика и опыт . 23 (11): 1249–1265. DOI : 10.1002 / spe.4380231105 . S2CID 8822797 . 
  22. ^ Rousseeuw, Питер Дж .; Бассетт, Гилберт В. младший (1990). «Средство исправления: надежный метод усреднения для больших наборов данных» (PDF) . J. Amer. Статист. Доц . 85 (409): 97–104. DOI : 10.1080 / 01621459.1990.10475311 .
  23. ^ a b Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. DOI : 10.1093 / Biomet / 60.3.439 . JSTOR 2334992 . Руководство по ремонту 0326872 .  
  24. ^ Райдер, Пол Р. (1960). «Дисперсия медианы малых выборок из нескольких особых популяций». J. Amer. Статист. Доц. 55 (289): 148–150. DOI : 10.1080 / 01621459.1960.10482056 .
  25. Перейти ↑ Efron, B. (1982). Jackknife, Bootstrap и другие планы передискретизации . Филадельфия: СИАМ. ISBN 0898711797.
  26. ^ Shao, J .; Ву, CF (1989). «Общая теория для оценки дисперсии складного ножа» . Анна. Стат. 17 (3): 1176–1197. DOI : 10.1214 / AOS / 1176347263 . JSTOR 2241717 .  
  27. Перейти ↑ Efron, B. (1979). «Методы начальной загрузки: новый взгляд на складной нож» . Анна. Стат. 7 (1): 1-26. DOI : 10.1214 / aos / 1176344552 . JSTOR 2958830 .  
  28. ^ Холл, P .; Мартин, Массачусетс (1988). «Точная скорость сходимости оценки отклонения квантиля начальной загрузки». Области, связанные с теорией вероятностей . 80 (2): 261–268. DOI : 10.1007 / BF00356105 . S2CID 119701556 . 
  29. ^ Хименес-Гамеро, доктор медицины; Munoz-García, J .; Пино-Мехиас, Р. (2004). «Уменьшенный бутстрап для медианы» . Statistica Sinica . 14 (4): 1179–1198.
  30. ^ Майндональд, Джон; Джон Браун, В. (06.05.2010). Анализ данных и графики с использованием R: подход на основе примеров . ISBN 9781139486675.
  31. ^ a b c Hettmansperger, Thomas P .; Маккин, Джозеф В. (1998). Робастные непараметрические статистические методы . Библиотека статистики Кендалла. 5 . Лондон: Эдвард Арнольд. ISBN 0-340-54937-8. Руководство по ремонту  1604954 .
  32. ^ Смолл, Кристофер Г. "Обзор многомерных медиан". Международный статистический обзор / Revue Internationale de Statistique (1990): 263–277. DOI : 10,2307 / 1403809 JSTOR  1403809
  33. ^ Niinimaa, А. и Г. Ой. «Многомерная медиана». Энциклопедия статистических наук (1999).
  34. ^ Мослер, Карл. Многомерная дисперсия, центральные области и глубина: подход зоноида подъемной силы. Vol. 165. Springer Science & Business Media, 2012.
  35. ^ Пури, Мадан Л .; Sen, Pranab K .; Непараметрические методы в многомерном анализе , John Wiley & Sons, New York, NY, 197l. (Перепечатано издательством Krieger Publishing)
  36. ^ Варди, Иегуда; Чжан, Цунь-Хуэй (2000). «Многомерный L 1 -средний и соответствующая глубина данных» . Труды Национальной академии наук Соединенных Штатов Америки . 97 (4): 1423–1426 (электронный). Bibcode : 2000PNAS ... 97.1423V . DOI : 10.1073 / pnas.97.4.1423 . Руководство по ремонту 1740461 . PMC 26449 . PMID 10677477 .   
  37. ^ Пратт, Уильям К .; Купер, Тед Дж .; Кабир, Ихтишам (11 июля 1985 г.). Корбетт, Фрэнсис Дж (ред.). «Псевдомедианный фильтр». Архитектуры и алгоритмы обработки цифровых изображений II . 0534 : 34. Bibcode : 1985SPIE..534 ... 34P . DOI : 10.1117 / 12.946562 . S2CID 173183609 . 
  38. ^ Ой, Ханна (2010). Многомерные непараметрические методы с  R : подход, основанный на пространственных знаках и рангах . Конспект лекций по статистике. 199 . Нью-Йорк, штат Нью-Йорк: Спрингер. С. xiv + 232. DOI : 10.1007 / 978-1-4419-0468-3 . ISBN 978-1-4419-0467-6. Руководство по ремонту  2598854 .
  39. ^ Wilcox, Rand R. (2001), " Оценка Тейла – Сена", Основы современных статистических методов: значительное повышение мощности и точности , Springer-Verlag, стр. 207–210, ISBN 978-0-387-95157-7.
  40. Перейти ↑ Wald, A. (1940). «Подбор прямых линий, если обе переменные подвержены ошибке» (PDF) . Анналы математической статистики . 11 (3): 282–300. DOI : 10.1214 / АОМ / 1177731868 . JSTOR 2235677 .  
  41. ^ Наир, КР; Шривастава, депутат (1942). «О простом методе аппроксимации кривой». Санкхья: Индийский статистический журнал . 6 (2): 121–132. JSTOR 25047749 . 
  42. ^ Браун, GW; Настроение, AM (1951). «О медианных тестах для линейных гипотез». Proc. Второй симпозиум в Беркли по математической статистике и теории вероятностей . Беркли, Калифорния: Калифорнийский университет Press. С. 159–166. Zbl 0045.08606 . 
  43. ^ Тьюки, JW (1977). Исследовательский анализ данных . Ридинг, Массачусетс: Эддисон-Уэсли. ISBN 0201076160.
  44. ^ Браун, Джордж У. (1947). «Об оценке по малой выборке» . Анналы математической статистики . 18 (4): 582–585. DOI : 10.1214 / АОМ / 1177730349 . JSTOR 2236236 . 
  45. ^ Леманн, Эрих Л. (1951). «Общее понятие беспристрастности» . Анналы математической статистики . 22 (4): 587–592. DOI : 10.1214 / АОМ / 1177729549 . JSTOR 2236928 . 
  46. ^ Бирнбаум, Аллан (1961). «Единая теория оценки, I» . Анналы математической статистики . 32 (1): 112–135. DOI : 10.1214 / АОМ / 1177705145 . JSTOR 2237612 . 
  47. ^ ван дер Ваарт, Х. Роберт (1961). «Некоторые расширения идеи предвзятости» . Анналы математической статистики . 32 (2): 436–447. DOI : 10.1214 / АОМ / 1177705051 . JSTOR 2237754 . Руководство по ремонту 0125674 .  
  48. ^ Pfanzagl, Johann; при содействии Р. Хамбёкера (1994). Параметрическая статистическая теория . Вальтер де Грюйтер. ISBN 3-11-013863-8. Руководство по ремонту  1291393 .
  49. ^ Pfanzagl, Иоганн. «Об оптимальных медианных несмещенных оценках при наличии мешающих параметров». Анналы статистики (1979): 187–193.
  50. ^ Браун, LD; Коэн, Артур; Strawderman, WE (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Анна. Статист . 4 (4): 712–722. DOI : 10.1214 / AOS / 1176343543 .
  51. ^ Страница; Браун, LD; Коэн, Артур; Strawderman, WE (1976). «Теорема о полном классе для строгого монотонного отношения правдоподобия с приложениями» . Анна. Статист . 4 (4): 712–722. DOI : 10.1214 / AOS / 1176343543 .
  52. ^ a b c d e Баккер, Артур; Гравемейер, Koeno PE (01.06.2006). «Историческая феноменология среднего и медианы». Образовательные исследования по математике . 62 (2): 149–168. DOI : 10.1007 / s10649-006-7099-8 . ISSN 1573-0816 . S2CID 143708116 .  
  53. Адлер, Дэн (31 декабря 2014 г.). «Талмуд и современная экономика» . Еврейские, американские и израильские проблемы . Архивировано из оригинала на 6 декабря 2015 года . Проверено 22 февраля 2020 .
  54. ^ Современная экономическая теория в Талмуде по Исраэлю Ауманного
  55. ^ a b c d Эйзенхарт, Черчилль (24 августа 1971 г.). Разработка концепции наилучшего среднего набора измерений от древности до наших дней (PDF) (Speech). 131-е ежегодное собрание Американской статистической ассоциации. Государственный университет Колорадо.
  56. ^ a b c «Как среднее превзошло медианное» . Прайсономика . Проверено 23 февраля 2020 .
  57. ^ Стиглер, SM (1986). История статистики: измерение неопределенности до 1900 года . Издательство Гарвардского университета. ISBN 0674403401.
  58. Laplace PS de (1818) Deuxième Supplément à la Théorie Analytique des Probabilités , Париж, Courcier
  59. Перейти ↑ Jaynes, ET (2007). Теория вероятностей: логика науки (5. печат. Изд.). Кембридж [ua]: Cambridge Univ. Нажмите. п. 172. ISBN. 978-0-521-59271-0.
  60. ^ Ховарт, Ричард (2017). Словарь математических наук о Земле: с историческими примечаниями . Springer. п. 374.
  61. ^ a b Кейнс, JM (1921) Трактат о вероятности . Часть II, глава XVII §5 (стр. 201) (перепечатка 2006 г., Cosimo Classics, ISBN 9781596055308  : несколько других репринтов) 
  62. ^ Стиглер, Стивен М. (2002). Статистика на столе: История статистических концепций и методов . Издательство Гарвардского университета. С. 105–7. ISBN 978-0-674-00979-0.
  63. Galton F (1881) «Отчет Антропометрического комитета», стр. 245–260. Отчет 51-го заседания Британской ассоциации содействия развитию науки
  64. ^ Дэвид, HA (1995). «Первое (?) Появление общих терминов в математической статистике». Американский статистик . 49 (2): 121–133. DOI : 10.2307 / 2684625 . ISSN 0003-1305 . JSTOR 2684625 .  
  65. ^ encyclopediaofmath.org
  66. ^ personal.psu.edu

Внешние ссылки [ править ]

  • «Медиана (в статистике)» , Энциклопедия математики , EMS Press , 2001 [1994]
  • Медиана как средневзвешенное арифметическое всех наблюдений выборки
  • Он-лайн калькулятор
  • Расчет медианы
  • Проблема, связанная со средним значением, медианой и модой.
  • Вайсштейн, Эрик В. «Статистическая медиана» . MathWorld .
  • Скрипт Python для вычисления медианы и показателей неравенства доходов
  • Быстрое вычисление медианы путем последовательного биннинга
  • «Среднее, медиана, мода и асимметрия» , учебное пособие, разработанное для студентов первого курса психологии Оксфордского университета на основе рабочего примера.
  • Сложная математическая задача SAT Даже совет колледжа ошибся : Эндрю Дэниэлс в Popular Mechanics

Эта статья включает в себя материалы из Median дистрибутива на PlanetMath , который находится под лицензией Creative Commons Attribution / Share-Alike License .