Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Верхняя диаграмма показывает список элементов со значениями, обозначенными высотой, и средним элементом, показанным красным. На нижнем графике показаны те же элементы с весами, обозначенными шириной прямоугольников. Взвешенная медиана показана красным цветом и отличается от обычной медианы.

В статистике , А взвешенная медиана выборки составляет 50% взвешенный процентиль . [1] [2] [3] Впервые он был предложен Ф. Я. Эджвортом в 1888 году. [4] [5] Как и медиана, он полезен в качестве оценки центральной тенденции , устойчивой к выбросам . Это позволяет использовать неоднородные статистические веса, связанные, например, с изменяющейся точностью измерений в выборке.

Определение [ править ]

Общий случай [ править ]

Для различных упорядоченных элементов с положительными весами, таких что взвешенная медиана - это элемент, удовлетворяющий

и

Особый случай [ править ]

Рассмотрим набор элементов, два из которых удовлетворяют общему случаю. Это происходит, когда соответствующие веса обоих элементов ограничивают среднюю точку набора весов, не инкапсулируя его; Скорее, каждый элемент определяет раздел, равный . Эти элементы называются нижней взвешенной медианной и верхней взвешенной медианой. Их условия выполняются следующим образом:

Нижняя взвешенная медиана

и

Верхняя взвешенная медиана

и

В идеале новый элемент должен быть создан с использованием среднего верхнего и нижнего взвешенных медиан и ему будет назначен нулевой вес. Этот метод аналогичен поиску медианы четного множества. Новый элемент будет истинной медианой, поскольку сумма весов по обе стороны от этой точки разделения будет равной.
В зависимости от приложения создание новых данных может оказаться невозможным или нецелесообразным. В этом случае взвешенная медиана должна быть выбрана на основе того, какой элемент поддерживает наиболее равные разделы. Это всегда будет взвешенная медиана с наименьшим весом.
В случае, если верхняя и нижняя взвешенные медианы равны, обычно принимается нижняя взвешенная медиана, как первоначально было предложено Эджвортом. [6]

Свойства [ править ]

Сумма весов в каждой из двух перегородок должна быть по возможности равной.

Если веса всех чисел в наборе равны, то взвешенная медиана уменьшается до медианы .

Примеры [ править ]

Для простоты рассмотрим набор чисел, каждое из которых имеет веса соответственно. Медиана равна 3, а взвешенная медиана - это элемент, соответствующий весу 0,3, который равен 4. Веса на каждой стороне оси в сумме составляют 0,45 и 0,25, удовлетворяя общему условию, что каждая сторона должна быть как можно более ровной. Любой другой вес приведет к большей разнице между каждой стороной оси поворота.

Рассмотрим набор чисел, каждое из которых имеет одинаковый вес соответственно. Равные веса должны приводить к взвешенной медиане, равной медиане. Эта медиана равна 2,5, так как это четное множество. Нижняя взвешенная медиана равна 2 при суммах разбиения 0,25 и 0,5, а верхняя взвешенная медиана равна 3 при суммах разбиения 0,5 и 0,25. Каждое из этих разбиений удовлетворяет своему специальному и общему условию. Идеально ввести новую опорную точку, взяв среднее значение верхней и нижней взвешенных медиан, если они существуют. При этом набор чисел состоит из каждого числа, имеющего веса соответственно. Это создает разделы, сумма которых равна 0,5. Легко видеть, что взвешенная медиана и медиана одинаковы для любого набора размеров с равными весами.

Аналогичным образом рассмотрим набор чисел, каждое из которых имеет веса соответственно. Нижняя взвешенная медиана равна 2 при суммах разделения 0,49 и 0,5, а верхняя взвешенная медиана равна 3 при суммах разделения 0,5 и 0,25. В случае работы с целыми числами или неинтервальными мерами будет принята более низкая взвешенная медиана, поскольку это меньший вес пары и, следовательно, разбиения остаются наиболее равными. Однако, когда это имеет смысл, лучше брать среднее значение этих взвешенных медиан. По совпадению, и взвешенная медиана, и медиана равны 2,5, но это не всегда верно для больших наборов в зависимости от распределения веса.

Алгоритм [ править ]

Средневзвешенная медиана может быть вычислена путем сортировки набора чисел и нахождения наименьших чисел, которые в сумме составляют половину общего веса. Этот алгоритм требует времени. Есть лучший подход к нахождению взвешенной медианы с использованием модифицированного алгоритма выбора. [1]

// Главный вызов - это WeightedMedian (a, 1, n) // Возвращает более низкую медианную WeightedMedian ( a [ 1 .. n ] ,  p ,  r )  // Базовый случай для одного элемента,  если  r  =  p,  то  возвращает  a [ p ]  / / Базовый случай для двух элементов  // Убедитесь, что мы возвращаем среднее значение, в случае, если два кандидата имеют равный вес,  если  r - p  =  1,  то  если  a [ p ] . ш  ==  а [г ] . w  return  ( a [ p ]  +  a [ r ]) / 2,  если  a [ p ] . ш  >  а [ г ] . w  return  a [ p ]  else  return  a [ r ]  // Разделение вокруг оси r  q  =  partition ( a ,  p ,  r )  wl ,  wg  = сумма  весов  из  разделов  ( р ,  Q - 1 ) ,  ( д + 1 ,  г )  // Если разделы сбалансированы , то мы сделали ,  если  з.д.  и  Wg  и  <  1 / 2 ,  то  вернуться  к [ д ]  еще  // Увеличение веса поворота по размеру разбиения исключаем,  если  wl  >  wg,  то  a [ q ] . w  + =  wg // Рекурсия на pivot включительно  WeightedMedian ( a ,  p ,  q )  else  a [ q ] . w  + =  wl  WeightedMedian ( a ,  q ,  r )

Программное обеспечение / исходный код [ править ]

  • Алгоритм быстрой взвешенной медианы реализован в расширении C для Python в пакете Python Robustats .
  • R имеет множество реализаций, в том числе matrixStats::weightedMedian(), spatstat::weighted.median()и другие. [7]

См. Также [ править ]

Ссылки [ править ]

  1. ^ а б Кормен, Томас Х .; Leiserson, Charles E .; Ривест, Рональд Л .; Стейн, Клиффорд (2001). Введение в алгоритмы . ISBN 9780262032933.
  2. ^ Горовиц, Эллис; Сахни, Сартадж; Раджасекаран, Сангутевар (1996-12-15). Компьютерные алгоритмы C ++: версии C ++ и псевдокода . ISBN 9780716783152.
  3. ^ Bovik, Алан C (2010-07-21). Справочник по обработке изображений и видео . ISBN 9780080533612.
  4. ^ Эджворта, FY (1888). «О новом методе сокращения наблюдений, относящихся к нескольким величинам» . Философский журнал . 25 (154): 184–191. DOI : 10.1080 / 14786448808628170 .
  5. ^ Эджворта, FY (1887). «О наблюдениях за несколькими величинами». Герматена . Тринити-колледж Дублина. 6 (13): 279–285. JSTOR 23036355 . 
  6. Ланге, Кеннет (15 июня 2010 г.). Численный анализ для статистиков (второе изд.). Springer. п. 313. ISBN 978-1-4419-5944-7.
  7. ^ Есть ли функция weighted.median ()?