Из Википедии, бесплатной энциклопедии
  (Перенаправлено с Достаточной статистики )
Перейти к навигации Перейти к поиску

В статистике , А статистика является достаточной по отношению к статистической модели и связанному с ней неизвестным параметром , если «нет другого статистики , которые могут быть вычислены из того же образца , не обеспечивает какую - либо дополнительная информация , как к значению параметра». [1] В частности, статистика достаточна для семейства из распределений вероятности , если образец , из которого она рассчитана не дает никакой дополнительной информации , чем статистики, о том , какие из этих распределений вероятности является выборочным распределением .

Связанная концепция - это концепция линейной достаточности , которая слабее, чем достаточность, но может применяться в некоторых случаях, когда нет достаточной статистики, хотя она ограничивается линейными оценками. [2] Колмогоров функция структуры имеет дело с индивидуальными конечными данными; с этим связано понятие алгоритмической достаточной статистики.

Эта концепция принадлежит сэру Рональду Фишеру в 1920 году. Стивен Стиглер отметил в 1973 году, что концепция достаточности потеряла популярность в описательной статистике из-за сильной зависимости от предположения о форме распределения (см. Теорему Питмана – Купмана – Дармуа ниже. ), но оставался очень важным в теоретической работе. [3]

Фон [ править ]

Грубо говоря, учитывая набор из независимых одинаково распределенных данных условных на неизвестном параметре , достаточная статистикой является функцией , значение которого содержит всю информацию , необходимую для вычисления какой - либо оценки параметра (например, максимальное правдоподобие оценки). В соответствии с теоремой факторизации ( см. Ниже ) для достаточной статистики плотность вероятности может быть записана как . Из этой факторизации легко увидеть, что оценка максимального правдоподобия будет взаимодействовать только с сквозным . Как правило, достаточная статистика - это простая функция данных, например сумма всех точек данных.

В более общем смысле, «неизвестный параметр» может представлять вектор неизвестных величин или может представлять все в модели, что неизвестно или не полностью определено. В таком случае достаточной статистикой может быть набор функций, называемых совместно достаточной статистикой . Обычно функций столько, сколько параметров. Например, для гауссовского распределения с неизвестным средним значением и дисперсией совместно достаточная статистика, из которой могут быть оценены оценки максимального правдоподобия обоих параметров, состоит из двух функций, суммы всех точек данных и суммы всех квадратов точек данных ( или, что эквивалентно, выборочное среднее и выборочная дисперсия).

Эта концепция эквивалентна утверждению, что при условии наличия достаточной статистики для параметра совместное распределение вероятностей данных не зависит от этого параметра. И статистика, и базовый параметр могут быть векторами.

Математическое определение [ править ]

Статистики t  =  T ( X ) достаточно для базового параметра θ именно в том случае, если условное распределение вероятностей данных X , учитывая статистику t  =  T ( X ), не зависит от параметра θ . [4]

В качестве альтернативы можно сказать, что статистика  T ( X ) достаточна для θ, если ее взаимная информация с θ равна взаимной информации между X и θ . [5] Другими словами, неравенство обработки данных становится равенством:

Пример [ править ]

Например, выборочного среднего достаточно для среднего ( μ ) нормального распределения с известной дисперсией. Как только среднее значение образца известно, никакая дополнительная информация о μ не может быть получена из самого образца. С другой стороны, для произвольного распределения медианы недостаточны для среднего значения: даже если медиана выборки известна, знание самой выборки предоставит дополнительную информацию о среднем значении совокупности. Например, если наблюдения, которые меньше медианы, лишь немного меньше, но наблюдения, превышающие медиану, превышают ее на большую величину, то это будет иметь отношение к выводу о среднем населении.

Теорема факторизации Фишера – Неймана [ править ]

Теорема факторизации Фишера или критерий факторизации обеспечивает удобную характеристику достаточной статистики. Если функция плотности вероятности равна ƒ θ ( x ), то T достаточно для θ тогда и только тогда, когда могут быть найдены такиенеотрицательные функции g и h , что

т.е. плотность ƒ может быть факторизована в продукт таким образом, что один фактор, h , не зависит от θ, а другой фактор, который действительно зависит от θ , зависит от x только через T ( x ).

Легко видеть, что если F ( t ) - взаимно однозначная функция и T - достаточная статистика, то F ( T ) - достаточная статистика. В частности, мы можем умножить достаточную статистику на ненулевую константу и получить другую достаточную статистику.

Интерпретация принципа правдоподобия [ править ]

Смысл теоремы состоит в том, что при использовании вывода, основанного на правдоподобии, два набора данных, дающие одно и то же значение для достаточной статистики T ( X ), всегда будут давать одни и те же выводы о θ . По критерию факторизации зависимость правдоподобия от θ только в сочетании с T ( X ). Поскольку это одинаково в обоих случаях, зависимость от θ также будет одинаковой, что приведет к идентичным выводам.

Доказательство [ править ]

Из-за Хогга и Крейга. [6] Пусть , обозначает случайную выборку из распределения, имеющего pdf f ( xθ ) для ι  <  θ  <  δ . Пусть Y 1  =  u 1 ( X 1X 2 , ...,  X n ) - статистика, pdf которой равен g 1 ( y 1θ ). Мы хотим доказать, что Y 1  =  u 1 ( X 1 , Х 2 , ...,  Х п ) является достаточной статистикой для & thetas тогда и только тогда , когда для некоторой функции Н ,

Сначала предположим, что

Сделаем преобразование y i  =  u i ( x 1x 2 , ...,  x n ), для i  = 1, ...,  n , имеющее обратные функции x i  =  w i ( y 1y 2 , ...,  y n ) для i  = 1, ...,  n и якобиана . Таким образом,

Левый член - это совместный pdf g ( y 1 , y 2 , ..., y n ; θ) Y 1 = u 1 ( X 1 , ..., X n ), ..., Y n = u n ( X 1 , ..., X n ). В правом элементе - pdf-файл от , так что это частное от и ; то есть, это условное PDF из дается .

Но , таким образом , было дано не зависеть . Поскольку не было введено в преобразовании и, соответственно, не в якобиане , отсюда следует, что не зависит от и является достаточной статистикой для .

Обратное доказывается следующим образом:

где не зависит от, потому что зависит только от , которые не зависят от достаточной статистики гипотезой, когда обусловлены ею . Теперь разделите оба члена на абсолютное значение ненулевого якобиана и замените их функциями из . Это дает

где якобиан с заменен их значением в терминах . Член левосторонним обязательно совместный PDF из . Поскольку и, следовательно , не зависит от , то

это функция, не зависящая от .

Еще одно доказательство [ править ]

Более простое и наглядное доказательство состоит в следующем, хотя оно применимо только в дискретном случае.

Мы используем сокращенные обозначения для обозначения совместной плотности вероятности by . Поскольку является функцией , мы имеем , пока и ноль в противном случае. Следовательно:

причем последнее равенство верно по определению достаточной статистики. Таким образом, с и .

Наоборот, если мы имеем

С первым равенством по определению pdf для нескольких переменных , вторым по замечанию выше, третьим по гипотезе и четвертым, потому что суммирование не закончено .

Пусть обозначим условную плотность вероятности дается . Затем мы можем получить явное выражение для этого:

Первое равенство по определению условной плотности вероятности, второе - по замечанию выше, третье - по доказанному выше равенству, а четвертое - по упрощению. Это выражение не зависит от статистики и поэтому является достаточной статистикой. [7]

Минимальная достаточность [ править ]

Достаточная статистика является минимально достаточной, если она может быть представлена ​​как функция любой другой достаточной статистики. Другими словами, S ( X ) достаточно минимально тогда и только тогда, когда [8]

  1. S ( X ) достаточно, и
  2. если T ( X ) достаточно, то существует функция f такая, что S ( X ) = f ( T ( X )).

Интуитивно понятно, что минимальная достаточная статистика наиболее эффективно фиксирует всю возможную информацию о параметре θ .

Полезная характеристика минимальной достаточности является то , что , когда плотность F & thetas существует, S ( X ) является минимально достаточным , если и только если

не зависит от θ  : S ( x ) = S ( y )

Это следует из сформулированной выше теоремы Фишера о факторизации .

Случай, в котором нет минимальной достаточной статистики, был показан Бахадуром, 1954. [9] Однако при мягких условиях минимальная достаточная статистика существует всегда. В частности, в евклидовом пространстве эти условия всегда выполняются, если все случайные величины (связанные с ) дискретны или непрерывны.

Если существует минимальная достаточная статистика, а это обычно так, то каждая полная достаточная статистика обязательно является минимально достаточной [10] (обратите внимание, что это утверждение не исключает вариант патологического случая, в котором существует полная достаточная статистика, в то время как существует нет минимально достаточной статистики). Хотя трудно найти случаи, в которых не существует минимально достаточной статистики, не так сложно найти случаи, в которых нет полной статистики.

Набор отношений правдоподобия является минимальной достаточной статистикой, если он дискретен или имеет функцию плотности.

Примеры [ править ]

Распределение Бернулли [ править ]

Если X 1 , ....,  X n - независимые случайные величины с распределением Бернулли с ожидаемым значением p , то сумма T ( X ) =  X 1  + ... +  X n является достаточной статистикой для p (здесь 'успех 'соответствует X i  = 1, а' неудача '- X i  = 0; поэтому T - общее количество успехов)

Это видно при рассмотрении совместного распределения вероятностей:

Поскольку наблюдения независимы, это можно записать как

и, собирая степени p и 1 -  p , дает

который удовлетворяет критерию факторизации, где h ( x ) = 1 является просто константой.

Обратите внимание на важную особенность: неизвестный параметр p взаимодействует с данными x только через статистику T ( x ) = Σ  x i .

В качестве конкретного приложения это дает процедуру отличия честной монеты от смещенной монеты .

Равномерное распределение [ править ]

Если X 1 , ...., X n независимы и равномерно распределены на интервале [0, θ ], то T ( X ) = max ( X 1 , ..., X n ) достаточно для θ - выборки максимум - достаточная статистика для максимума популяции.

Чтобы убедиться в этом, рассмотрим совместную функцию плотности вероятности в X   ( X 1 , ..., X п ). Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей

где 1 { ... } - индикаторная функция . Таким образом, плотность принимает форму, требуемую теоремой Фишера – Неймана о факторизации, где h ( x ) =  1 {min { x i } ≥0} , а остальная часть выражения является функцией только от θ и T ( x ) = max { x i }.

Фактически, несмещенная оценка с минимальной дисперсией (MVUE) для θ равна

Это максимум выборки, масштабированный для корректировки смещения , и он равен MVUE по теореме Лемана – Шеффе . Максимум непересчитанной выборки T ( X ) является оценкой максимального правдоподобия для θ .

Равномерное распределение (с двумя параметрами) [ править ]

Если независимы и равномерно распределены на интервале (где и - неизвестные параметры), то - двумерная достаточная статистика для .

Чтобы убедиться в этом, рассмотрят совместную функцию плотности вероятности в . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т. Е.

Совместная плотность образца принимает форму, требуемую теоремой Фишера – Неймана о факторизации, если позволить

Поскольку не зависит от параметра, а зависит только от через функцию

теорема факторизации Фишера – Неймана следует, что является достаточной статистикой для .

Распределение Пуассона [ править ]

Если X 1 , ....,  X n независимы и имеют распределение Пуассона с параметром λ , то сумма T ( X ) =  X 1  + ... +  X n является достаточной статистикой для  λ .

Чтобы убедиться в этом, рассмотрим совместное распределение вероятностей:

Поскольку наблюдения независимы, это можно записать как

который можно записать как

который показывает, что критерий факторизации удовлетворяется, где h ( x ) - величина, обратная произведению факториалов. Обратите внимание, что параметр λ взаимодействует с данными только через свою сумму T ( X ).

Нормальное распределение [ править ]

Если независимы и нормально распределены с ожидаемым значением (параметром) и известной конечной дисперсией, то

является достаточной статистикой для

Чтобы убедиться в этом, рассмотрят совместную функцию плотности вероятности в . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т. Е.

Совместная плотность образца принимает форму, требуемую теоремой Фишера – Неймана о факторизации, если позволить

Поскольку не зависит от параметра, а зависит только от через функцию

теорема факторизации Фишера – Неймана следует, что является достаточной статистикой для .

Если неизвестно и поскольку , указанная выше вероятность может быть переписана как

Теорема факторизации Фишера – Неймана все еще верна и означает, что это совместная достаточная статистика для .

Экспоненциальное распределение [ править ]

Если они независимы и экспоненциально распределены с математическим ожиданием θ (неизвестный действительный положительный параметр), то это достаточная статистика для θ.

Чтобы убедиться в этом, рассмотрят совместную функцию плотности вероятности в . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т. Е.

Совместная плотность образца принимает форму, требуемую теоремой Фишера – Неймана о факторизации, если позволить

Поскольку не зависит от параметра, а зависит только от через функцию

теорема факторизации Фишера – Неймана следует, что является достаточной статистикой для .

Гамма-распределение [ править ]

Если независимы и распределены как a , где и - неизвестные параметры гамма-распределения , то является двумерной достаточной статистикой для . Γ ( α , β ) {\displaystyle \Gamma (\alpha \,,\,\beta )}

Чтобы убедиться в этом, рассмотрят совместную функцию плотности вероятности в . Поскольку наблюдения независимы, pdf можно записать как произведение индивидуальных плотностей, т. Е.

Совместная плотность образца принимает форму, требуемую теоремой Фишера – Неймана о факторизации, если позволить

Поскольку не зависит от параметра, а зависит только от через функцию

из теоремы факторизации Фишера – Неймана следует, что это достаточная статистика для

Теорема Рао – Блэквелла [ править ]

Достаточность находит полезное применение в теореме Рао – Блэквелла , которая гласит, что если g ( X ) является какой-либо оценкой θ , то обычно условное ожидание g ( X ) при достаточной статистике T ( X ) является лучшим [ неопределенным ] оценка θ , и никогда не бывает хуже. Иногда можно очень легко построить очень грубую оценку g ( X ), а затем оценить это условное ожидаемое значение, чтобы получить оценку, которая является оптимальной в различных смыслах.

Экспоненциальная семья [ править ]

Согласно теореме Питмана – Купмана – Дармуа, среди семейств вероятностных распределений, область определения которых не меняется в зависимости от оцениваемого параметра, только в экспоненциальных семействах имеется достаточная статистика, размерность которой остается ограниченной по мере увеличения размера выборки.

Менее кратко, предположим, что это независимые одинаково распределенные случайные величины, распределение которых, как известно, принадлежит некоторому семейству распределений вероятностей с фиксированной поддержкой. Только если это семейство является экспоненциальным, существует достаточная статистика (возможно, векторная) , число скалярных компонентов которой не увеличивается по мере увеличения размера выборки n .

Эта теорема показывает, что достаточность (или, скорее, наличие скалярной или векторной достаточной статистики ограниченной размерности) резко ограничивает возможные формы распределения.

Другие виды достаточности [ править ]

Байесовская достаточность [ править ]

Альтернативная формулировка условия достаточности статистики, установленная в байесовском контексте, включает апостериорные распределения, полученные с использованием полного набора данных и с использованием только статистики. Таким образом, требование состоит в том, для почти всех х ,

В более общем плане, не предполагая параметрическую модель, мы можем сказать, что статистика T является достаточной для прогнозирования, если

Оказывается, эта «байесовская достаточность» является следствием сформулированной выше формулировки [11], однако они не эквивалентны напрямую в бесконечномерном случае. [12] Доступен ряд теоретических результатов о достаточности в байесовском контексте. [13]

Линейная достаточность [ править ]

Концепция, называемая «линейная достаточность», может быть сформулирована в байесовском контексте [14] и в более общем смысле. [15] Сначала определите лучший линейный предиктор вектора Y на основе X как . Тогда линейная статистика T ( x ) является достаточной линейной [16], если

См. Также [ править ]

  • Полнота статистики
  • Теорема Басу о независимости полной достаточной и вспомогательной статистики
  • Теорема Лемана – Шеффе : полная достаточная оценка - это наилучшая оценка ее математического ожидания.
  • Теорема Рао – Блэквелла.
  • Достаточное уменьшение размеров
  • Дополнительная статистика

Заметки [ править ]

  1. Перейти ↑ Fisher, RA (1922). «О математических основах теоретической статистики» . Философские труды Королевского общества А . 222 (594–604): 309–368. DOI : 10,1098 / rsta.1922.0009 . JFM  48.1280.02 . JSTOR  91208 .
  2. ^ Додж, Ю. (2003) - запись о линейной достаточности
  3. Стиглер, Стивен (декабрь 1973 г.). «Исследования по истории вероятности и статистики. XXXII: Лаплас, Фишер и открытие концепции достаточности». Биометрика . 60 (3): 439–445. DOI : 10.1093 / Biomet / 60.3.439 . JSTOR 2334992 . Руководство по ремонту 0326872 .  
  4. ^ Каселла, Джордж; Бергер, Роджер Л. (2002). Статистический вывод, 2-е изд . Duxbury Press.
  5. ^ Обложка, Томас М. (2006). Элементы теории информации . Джой А. Томас (2-е изд.). Хобокен, Нью-Джерси: Wiley-Interscience. п. 36. ISBN 0-471-24195-4. OCLC  59879802 .
  6. ^ Хогг, Роберт V .; Крейг, Аллен Т. (1995). Введение в математическую статистику . Прентис Холл. ISBN 978-0-02-355722-4.
  7. ^ "Теорема факторизации Фишера – Неймана" .. Веб-страница Connexions (cnx.org)
  8. ^ Dodge (2003) - запись для минимально достаточной статистики
  9. ^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр. 37
  10. ^ Леманн и Казелла (1998), Теория точечной оценки , 2-е издание, Springer, стр.
  11. ^ Бернардо, JM ; Смит, AFM (1994). «Раздел 5.1.4». Байесовская теория . Вайли. ISBN 0-471-92416-4.
  12. ^ Блэквелл, Д .; Рамамурти Р.В. (1982). «Байесовская, но недостаточно классическая статистика» . Анналы статистики . 10 (3): 1025–1026. DOI : 10.1214 / AOS / 1176345895 . Руководство по ремонту 0663456 . Zbl 0485.62004 .  
  13. ^ Ногалес, AG; Oyola, JA; Перес, П. (2000). «Об условной независимости и соотношении достаточности и инвариантности с байесовской точки зрения» . Статистика и вероятностные письма . 46 (1): 75–84. DOI : 10.1016 / S0167-7152 (99) 00089-9 . Руководство по ремонту 1731351 . Zbl 0964.62003 .  
  14. ^ Goldstein, M .; О'Хаган, А. (1996). «Линейная достаточность Байеса и системы апостериорных экспертных оценок». Журнал Королевского статистического общества . Серия Б. 58 (2): 301–316. JSTOR 2345978 . 
  15. ^ Godambe, В. П. (1966). «Новый подход к выборке из конечных совокупностей. II Достаточность без распределения». Журнал Королевского статистического общества . Серия Б. 28 (2): 320–328. JSTOR 2984375 . 
  16. ^ Уиттинг, Т. (1987). «Линейное марковское свойство в теории достоверности» . Бюллетень АСТИН . 17 (1): 71–84. DOI : 10.2143 / ast.17.1.2014984 .

Ссылки [ править ]

  • Холево, А.С. (2001) [1994], "Достаточная статистика" , Энциклопедия математики , EMS Press
  • Lehmann, EL; Казелла, Г. (1998). Теория точечного оценивания (2-е изд.). Springer. Глава 4. ISBN 0-387-98502-6.
  • Додж, Ю. (2003) Оксфордский словарь статистических терминов , OUP. ISBN 0-19-920613-9