Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В теории вероятностей и статистике набор случайных величин является независимым и одинаково распределенным, если каждая случайная величина имеет то же распределение вероятностей, что и другие, и все они независимы друг от друга . [1] Это свойство обычно сокращенно IID или IID или IID . Здесь iid используется, потому что он наиболее распространен.

Введение [ править ]

В статистике обычно предполагается, что наблюдения в выборке фактически iid. Предположение (или требование) о проведении наблюдений имеет тенденцию упрощать математику, лежащую в основе многих статистических методов (см. Математическую статистику и статистическую теорию ). Однако в практических приложениях статистического моделирования это предположение может быть или не быть реалистичным. [2] Чтобы частично проверить, насколько реалистично предположение для данного набора данных, можно вычислить корреляцию , нарисовать графики запаздывания или выполнить тест поворотной точки . [3] Обобщениезаменяемых случайных величин часто бывает достаточно, и их легче встретить.

Предположение iid важно в классической форме центральной предельной теоремы , которая утверждает, что распределение вероятностей суммы (или среднего) переменных iid с конечной дисперсией приближается к нормальному распределению .

Часто предположение iid возникает в контексте последовательностей случайных величин. Тогда «независимый и одинаково распределенный» означает, что элемент в последовательности не зависит от случайных величин, которые были перед ним. Таким образом, последовательность iid отличается от марковской последовательности , где распределение вероятностей для n- й случайной величины является функцией предыдущей случайной величины в последовательности (для марковской последовательности первого порядка). Последовательность идентификаторов не подразумевает, что вероятности для всех элементов пространства выборки или пространства событий должны быть одинаковыми. [4] Например, повторные броски загруженных игральных костей производят последовательность, которая является iid, несмотря на смещение результатов.

Определение [ править ]

Определение двух случайных величин [ править ]

Предположим, что случайные величины и определены как принимающие значения в . Пусть и быть кумулятивные функции распределения по и , соответственно, и обозначим их совместную интегральную функцию распределения по .

Две случайные величины и являются одинаково распределены тогда и только тогда , когда [5] .

Две случайные величины и являются независимыми , если и только если . (См. Далее Независимость (теория вероятностей) § Две случайные величины .)

Две случайные величины и являются iid, если они независимы и одинаково распределены, т. Е. Тогда и только тогда, когда

Определение более двух случайных величин [ править ]

Определение естественным образом распространяется на более чем две случайные величины. Мы говорим, что случайные величины являются iid, если они независимы (см. Далее Независимость (теория вероятностей) # Более двух случайных величин ) и одинаково распределены, то есть тогда и только тогда, когда

где обозначает совместную кумулятивную функцию распределения .

Примеры [ править ]

Ниже приведены примеры или применения случайных величин iid:

  • Представлена ​​последовательность результатов вращений справедливого или несправедливого колеса рулетки. Одно из следствий этого состоит в том, что если шарик рулетки приземлится на «красное», например, 20 раз подряд, следующее вращение не будет более или менее вероятным. быть «черным», чем при любом другом вращении (см . заблуждение Игрока ).
  • Последовательность бросков правильных или загруженных костей - iid.
  • Последовательность честных или несправедливых подбрасываний монеты iid.
  • В обработке сигналов и изображений понятие преобразования в iid подразумевает две спецификации, часть «id» (id = идентично распределенную) и «i». (i. = независимая) часть:
    • (id) уровень сигнала должен быть сбалансирован по оси времени;
    • (i.) спектр сигнала должен быть сглажен, то есть преобразован путем фильтрации (например, деконволюции ) в сигнал белого шума (то есть сигнал, в котором все частоты присутствуют в равной степени).

Ниже приведены примеры выборки данных, которые не удовлетворяют предположению iid:

  • Набор медицинских данных, в котором несколько образцов взяты от нескольких пациентов, очень вероятно, что образцы от одних и тех же пациентов могут быть коррелированы.
  • Выборки взяты из процессов, зависящих от времени, например, данные переписи за год.

Обобщения [ править ]

Многие результаты, которые были впервые доказаны в предположении, что случайные величины равны iid, оказались верными даже при более слабом предположении о распределении.

Обмениваемые случайные величины [ править ]

Самым общим понятием, которое разделяет основные свойства переменных iid, являются заменяемые случайные величины , введенные Бруно де Финетти . [ необходимая цитата ] Возможность обмена означает, что, хотя переменные могут не быть независимыми, будущие переменные ведут себя как прошлые - формально любое значение конечной последовательности так же вероятно, как и любая перестановка этих значений - совместное распределение вероятностей инвариантно относительно симметричной группы .

Это дает полезное обобщение - например, выборка без замены не является независимой, но может быть заменена.

Процесс Леви [ править ]

В стохастическом исчислении переменные iid рассматриваются как дискретный временной процесс Леви : каждая переменная показывает, насколько одна переменная изменяется от одного момента к другому. Например, последовательность испытаний Бернулли интерпретируется как процесс Бернулли . Можно обобщить это, чтобы включить процессы Леви с непрерывным временем, и многие процессы Леви можно рассматривать как пределы переменных iid - например, винеровский процесс является пределом процесса Бернулли.

В машинном обучении [ править ]

В теории машинного обучения для обучающих наборов данных часто делается предположение о том, что все выборки происходят из одного и того же процесса генерации и предполагается, что процесс генерации не имеет памяти о прошлых сгенерированных выборках.

См. Также [ править ]

  • Теорема де Финетти
  • Попарно независимые переменные
  • Центральная предельная теорема

Ссылки [ править ]

Цитаты [ править ]

  1. ^ Клаузет, Аарон (2011). «Краткое руководство по распределению вероятностей» (PDF) . Институт Санта-Фе .
  2. ^ Хэмпел, Франк (1998), "Неужели статистика слишком сложна?" , Канадский журнал статистики , 26 (3): 497-513, DOI : 10.2307 / 3315772 , ЛВП : 20.500.11850 / 145503 , JSTOR 3315772  (§8).
  3. ^ Le Boudec, Жан-Ив (2010). Оценка производительности компьютерных и коммуникационных систем (PDF) . EPFL Press . С. 46–47. ISBN  978-2-940222-40-7. Архивировано из оригинального (PDF) 12 октября 2013 года . Проверено 14 июня 2013 .
  4. ^ Обложка, TM; Томас, Дж. А. (2006). Элементы теории информации . Wiley-Interscience . С. 57–58. ISBN 978-0-471-24195-9.
  5. Казелла и Бергер, 2002 , теорема 1.5.10.

Источники [ править ]

  • Казелла, Джордж ; Бергер, Роджер Л. (2002), Статистический вывод , Duxbury Advanced Series