Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Знак ковариации двух случайных величин X и Y

В теории вероятностей и статистике , ковариация является мерой совместной изменчивости двух случайных величин . [1] Если большие значения одной переменной в основном соответствуют большим значениям другой переменной, и то же самое верно для меньших значений (то есть переменные имеют тенденцию показывать аналогичное поведение), ковариация положительная. [2] В противоположном случае, когда большие значения одной переменной в основном соответствуют меньшим значениям другой (т. Е. Переменные имеют тенденцию показывать противоположное поведение), ковариация отрицательная. Знак ковариации, следовательно, показывает тенденцию в линейной зависимостимежду переменными. Величину ковариации непросто интерпретировать, поскольку она не нормирована и, следовательно, зависит от величин переменных. Нормированная версия ковариации , то коэффициент корреляции , однако, показывает , по его величине сила линейной зависимости.

Необходимо различать (1) ковариацию двух случайных величин, которая является параметром совокупности, который можно рассматривать как свойство совместного распределения вероятностей , и (2) ковариацию выборки , которая помимо того, что служит дескриптором выборки, также служит оценочным значением параметра совокупности.

Определение [ править ]

В течение двух совместно распределенных реальных -значных случайных величин и с конечными вторыми моментами , ковариация определяется как ожидаемое значение (или среднее) продукта их отклонений от их индивидуальных ожидаемых значений: [3] [4] : р. 119

где это ожидаемое значение из , также известное как средние . Ковариация также иногда обозначается или по аналогии с дисперсией . Используя свойство линейности ожиданий, это можно упростить до ожидаемой стоимости их продукта за вычетом произведения их ожидаемых значений:

но это уравнение подвержено катастрофической отмене (см. ниже раздел о численных вычислениях ).

В единицы измерения ковариации являются те времена те . Напротив, коэффициенты корреляции , которые зависят от ковариации, являются безразмерной мерой линейной зависимости. (Фактически, коэффициенты корреляции можно просто понимать как нормализованную версию ковариации.)

Определение сложных случайных величин [ править ]

Ковариация между двумя комплексными случайными величинами определяется как [4] : p. 119

Обратите внимание на комплексное сопряжение второго множителя в определении.

Дискретные случайные величины [ править ]

Если пара случайных величин может принимать значения для с равными вероятностями , то ковариация может быть эквивалентно записана в терминах средних и как

Это также может быть выражено эквивалентно, без прямой ссылки на средства, как [5]

В более общем смысле, если есть возможные реализации , а именно, но с возможно неравными вероятностями для , то ковариация

Пример [ править ]

Геометрическая интерпретация примера ковариации. Каждый кубоид является ограничивающим прямоугольником своей точки ( x , y , f  ( x , y )), а значения X и Y (пурпурная точка). Ковариация - это сумма объемов красных кубоидов минус синие кубоиды.

Предположу , что и имеет следующую функцию совместных вероятностей масс , [6] , в котором шесть центральной клетка дает дискретные совместные вероятности из шести гипотетических реализаций :

может принимать три значения (5, 6 и 7), а может принимать два (8 и 9). Их средства есть и . Потом,

Свойства [ править ]

Ковариация сама с собой [ править ]

Дисперсия является частным случаем ковариации , в котором две переменные являются идентичными (то есть, в котором одна переменная всегда принимает такое же значение , как и другие): [4] : р. 121

Ковариация линейных комбинаций [ править ]

Если , , и являются вещественные случайные величины и имеют вещественные константы, то следующие факты являются следствием определения ковариации:

Для последовательности случайных величин с действительными значениями и констант мы имеем

Ковариационная идентичность Хёффдинга [ править ]

Полезным тождеством для вычисления ковариации между двумя случайными величинами является тождество ковариации Хёффдинга: [7]

где есть совместная функция распределения случайного вектора и являются маргинальными .

Некоррелированность и независимость [ править ]

Случайные переменные, ковариация которых равна нулю, называются некоррелированными . [4] : с. 121 Точно так же компоненты случайных векторов, ковариационная матрица которых равна нулю в каждой записи за пределами главной диагонали, также называются некоррелированными.

Если и являются независимыми случайными величинами , то их ковариация равна нулю. [4] : с. 123 [8] Это следует потому, что при независимости

Обратное, однако, в целом неверно. Например, пусть будет равномерно распределен и пусть . Понятно, и не независимы, но

В этом случае связь между и является нелинейной, а корреляция и ковариация - это меры линейной зависимости между двумя случайными величинами. Этот пример показывает, что если две случайные величины не коррелированы, это, как правило, не означает, что они независимы. Однако, если две переменные совместно нормально распределены (но не если они просто индивидуально нормально распределены ), некоррелированность действительно подразумевает независимость.

Отношение к внутренним продуктам [ править ]

Многие свойства ковариации можно элегантно выделить, заметив, что она удовлетворяет свойствам, аналогичным свойствам внутреннего продукта :

  1. билинейной : для констант и и случайных величин ,
  2. симметричный:
  3. положительный полуопределенный : для всех случайных величин , и означает, что он почти наверняка постоянен .

Фактически, эти свойства подразумевают, что ковариация определяет внутренний продукт над векторным пространством факторных, полученный путем взятия подпространства случайных величин с конечным вторым моментом и идентификации любых двух, которые отличаются константой. (Это отождествление превращает положительную полуопределенность, приведенную выше, в положительную определенность.) Это фактор-векторное пространство изоморфно подпространству случайных величин с конечным вторым моментом и средним нулем; в этом подпространстве ковариация - это в точности L 2 скалярное произведение действительных функций в пространстве выборок.

В результате для случайных величин с конечной дисперсией выполняется неравенство

выполняется через неравенство Коши – Шварца .

Доказательство: если , то тривиально. В противном случае пусть случайная величина

Тогда у нас есть

Вычисление выборочной ковариации [ править ]

Выборочные ковариации между переменными, основанные на наблюдениях за каждой из них, взятые из ненаблюдаемой в противном случае совокупности, представлены матрицей с записями

что является оценкой ковариации между переменной и переменной .

Выборочные средние и матрица ковариации образца являются несмещенными оценками из среднего и в ковариационной матрице из случайного вектора , вектора, J я элемента является одним из случайных величин. Причина, по которой матрица ковариаций выборки имеет в знаменателе, а не по существу, состоит в том, что среднее значение генеральной совокупности неизвестно и заменено средним значением выборки . Если известно среднее значение генеральной совокупности , аналогичная несмещенная оценка дается выражением

.

Обобщения [ править ]

Матрица автоковариации реальных случайных векторов [ править ]

Для вектора из совместно распределенных случайных величин с конечными вторыми моментами, его авто- ковариационной матрицы (также известный как матрица дисперсии-ковариации или просто ковариационной матрицы ) (также обозначаемой ) определяется как [9] : p.335

Пусть будет случайным вектором с ковариационной матрицей Σ , и пусть A будет матрицей, которая может действовать слева. Ковариационная матрица произведения матрица-вектор AX :

Это прямой результат линейности ожидания и полезен при применении линейного преобразования , такого как преобразование отбеливания , к вектору.

Матрица кросс-ковариации реальных случайных векторов [ править ]

Для реальных случайных векторов и , то кросс-ковариационная матрица равна [9] : p.336

где - транспонирование вектора (или матрицы) .

-Й элемент этой матрицы равен ковариации между я -му скалярной составляющей , и J -го скалярного компонента . В частности, это транспонированная из .

Числовые вычисления [ править ]

Когда , уравнение подвержено катастрофической отмене, если и не вычисляются точно, и поэтому его следует избегать в компьютерных программах, когда данные не были центрированы ранее. [10] В этом случае следует отдавать предпочтение численно стабильным алгоритмам . [11]

Комментарии [ редактировать ]

Ковариацию иногда называют мерой «линейной зависимости» между двумя случайными величинами. Это не означает то же самое, что и в контексте линейной алгебры (см. Линейную зависимость ). Когда ковариация нормализована, получается коэффициент корреляции Пирсона , который дает степень согласия для наилучшей возможной линейной функции, описывающей связь между переменными. В этом смысле ковариация - это линейная мера зависимости.

Приложения [ править ]

В генетике и молекулярной биологии [ править ]

Ковариация - важная мера в биологии . Некоторые последовательности ДНК более консервативны среди видов, чем другие, и поэтому для изучения вторичных и третичных структур белков или структур РНК сравнивают последовательности у близкородственных видов. Если изменения последовательности обнаружены или вообще не обнаружены изменения в некодирующей РНК (например, микроРНК), последовательности необходимы для общих структурных мотивов, таких как петля РНК. В генетике ковариация служит основой для вычисления матрицы генетических родств (GRM) (также известной как матрица родства), позволяя делать выводы о структуре популяции на основе выборки без известных близких родственников, а также делать выводы об оценке наследуемости сложных признаков.

В теории эволюции и естественного отбора , то уравнение Цена описывает , как генетический признак изменения частоты с течением времени. Уравнение использует ковариацию между признаком и приспособленностью , чтобы дать математическое описание эволюции и естественного отбора. Это дает возможность понять влияние передачи генов и естественного отбора на долю генов в каждом новом поколении популяции. [12] [13] Уравнение Прайса было выведено Джорджем Р. Прайсом , чтобы заново вывести работу У. Д. Гамильтона о родственном отборе .Примеры уравнения Прайса были построены для различных эволюционных случаев.

В финансовой экономике [ править ]

Ковариации играют ключевую роль в финансовой экономике , особенно в современной теории портфелей и в модели ценообразования капитальных активов . Ковариации доходности различных активов используются для определения, при определенных допущениях, относительных объемов различных активов, которые инвесторы должны (в нормативном анализе ) или, по прогнозам (в положительном анализе ), предпочитают держать в контексте диверсификации .

При усвоении метеорологических и океанографических данных [ править ]

Ковариационная матрица важна для оценки начальных условий, необходимых для работы моделей прогноза погоды, процедуры, известной как ассимиляция данных . «Ковариационная матрица ошибок прогноза» обычно строится между возмущениями вокруг среднего состояния (климатологического или ансамблевого). «Ковариационная матрица ошибок наблюдения» построена для представления величины объединенных ошибок наблюдений (по диагонали) и коррелированных ошибок между измерениями (по диагонали). Это пример его широкого применения для фильтрации Калмана и более общей оценки состояния для систем с изменяющимся временем.

В микрометеорологии [ править ]

Метод вихревой ковариации - это ключевой метод измерения атмосферы, в котором ковариация между мгновенным отклонением вертикальной скорости ветра от среднего значения и мгновенным отклонением концентрации газа является основой для расчета вертикальных турбулентных потоков.

В обработке сигналов [ править ]

Ковариационная матрица используется для регистрации спектральной изменчивости сигнала. [14]

В статистике и обработке изображений [ править ]

Ковариационная матрица используется в анализе главных компонентов, чтобы уменьшить размерность признаков при предварительной обработке данных.

См. Также [ править ]

  • Алгоритмы вычисления ковариации
  • Анализ ковариации
  • Автоковариация
  • Корреляция и зависимость
  • Ковариационная функция
  • Ковариационная матрица
  • Оператор ковариации
  • Ковариация расстояния или броуновская ковариация.
  • Ковариация вихрей
  • Закон полной ковариации
  • Распространение неопределенности

Ссылки [ править ]

  1. ^ Райс, Джон (2007). Математическая статистика и анализ данных . Бельмонт, Калифорния: Обучение Брукс / Коула Сенсэджа. п. 138. ISBN 978-0534-39942-9.
  2. ^ Вайсштейн, Эрик В. "Ковариация" . MathWorld .
  3. ^ Оксфордский статистический словарь, Oxford University Press, 2002, стр. 104.
  4. ^ а б в г д Парк, Кун Иль (2018). Основы вероятностных и случайных процессов с приложениями к коммуникациям . Springer. ISBN 978-3-319-68074-3.
  5. ^ Юли Чжан, Huaiyu Ву, Лей Ченг (июнь 2012). Некоторые новые формулы деформации о дисперсии и ковариации . Труды 4-й Международной конференции по моделированию, идентификации и контролю (ICMIC2012). С. 987–992.CS1 maint: uses authors parameter (link)
  6. ^ "Ковариация X и Y | STAT 414/415" . Государственный университет Пенсильвании. Архивировано из оригинального 17 августа 2017 года . Проверено 4 августа 2019 года .
  7. ^ Папулис (1991). Вероятность, случайные величины и случайные процессы . Макгроу-Хилл.
  8. ^ Сигрист, Кайл. «Ковариация и корреляция» . Университет Алабамы в Хантсвилле . Проверено 4 августа 2019 года .
  9. ^ a b Губнер, Джон А. (2006). Вероятность и случайные процессы для инженеров-электриков и компьютерщиков . Издательство Кембриджского университета. ISBN 978-0-521-86470-1.
  10. ^ Дональд Э. Кнут (1998). Искусство программирования , том 2: получисловые алгоритмы , 3-е изд., С. 232. Бостон: Аддисон-Уэсли.
  11. ^ Шуберт, Эрих; Герц, Майкл (2018). «Численно устойчивое параллельное вычисление (ковариации)» . Материалы 30-й Международной конференции по управлению научными и статистическими базами данных - SSDBM '18 . Божен-Больцано, Италия: ACM Press: 1–12. DOI : 10.1145 / 3221269.3223036 . ISBN 9781450365055. S2CID  49665540 .
  12. ^ Цена, Джордж (1970). «Отбор и ковариация». Природа . 227 (5257): 520–521. DOI : 10.1038 / 227520a0 . PMID 5428476 . S2CID 4264723 .  
  13. ^ Харман, Орен (2020). «Когда наука отражает жизнь: об истоках уравнения Прайса» . Фил. Пер. R. Soc. B . 375 (1797): 1–7. DOI : 10,1098 / rstb.2019.0352 . PMC 7133509 . PMID 32146891 . Проверено 15 мая 2020 .  
  14. ^ Sahidullah, Md .; Киннунен, Томи (март 2016 г.). «Особенности локальной спектральной изменчивости для проверки говорящего» . Цифровая обработка сигналов . 50 : 1–11. DOI : 10.1016 / j.dsp.2015.10.011 .