Из Википедии, бесплатной энциклопедии
  (Перенаправлен из отсутствующих значений )
Перейти к навигации Перейти к поиску

В статистике , отсутствуют данные , или пропущенные значения , происходят , когда нет данных значение не сохраняется в памяти для переменной в качестве наблюдения . Отсутствующие данные являются обычным явлением и могут существенно повлиять на выводы, которые можно сделать на основе данных.

Отсутствие данных может произойти из-за отсутствия ответа: информация не предоставляется ни по одному, ни по нескольким элементам, ни по всей единице («теме»). Некоторые вопросы с большей вероятностью вызовут отказ от ответа, чем другие: например, вопросы о частных предметах, таких как доход. Истощение - это тип упущений, который может возникнуть в лонгитюдных исследованиях - например, при изучении развития, когда измерение повторяется через определенный период времени. Пропуск происходит, когда участники выбывают до окончания теста и одно или несколько измерений отсутствуют.

Данные часто отсутствуют в исследованиях в области экономики , социологии и политологии, потому что правительства или частные организации предпочитают не предоставлять или не сообщать критическую статистику [1] или потому, что информация недоступна. Иногда пропущенные значения вызваны исследователем - например, когда сбор данных выполняется неправильно или при вводе данных допущены ошибки. [2]

Эти формы отсутствия могут быть разных типов, что по-разному влияет на достоверность выводов исследования: полное отсутствие случайного, случайное пропущенное и отсутствие случайного. С отсутствующими данными можно обращаться так же, как с цензурированными данными .

Типы [ править ]

Понимание причин отсутствия данных важно для правильной обработки оставшихся данных. Если значения отсутствуют полностью случайным образом, выборка данных, вероятно, все еще репрезентативна для генеральной совокупности. Но если значения систематически отсутствуют, анализ может быть необъективным. Например, при исследовании связи между IQ и доходом, если участники с IQ выше среднего, как правило, пропускают вопрос `` Какова ваша зарплата? '', Анализ, который не учитывает это случайное отсутствие (модель MAR ( см. ниже)) могут ошибочно не обнаружить положительной связи между IQ и зарплатой. Из-за этих проблем методологи обычно рекомендуют исследователям разработать исследования, чтобы свести к минимуму возникновение пропущенных значений. [2] Для подробного описания механизма недостающих данных можно использовать графические модели.[3] [4]

На графике показаны распределения вероятностей оценок ожидаемой интенсивности депрессии среди населения. Число случаев составляет 60. Пусть истинная популяция будет стандартизированным нормальным распределением, а вероятность отсутствия ответа будет логистической функцией интенсивности депрессии. Вывод: чем больше данных отсутствует (MNAR), тем более предвзятые оценки. Мы недооцениваем степень депрессии среди населения.

Полностью отсутствует случайным образом [ править ]

Значения в наборе данных отсутствуют полностью случайным образом (MCAR), если события, которые приводят к отсутствию какого-либо конкретного элемента данных, не зависят как от наблюдаемых переменных, так и от ненаблюдаемых параметров, представляющих интерес, и происходят полностью случайным образом. [5] Когда данные являются MCAR, анализ данных является беспристрастным; однако данные редко бывают MCAR.

В случае MCAR отсутствие данных не связано с какой-либо переменной исследования: таким образом, участники с полностью наблюдаемыми данными фактически являются случайной выборкой из всех участников, которым назначено конкретное вмешательство. При использовании MCAR предполагается, что случайное распределение обработок сохраняется, но на практике это обычно нереально сильное предположение. [6]

Отсутствует случайно [ править ]

Случайное пропадание (MAR) происходит, когда пропуск не является случайным, но когда его можно полностью объяснить переменными, по которым имеется полная информация. [7] Поскольку MAR - это предположение, которое невозможно проверить статистически, мы должны полагаться на его существенную обоснованность. [8] Примером может служить то, что мужчины реже заполняют анкету о депрессии, но это не имеет ничего общего с их уровнем депрессии, если учесть мужскую принадлежность. В зависимости от метода анализа эти данные могут по-прежнему вызывать смещение параметров в анализе из-за условной пустоты клеток (мужчины, очень сильная депрессия может иметь нулевые записи). Однако, если параметр оценивается с максимальной вероятностью полной информации, MAR предоставит асимптотически несмещенные оценки. [цитата необходима ]

Отсутствует не случайно [ править ]

Отсутствующие не случайно (MNAR) (также известные как неотвечаемый неответ) - это данные, которые не являются ни MAR, ни MCAR (т. Е. Значение отсутствующей переменной связано с причиной ее отсутствия). [5] Если продолжить предыдущий пример, это могло бы произойти, если бы мужчины не заполнили анкету депрессии из- за своего уровня депрессии.

Методы работы с недостающими данными [ править ]

Отсутствие данных снижает репрезентативность выборки и, следовательно, может исказить выводы о совокупности. Вообще говоря, существует три основных подхода к обработке недостающих данных: (1) вменение - где значения заполняются вместо отсутствующих данных, (2) пропуск - когда образцы с недействительными данными исключаются из дальнейшего анализа и (3) анализ - путем прямого применения методов, на которые не влияют отсутствующие значения. В одном систематическом обзоре, посвященном предотвращению и обработке недостающих данных для исследований исходов, ориентированных на пациента, были определены 10 стандартов, необходимых для предотвращения и обработки недостающих данных. К ним относятся стандарты дизайна исследования, проведения исследования, анализа и отчетности. [9]

В некоторых практических приложениях экспериментаторы могут контролировать уровень пропущенных значений и предотвращать пропущенные значения перед сбором данных. Например, в компьютерных анкетах часто невозможно пропустить вопрос. На вопрос нужно ответить, иначе нельзя переходить к следующему. Таким образом, пропущенные значения из-за участника исключаются с помощью этого типа анкеты, хотя этот метод может быть запрещен советом по этике, наблюдающим за исследованием. При проведении опросов обычно прилагаются многочисленные попытки связаться с каждым человеком в выборке, часто отправляя письма, чтобы попытаться убедить тех, кто решил не участвовать, изменить свое мнение. [10] : 161–187Однако такие методы могут как помочь, так и навредить с точки зрения уменьшения негативных выводов от отсутствия данных, потому что люди, которые хотят, чтобы их уговорили принять участие после первоначального отказа или отсутствия дома, вероятно, будут значительно отличаться от других. людей, которые все равно откажутся или останутся недоступными после дополнительных усилий. [10] : 188–198

В ситуациях, когда вероятны пропущенные значения, исследователю часто советуют при планировании использовать методы анализа данных, устойчивые к отсутствию. Анализ является надежным, если мы уверены, что незначительные или умеренные нарушения ключевых допущений методики приведут к незначительной или нулевой систематической ошибке или искажению выводов, сделанных о популяции.

Вменение [ править ]

Некоторые методы анализа данных не устойчивы к отсутствию данных и требуют «заполнения» или вменения недостающих данных. Рубин (1987) утверждал, что повторение вменения даже несколько раз (5 или меньше) значительно улучшает качество оценки. [2] Для многих практических целей 2 или 3 вменения отражают большую часть относительной эффективности, которая может быть получена с помощью большего числа вменений. Однако слишком малое количество вменений может привести к существенной потере статистической мощности , и некоторые ученые теперь рекомендуют от 20 до 100 или более. [11] Любой анализ множественно-вмененных данных необходимо повторить для каждого из вмененных наборов данных, а в некоторых случаях соответствующие статистические данные должны быть сравнительно сложными. [2]

Алгоритм ожидания Максимизации является подходом , при котором значение статистики , которые будут вычисленной , если полный набор данные были доступны, по оценкам (вменяемый), принимая во внимание структуру недостающих данных. В этом подходе значения для отдельных отсутствующих элементов данных обычно не вменяются.

Интерполяция [ править ]

В математической области численного анализа интерполяция - это метод построения новых точек данных в диапазоне дискретного набора известных точек данных.

При сравнении двух парных выборок с отсутствующими данными статистический критерий, в котором используются все доступные данные без необходимости вменения, представляет собой t-критерий частично перекрывающихся выборок. [12] Это верно при нормальных условиях и при условии, что MCAR

Частичное удаление [ править ]

Методы, которые включают сокращение данных, доступных для набора данных, не имеющего пропущенных значений, включают:

  • Удаление по списку / удаление по списку
  • Попарное удаление

Полный анализ [ править ]

Методы, которые полностью учитывают всю доступную информацию без искажений, возникающих в результате использования вмененных значений, как если бы они действительно наблюдались:

  • Генеративные подходы:
    • Алгоритм ожидания Максимизация
    • оценка максимального правдоподобия полной информации
  • Дискриминационные подходы:
    • Классификация данных с отсутствующими характеристиками с максимальным запасом [13] [14]

Также могут использоваться методы частичной идентификации . [15]

Модельные методы [ править ]

Методы, основанные на моделях, часто с использованием графиков, предлагают дополнительные инструменты для тестирования отсутствующих типов данных (MCAR, MAR, MNAR) и для оценки параметров в условиях отсутствия данных. Например, тест на опровержение MAR / MCAR гласит:

Для любых трех переменных X, Y , и Z , где Z полностью наблюдаемых и Х и Y , частично наблюдаемые данные должны удовлетворять: .

На словах, наблюдаемая часть X должна быть независимой от статуса missingness из Y, условного на каждом значении Z . Несоблюдение этого условия указывает на то, что проблема относится к категории MNAR. [16]

(Примечание: эти тесты необходимы для MAR на основе переменных, которая представляет собой небольшую вариацию MAR на основе событий. [17] [18] [19] )

Когда данные попадают в категорию MNAR, доступны методы для последовательной оценки параметров, когда в модели выполняются определенные условия. [3] Например, если Y объясняет причину missingness в X и Y самого пропущенными значений, то совместные распределение вероятностей по X и Y все еще может быть оценено , если missingness из Y является случайным. Оценка в этом случае будет:

где и обозначают наблюдаемые части соответствующих переменных.

Различные структуры модели могут давать разные оценки и разные процедуры оценки, если возможна согласованная оценка. Предыдущие вызовы estimand для первого оценивания от полных данных и умножения его оценок , от случаев , в которых Y наблюдается независимо от статуса X . Более того, для получения непротиворечивой оценки очень важно, чтобы первый член был противоположен .

Во многих случаях методы, основанные на моделях, позволяют модельной структуре пройти опровержение. [19] Любая модель , которая предполагает независимость между частично наблюдаемой переменной X и индикатором missingness другого переменной Y (то есть ), обусловливающие может быть представлена следующим испытание опровержения: .

Наконец, оценки, которые возникают из этих методов, выводятся в закрытой форме и не требуют итерационных процедур, таких как максимизация ожидания, которые подвержены локальным оптимумам. [20]

Особый класс проблем возникает, когда вероятность пропажи зависит от времени. Например, в базах данных о травмах вероятность потери данных о результате травмы зависит от дня после травмы. В этих случаях применяются различные нестационарные модели цепей Маркова .[21]

См. Также [ править ]

  • Цензурирование (статистика)
  • Алгоритм ожидания – максимизации
  • Индикаторная переменная
  • Взвешивание обратной вероятности
  • Скрытая переменная
  • Завершение матрицы

Ссылки [ править ]

  1. ^ Месснер SF (1992). «Изучение последствий представления ошибочных данных для межнационального исследования убийств». Журнал количественной криминологии . 8 (2): 155–173. DOI : 10.1007 / bf01066742 . S2CID  133325281 .
  2. ^ a b c d Рука, Дэвид Дж .; Адер, Герман Дж .; Мелленберг, Гидеон Дж. (2008). Консультации по методам исследования: помощник консультанта . Хейзен, Нидерланды: Йоханнес ван Кессель. С. 305–332. ISBN 978-90-79418-01-5.
  3. ^ а б Мохан, Картика; Перл, Иудея; Тиан, Джин (2013). Достижения в системах обработки нейронной информации 26 . С. 1277–1285.
  4. ^ Карван, Юхо (2015). «Дизайн исследования в причинных моделях» . Скандинавский статистический журнал . 42 (2): 361–377. arXiv : 1211.2958 . DOI : 10.1111 / sjos.12110 . S2CID 53642701 . 
  5. ^ a b Полит DF Beck CT (2012). Медсестринское исследование: создание и оценка доказательств для сестринской практики, 9-е изд . Филадельфия, США: Wolters Klower Health, Lippincott Williams & Wilkins.
  6. ^ Дэн (2012-10-05). «О биостатистике и клинических исследованиях» . Архивировано из оригинального 15 марта 2016 года . Дата обращения 13 мая 2016 .
  7. ^ "Архивная копия" . Архивировано 10 сентября 2015 года . Проверено 1 августа 2015 .CS1 maint: заархивированная копия как заголовок ( ссылка )
  8. ^ Литтл, Родерик JA; Рубин, Дональд Б. (2002), Статистический анализ с отсутствующими данными (2-е изд.), Wiley.
  9. ^ Ли, Тяньцзин; Хатфлесс, Сьюзен; Scharfstein, Daniel O .; Дэниелс, Майкл Дж .; Хоган, Джозеф В .; Литтл, Родерик JA; Рой, Джейсон А .; Закон, Эндрю Х .; Дикерсин, Кей (2014). «Стандарты должны применяться в предотвращении и обработке недостающих данных для исследования исходов, ориентированных на пациента: систематический обзор и экспертный консенсус» . Журнал клинической эпидемиологии . 67 (1): 15–32. DOI : 10.1016 / j.jclinepi.2013.08.013 . PMC 4631258 . PMID 24262770 .  
  10. ^ а б Ступ, И .; Billiet, J .; Koch, A .; Фитцджеральд Р. (2010). Снижение количества неответов на опросы: уроки, извлеченные из Европейского социального исследования . Оксфорд: Уайли-Блэквелл. ISBN 978-0-470-51669-0.
  11. ^ Грэм JW; Ольховский А.Е .; Гилрит Т.Д. (2007). «Сколько вменений действительно необходимо? Некоторые практические пояснения теории множественных вменений» . Профилактическая наука . 8 (3): 208–213. CiteSeerX 10.1.1.595.7125 . DOI : 10.1007 / s11121-007-0070-9 . PMID 17549635 . S2CID 24566076 .   
  12. ^ Деррик, B; Русь, Б; Toher, D; Белый, П (2017). «Тестовая статистика для сравнения средних значений для двух выборок, включающая как парные, так и независимые наблюдения» . Журнал современных прикладных статистических методов . 16 (1): 137–157. DOI : 10.22237 / jmasm / 1493597280 .
  13. ^ Чечик, Gal; Хайц, Гереми; Элидан, Гал; Аббель, Питер ; Коллер, Дафна (01.06.2008). «Классификация неполных данных по максимальной марже» (PDF) . Системы обработки нейронной информации : 233–240.
  14. ^ Чечик, Gal; Хайц, Гереми; Элидан, Гал; Аббель, Питер ; Коллер, Дафна (01.06.2008). «Классификация данных с максимальной маржой без признаков» . Журнал исследований в области машинного обучения . 9 : 1–21. ISSN 1532-4435 . 
  15. ^ Укротитель, Эли (2010). «Частичная идентификация в эконометрике» . Ежегодный обзор экономики . 2 (1): 167–195. DOI : 10.1146 / annurev.economics.050708.143401 .
  16. ^ Мохан, Картика; Жемчуг, Иудея (2014). «О тестируемости моделей с недостающими данными». Труды AISTAT-2014, готовятся к печати .
  17. ^ Darwiche Аднан (2009). Моделирование и рассуждение с байесовскими сетями . Издательство Кембриджского университета.
  18. ^ Поттхофф, РФ; Тюдор, GE; Pieper, KS; Хассельблад, В. (2006). «Можно ли оценить, отсутствуют ли случайным образом недостающие данные в медицинских исследованиях?» . Статистические методы в медицинских исследованиях . 15 (3): 213–234. DOI : 10.1191 / 0962280206sm448oa . PMID 16768297 . S2CID 12882831 .  
  19. ^ a b Перл, Иудея; Мохан, Картика (2013). Восстанавливаемость и возможность проверки отсутствующих данных: введение и сводка результатов (PDF) (технический отчет). Департамент компьютерных наук Калифорнийского университета в Лос-Анджелесе, R-417.
  20. ^ Mohan, K .; Van den Broeck, G .; Choi, A .; Перл, Дж. (2014). «Эффективный метод изучения параметров байесовской сети на основе неполных данных». Представлено на семинаре по каузальному моделированию и машинному обучению, ICML-2014 .
  21. ^ Миркс, EM; Пальто, TJ; Levesley, J .; Горбань, АН (2016). «Обработка недостающих данных в большом наборе медицинских данных: тематическое исследование неизвестных исходов травм» . Компьютеры в биологии и медицине . 75 : 203–216. arXiv : 1604.00627 . Bibcode : 2016arXiv160400627M . DOI : 10.1016 / j.compbiomed.2016.06.004 . PMID 27318570 . S2CID 5874067 . Архивировано 5 августа 2016 года.  

Дальнейшее чтение [ править ]

  • Acock AC (2005), «Работа с отсутствующими значениями» , Journal of Marriage and Family , 67 (4): 1012–28, doi : 10.1111 / j.1741-3737.2005.00191.x , заархивировано с оригинала на 2013-01 -05
  • Эллисон, Пол Д. (2001), отсутствующие данные , SAGE Publishing
  • Буза-Эррера, Карлос Н. (2013), Обработка отсутствующих данных в выборке ранжированного набора , Springer
  • Эндерс, Крейг К. (2010), Прикладной анализ отсутствующих данных , Guilford Press
  • Грэм, Джон В. (2012), отсутствующие данные , Springer
  • Моленбергс, Герт; Фитцморис, Гарретт; Kenward, Майкл G .; Циатис, Анастасиос; Verbeke, Geert, eds. (2015), Справочник по методологии пропущенных данных , Chapman & Hall
  • Рагхунатан, Trivellore (2016), Анализ отсутствующих данных на практике , Chapman & Hall
  • Литтл, Родерик JA; Рубин, Дональд Б. (2002), Статистический анализ с отсутствующими данными (2-е изд.), Wiley
  • Циатис, Анастасиос А. (2006), Полупараметрическая теория и отсутствующие данные , Springer
  • Ван ден Брок Дж., Каннингем С.А., Экелс Р., Хербст К. (2005), «Очистка данных: обнаружение, диагностика и редактирование аномалий данных», PLOS Medicine , 2 (10): e267, doi : 10.1371 / journal.pmed.0020267 , PMC  1198040 , PMID  16138788 , S2CID  5667073
  • Сарате Л.Е., Ногейра Б.М., Сантос Т.Р., Сонг М.А. (2006). «Методы восстановления недостающей ценности в несбалансированных базах данных: применение в маркетинговой базе данных с огромным количеством недостающих данных». Международная конференция IEEE по системам, человеку и кибернетике, 2006 г. SMC '06 . 3 . С. 2658–2664. DOI : 10.1109 / ICSMC.2006.385265 .

Внешние ссылки [ править ]

Фон [ править ]

  • Отсутствующие значения-предвидение
  • Psychwiki.com: отсутствующие значения , определение отсутствующих значений и работа с отсутствующими значениями
  • missingdata.org.uk , Департамент медицинской статистики, Лондонская школа гигиены и тропической медицины
  • Анализ пространственных и временных тенденций долгосрочных данных об осадках в водосборах с недостаточным объемом данных и отсутствующими данными, тематическое исследование поймы Нижнего Шира в Малави за период 1953–2010 годов. https://www.hydrol-earth-syst-sci-discuss.net/hess-2017-601/hess-2017-601.pdf
  • R-miss-tastic , Единая платформа для методов и рабочих процессов с отсутствующими значениями.

Программное обеспечение [ править ]

  • Mplus
  • PROC MI и PROC MIANALYZE - SAS
  • SPSS