Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , отсутствуют данные , или пропущенные значения , происходят , когда нет данных значение не сохраняется в памяти для переменной в качестве наблюдения . Отсутствующие данные являются обычным явлением и могут существенно повлиять на выводы, которые можно сделать на основе данных.

Отсутствие данных может произойти из-за отсутствия ответа: информация не предоставляется ни по одному, ни по нескольким элементам, ни по всей единице («теме»). Некоторые вопросы с большей вероятностью вызовут отказ от ответа, чем другие: например, вопросы о частных предметах, таких как доход. Истощение - это тип упущений, который может возникать в продольных исследованиях, например, при изучении развития, когда измерение повторяется через определенный период времени. Пропуск происходит, когда участники выбывают до окончания теста и одно или несколько измерений отсутствуют.

В исследованиях в области экономики , социологии и политологии данные часто отсутствуют, потому что правительства или частные организации предпочитают не предоставлять или не сообщать критическую статистику [1] или потому, что информация недоступна. Иногда отсутствующие значения вызваны исследователем, например, когда сбор данных выполняется неправильно или при вводе данных допущены ошибки. [2]

Эти формы отсутствия могут быть разных типов, что по-разному влияет на достоверность выводов исследования: полное отсутствие случайным образом, отсутствие случайного отсутствия и отсутствие случайного отсутствия. С отсутствующими данными можно обращаться так же, как с цензурированными данными .

Типы [ править ]

Понимание причин отсутствия данных важно для правильной обработки оставшихся данных. Если значения отсутствуют полностью случайным образом, выборка данных, вероятно, все еще репрезентативна для генеральной совокупности. Но если значения систематически отсутствуют, анализ может быть необъективным. Например, при исследовании связи между IQ и доходом, если участники с IQ выше среднего, как правило, пропускают вопрос `` Какова ваша зарплата? '', Анализ, который не учитывает это случайное отсутствие (модель MAR ( см. ниже)) могут ошибочно не обнаружить положительной связи между IQ и зарплатой. Из-за этих проблем методологи обычно рекомендуют исследователям разработать исследования, чтобы свести к минимуму появление пропущенных значений. [2] Графические модели могут использоваться для подробного описания механизма недостающих данных.[3] [4]

На графике показаны распределения вероятностей оценок ожидаемой интенсивности депрессии среди населения. Число случаев составляет 60. Пусть истинная популяция будет стандартизированным нормальным распределением, а вероятность отсутствия ответа будет логистической функцией интенсивности депрессии. Вывод: чем больше данных отсутствует (MNAR), тем более предвзятые оценки. Мы недооцениваем степень депрессии среди населения.

Отсутствует полностью случайно [ править ]

Значения в наборе данных отсутствуют полностью случайным образом (MCAR), если события, которые приводят к отсутствию какого-либо конкретного элемента данных, не зависят как от наблюдаемых переменных, так и от ненаблюдаемых параметров, представляющих интерес, и происходят полностью случайным образом. [5] Когда данные являются MCAR, анализ данных является беспристрастным; однако данные редко являются MCAR.

В случае MCAR отсутствие данных не связано с какой-либо переменной исследования: таким образом, участники с полностью наблюдаемыми данными фактически представляют собой случайную выборку всех участников, которым назначено конкретное вмешательство. При использовании MCAR предполагается, что случайное назначение обработок сохраняется, но на практике это обычно нереально сильное предположение. [6]

Отсутствует случайно [ править ]

Случайное отсутствие данных (MAR) происходит, когда отсутствие данных не является случайным, а может быть полностью объяснено переменными, по которым имеется полная информация. [7] Поскольку MAR - это предположение, которое невозможно проверить статистически, мы должны полагаться на его существенную обоснованность. [8] Примером может служить то, что мужчины реже заполняют анкету о депрессии, но это не имеет ничего общего с их уровнем депрессии, если учесть мужскую принадлежность. В зависимости от метода анализа, эти данные могут вызывать смещение параметров в анализе из-за условной пустоты клеток (мужской, очень сильная депрессия может иметь нулевые записи). Однако, если параметр оценивается с максимальной вероятностью полной информации, MAR предоставит асимптотически несмещенные оценки. [цитата необходима ]

Отсутствует не случайно [ править ]

Отсутствующие не случайно (MNAR) (также известные как неотвечаемый неответ) - это данные, которые не относятся ни к MAR, ни к MCAR (т.е. значение отсутствующей переменной связано с причиной ее отсутствия). [5] Если продолжить предыдущий пример, это могло бы произойти, если бы мужчины не смогли заполнить анкету депрессии из- за своего уровня депрессии.

Методы работы с недостающими данными [ править ]

Отсутствие данных снижает репрезентативность выборки и, следовательно, может исказить выводы о генеральной совокупности. Вообще говоря, существует три основных подхода к обработке недостающих данных: (1) вменение - где значения заполняются вместо отсутствующих данных, (2) пропуск - когда образцы с недопустимыми данными исключаются из дальнейшего анализа и (3) анализ - путем прямого применения методов, на которые не влияют отсутствующие значения. В одном систематическом обзоре, посвященном предотвращению и обработке недостающих данных для исследований исходов, ориентированных на пациента, были определены 10 стандартов, необходимых для предотвращения и обработки недостающих данных. К ним относятся стандарты дизайна исследования, проведения исследования, анализа и отчетности. [9]

В некоторых практических приложениях экспериментаторы могут контролировать уровень пропущенных значений и предотвращать пропущенные значения перед сбором данных. Например, в компьютерных анкетах часто невозможно пропустить вопрос. На вопрос нужно ответить, иначе нельзя переходить к следующему. Таким образом, отсутствующие значения из-за участника исключаются с помощью этого типа вопросника, хотя этот метод может быть запрещен советом по этике, наблюдающим за исследованием. При проведении опросов обычно предпринимаются многочисленные попытки связаться с каждым человеком в выборке, часто отправляя письма, чтобы попытаться убедить тех, кто решил не участвовать, изменить свое мнение. [10] : 161–187Однако такие методы могут как помочь, так и навредить с точки зрения уменьшения негативных выводов из-за отсутствия данных, поскольку люди, которые хотят, чтобы их уговорили участвовать после первоначального отказа или отсутствия дома, вероятно, будут значительно отличаться от тех, кто людей, которые все равно откажутся или останутся недоступными после дополнительных усилий. [10] : 188–198

В ситуациях, когда вероятны пропущенные значения, исследователю часто советуют при планировании использовать методы анализа данных, устойчивые к отсутствию. Анализ является надежным, если мы уверены, что незначительные или умеренные нарушения ключевых допущений методики приведут к незначительной или нулевой систематической ошибке или искажению выводов, сделанных о популяции.

Вменение [ править ]

Некоторые методы анализа данных не устойчивы к отсутствию данных и требуют «заполнения» или вменения недостающих данных. Рубин (1987) утверждал, что повторение вменения даже несколько раз (5 или меньше) значительно улучшает качество оценки. [2] Для многих практических целей 2 или 3 вменения отражают большую часть относительной эффективности, которую можно получить с помощью большего числа вменений. Однако слишком малое количество вменений может привести к значительной потере статистической мощности , и некоторые ученые теперь рекомендуют от 20 до 100 или более. [11] Любой анализ множественно-вмененных данных должен повторяться для каждого из вмененных наборов данных, а в некоторых случаях соответствующие статистические данные должны быть сравнительно сложными. [2]

Алгоритм ожидания Максимизации является подходом , при котором значение статистики , которые будут вычисленной , если полный набор данные были доступны, по оценкам (вменяемый), принимая во внимание структуру недостающих данных. В этом подходе значения для отдельных недостающих элементов данных обычно не вменяются.

Интерполяция (пример: билинейная интерполяция) [ править ]

В математической области численного анализа интерполяция - это метод построения новых точек данных в пределах диапазона дискретного набора известных точек данных.

При сравнении двух парных выборок с отсутствующими данными статистический критерий, который использует все доступные данные без необходимости вменения, является t-критерием частично перекрывающихся выборок. [12] Это верно при нормальных условиях и при условии, что MCAR

Частичное удаление [ править ]

Методы, которые включают сокращение данных, доступных для набора данных без пропущенных значений, включают:

  • Удаление по списку / удаление по списку
  • Попарное удаление

Полный анализ [ править ]

Методы, которые полностью учитывают всю доступную информацию без искажений, возникающих в результате использования вмененных значений, как если бы они действительно наблюдались:

  • Генеративные подходы:
    • Алгоритм ожидания Максимизация
    • полная информация оценка максимального правдоподобия
  • Дискриминационные подходы:
    • Классификация данных с отсутствующими характеристиками с максимальным запасом [13] [14]

Также могут использоваться методы частичной идентификации . [15]

Модельные методы [ править ]

Методы, основанные на моделях, часто с использованием графиков, предлагают дополнительные инструменты для тестирования отсутствующих типов данных (MCAR, MAR, MNAR) и для оценки параметров в условиях отсутствия данных. Например, тест на опровержение MAR / MCAR гласит:

Для любых трех переменных X, Y , и Z , где Z полностью наблюдаемых и Х и Y , частично наблюдаемые данные должны удовлетворять: .

На словах, наблюдаемая часть X должна быть независимой от статуса missingness из Y, условного на каждом значении Z . Несоблюдение этого условия указывает, что проблема относится к категории MNAR. [16]

(Примечание: эти тесты необходимы для MAR на основе переменных, которая представляет собой небольшую вариацию MAR на основе событий. [17] [18] [19] )

Когда данные попадают в категорию MNAR, доступны методы для последовательной оценки параметров, когда в модели выполняются определенные условия. [3] Например, если Y объясняет причину missingness в X и Y самого пропущенными значений, то совместные распределение вероятностей по X и Y все еще может быть оценено , если missingness из Y является случайным. Оценка в этом случае будет:

где и обозначают наблюдаемые части соответствующих переменных.

Различные структуры модели могут давать разные оценки и разные процедуры оценки, если возможна последовательная оценка. Предыдущие вызовы estimand для первого оценивания от полных данных и умножения его оценок , от случаев , в которых Y наблюдается независимо от статуса X . Более того, для получения непротиворечивой оценки очень важно, чтобы первый член был противоположен .

Во многих случаях методы, основанные на моделях, позволяют модельной структуре пройти опровержение. [19] Любая модель , которая предполагает независимость между частично наблюдаемой переменной X и индикатором missingness другого переменной Y (то есть ), обусловливающие может быть представлена следующим испытание опровержения: .

Наконец, оценки, которые возникают с помощью этих методов, выводятся в закрытой форме и не требуют итерационных процедур, таких как максимизация ожидания, которые подвержены локальным оптимумам. [20]

Особый класс проблем возникает, когда вероятность пропуска зависит от времени. Например, в базах данных о травмах вероятность потери данных о результате травмы зависит от дня после травмы. В этих случаях применяются различные нестационарные модели цепей Маркова .[21]

См. Также [ править ]

  • Цензура (статистика)
  • Алгоритм ожидания – максимизации
  • Индикаторная переменная
  • Взвешивание обратной вероятности
  • Скрытая переменная
  • Завершение матрицы

Ссылки [ править ]

  1. ^ Месснер SF (1992). «Изучение последствий представления ошибочных данных для межнационального исследования убийств». Журнал количественной криминологии . 8 (2): 155–173. DOI : 10.1007 / bf01066742 . S2CID  133325281 .
  2. ^ a b c d Рука, Дэвид Дж .; Адер, Герман Дж .; Мелленберг, Гидеон Дж. (2008). Консультации по методам исследования: помощник консультанта . Хейзен, Нидерланды: Йоханнес ван Кессель. С. 305–332. ISBN 978-90-79418-01-5.
  3. ^ а б Мохан, Картика; Перл, Иудея; Тиан, Джин (2013). Достижения в системах обработки нейронной информации 26 . С. 1277–1285.
  4. ^ Карван, Юхо (2015). «Дизайн исследования в причинных моделях» . Скандинавский статистический журнал . 42 (2): 361–377. arXiv : 1211.2958 . DOI : 10.1111 / sjos.12110 . S2CID 53642701 . 
  5. ^ a b Полит DF Beck CT (2012). Медсестринское исследование: создание и оценка доказательств для сестринской практики, 9-е изд . Филадельфия, США: Wolters Klower Health, Lippincott Williams & Wilkins.
  6. ^ Дэн (2012-10-05). «О биостатистике и клинических исследованиях» . Архивировано из оригинального 15 марта 2016 года . Дата обращения 13 мая 2016 .
  7. ^ "Архивная копия" . Архивировано 10 сентября 2015 года . Проверено 1 августа 2015 .CS1 maint: заархивированная копия как заголовок ( ссылка )
  8. ^ Литтл, Родерик JA; Рубин, Дональд Б. (2002), Статистический анализ с отсутствующими данными (2-е изд.), Wiley.
  9. ^ Ли, Тяньцзин; Хатфлесс, Сьюзен; Scharfstein, Daniel O .; Дэниелс, Майкл Дж .; Хоган, Джозеф В .; Литтл, Родерик JA; Рой, Джейсон А .; Закон, Эндрю Х .; Дикерсин, Кей (2014). «Следует применять стандарты для предотвращения и обработки недостающих данных для исследования исходов, ориентированных на пациента: систематический обзор и консенсус экспертов» . Журнал клинической эпидемиологии . 67 (1): 15–32. DOI : 10.1016 / j.jclinepi.2013.08.013 . PMC 4631258 . PMID 24262770 .  
  10. ^ а б Ступ, И .; Billiet, J .; Koch, A .; Фитцджеральд Р. (2010). Уменьшение количества неответов на опросы: уроки, извлеченные из Европейского социального исследования . Оксфорд: Wiley-Blackwell. ISBN 978-0-470-51669-0.
  11. ^ Грэм JW; Ольховский А.Е .; Гилрит Т.Д. (2007). «Сколько вменений действительно необходимо? Некоторые практические пояснения теории множественных вменений» . Профилактическая наука . 8 (3): 208–213. CiteSeerX 10.1.1.595.7125 . DOI : 10.1007 / s11121-007-0070-9 . PMID 17549635 . S2CID 24566076 .   
  12. ^ Деррик, B; Русь, Б; Toher, D; Белый, П (2017). «Тестовая статистика для сравнения средних значений для двух образцов, включающая как парные, так и независимые наблюдения» . Журнал современных прикладных статистических методов . 16 (1): 137–157. DOI : 10.22237 / jmasm / 1493597280 .
  13. ^ Чечик, Gal; Хейтц, Гереми; Элидан, Гал; Аббель, Питер ; Коллер, Дафна (01.06.2008). «Классификация неполных данных по максимальной марже» (PDF) . Системы обработки нейронной информации : 233–240.
  14. ^ Чечик, Gal; Хейтц, Гереми; Элидан, Гал; Аббель, Питер ; Коллер, Дафна (01.06.2008). «Классификация данных с максимальной маржой без признаков» . Журнал исследований в области машинного обучения . 9 : 1–21. ISSN 1532-4435 . 
  15. ^ Укротитель, Эли (2010). «Частичная идентификация в эконометрике» . Ежегодный обзор экономики . 2 (1): 167–195. DOI : 10.1146 / annurev.economics.050708.143401 .
  16. ^ Мохан, Картика; Жемчуг, Иудея (2014). «О тестируемости моделей с недостающими данными». Труды AISTAT-2014, готовятся к печати .
  17. ^ Darwiche Аднан (2009). Моделирование и рассуждение с помощью байесовских сетей . Издательство Кембриджского университета.
  18. ^ Поттхофф, РФ; Тюдор, GE; Pieper, KS; Хассельблад, В. (2006). «Можно ли оценить, отсутствуют ли случайным образом недостающие данные в медицинских исследованиях?» . Статистические методы в медицинских исследованиях . 15 (3): 213–234. DOI : 10.1191 / 0962280206sm448oa . PMID 16768297 . S2CID 12882831 .  
  19. ^ a b Перл, Иудея; Мохан, Картика (2013). Восстанавливаемость и возможность тестирования отсутствующих данных: введение и сводка результатов (PDF) (технический отчет). Департамент компьютерных наук UCLA, R-417.
  20. ^ Mohan, K .; Van den Broeck, G .; Чой, А .; Перл, Дж. (2014). «Эффективный метод изучения параметров байесовской сети на основе неполных данных». Представлено на семинаре по каузальному моделированию и машинному обучению, ICML-2014 .
  21. ^ Миркс, EM; Пальто, TJ; Levesley, J .; Горбань, АН (2016). «Обработка недостающих данных в большом наборе медицинских данных: тематическое исследование неизвестных результатов травм» . Компьютеры в биологии и медицине . 75 : 203–216. arXiv : 1604.00627 . Bibcode : 2016arXiv160400627M . DOI : 10.1016 / j.compbiomed.2016.06.004 . PMID 27318570 . S2CID 5874067 . Архивировано 5 августа 2016 года.  

Дальнейшее чтение [ править ]

  • Acock AC (2005), «Работа с отсутствующими значениями» , Journal of Marriage and Family , 67 (4): 1012–28, doi : 10.1111 / j.1741-3737.2005.00191.x , заархивировано с оригинала на 2013-01 -05
  • Эллисон, Пол Д. (2001), отсутствующие данные , SAGE Publishing
  • Буза-Эррера, Карлос Н. (2013), Обработка отсутствующих данных при ранжированной выборке , Springer
  • Эндерс, Крейг К. (2010), Прикладной анализ отсутствующих данных , Guilford Press
  • Грэм, Джон В. (2012), отсутствующие данные , Springer
  • Моленбергс, Герт; Фитцморис, Гарретт; Kenward, Майкл G .; Циатис, Анастасиос; Verbeke, Geert, eds. (2015), Справочник по методологии недостающих данных , Chapman & Hall
  • Рагхунатан, Trivellore (2016), Анализ отсутствующих данных на практике , Chapman & Hall
  • Литтл, Родерик JA; Рубин, Дональд Б. (2002), Статистический анализ с отсутствующими данными (2-е изд.), Wiley
  • Циатис, Анастасиос А. (2006), Полупараметрическая теория и отсутствующие данные , Springer
  • Ван ден Брок Дж., Каннингем С.А., Экелс Р., Хербст К. (2005), «Очистка данных: обнаружение, диагностика и редактирование аномалий данных», PLOS Medicine , 2 (10): e267, doi : 10.1371 / journal.pmed.0020267 , PMC  1198040 , PMID  16138788 , S2CID  5667073
  • Сарате Л.Е., Ногейра Б.М., Сантос Т.Р., Сонг М.А. (2006). «Методы восстановления недостающей ценности в несбалансированных базах данных: применение в маркетинговой базе данных с огромным количеством недостающих данных». Международная конференция IEEE по системам, человеку и кибернетике, 2006. SMC '06 . 3 . С. 2658–2664. DOI : 10.1109 / ICSMC.2006.385265 .

Внешние ссылки [ править ]

Фон [ править ]

  • Отсутствующие значения-предвидение
  • Psywiki.com: отсутствующие значения , определение отсутствующих значений и работа с отсутствующими значениями
  • missingdata.org.uk , Департамент медицинской статистики, Лондонская школа гигиены и тропической медицины
  • Анализ пространственных и временных тенденций долгосрочных данных об осадках в водосборах с недостаточным объемом данных и отсутствующими данными, тематическое исследование поймы Нижнего Шира в Малави за период 1953–2010 гг. https://www.hydrol-earth-syst-sci-discuss.net/hess-2017-601/hess-2017-601.pdf
  • R-miss-tastic , Единая платформа для методов и рабочих процессов с отсутствующими значениями.

Программное обеспечение [ править ]

  • Mplus
  • PROC MI и PROC MIANALYZE - SAS
  • SPSS