Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистических данных , вменение является процесс замены отсутствующих данных с замещенными значениями. При подстановке точки данных это известно как «единичное вменение»; при замене компонента точки данных это известно как «вменение элемента». Отсутствие данных приводит к трем основным проблемам: отсутствие данных может привести к значительному смещению, затруднить обработку и анализ данных и снизить эффективность. [1] Поскольку отсутствующие данные могут создать проблемы для анализа данных, вменение рассматривается как способ избежать ловушек, связанных с удалением по списку случаев, в которых отсутствуют значения. То есть, когда для случая отсутствуют одно или несколько значений, большинствостатистические пакеты по умолчанию отбрасывают любой случай с пропущенным значением, что может внести систематическую ошибку или повлиять на репрезентативность результатов. Вменение сохраняет все случаи, заменяя отсутствующие данные оценочным значением, основанным на другой доступной информации. После того, как все пропущенные значения были вменены, набор данных может быть проанализирован с использованием стандартных методов для получения полных данных. [2]Ученые выдвигали множество теорий, объясняющих недостающие данные, но большинство из них вносят предвзятость. Некоторые из хорошо известных попыток справиться с отсутствующими данными включают: условное исчисление hot deck и cold deck; списочное и попарное удаление; среднее вменение; неотрицательная матричная факторизация; регрессионное вменение; последнее наблюдение перенесено; стохастическое вменение; и множественное вменение.

Удаление по списку (полный регистр) [ править ]

Безусловно, наиболее распространенным средством работы с отсутствующими данными является удаление по списку (также известное как полный регистр), когда удаляются все наблюдения с отсутствующим значением. Если данные отсутствуют полностью случайным образом , то удаление по списку не добавляет смещения, но снижает мощность.анализа за счет уменьшения эффективного размера выборки. Например, если собрано 1000 случаев, но 80 имеют пропущенные значения, эффективный размер выборки после удаления по списку составляет 920. Если случаи не пропущены полностью случайным образом, то удаление по списку приведет к смещению, поскольку подвыборка случаев, представленных отсутствующие данные не являются репрезентативными для исходной выборки (и если исходная выборка сама была репрезентативной выборкой для генеральной совокупности, полные случаи также не являются репрезентативными для этой генеральной совокупности). Хотя удаление по списку является беспристрастным, когда отсутствующие данные отсутствуют полностью случайным образом, в действительности это случается редко. [3]

Попарное удаление (или «анализ доступного случая») включает удаление случая, когда отсутствует переменная, необходимая для конкретного анализа, но включение этого случая в анализы, для которых присутствуют все требуемые переменные. Когда используется попарное удаление, общее N для анализа не будет согласованным для оценок параметров. Из-за неполных значений N в некоторые моменты времени, при сохранении полного сравнения случаев для других параметров, попарное удаление может привести к невозможным математическим ситуациям, таким как корреляции, превышающие 100%. [4]

Одно из преимуществ полного удаления кейсов перед другими методами состоит в том, что его легко реализовать. Это большая причина, по которой полный регистр является наиболее популярным методом обработки недостающих данных, несмотря на множество его недостатков.

Единичное вменение [ править ]

Hot-deck [ править ]

Некогда распространенным методом вменения было вменение по методу «горячей колоды», когда отсутствующее значение вменялось из случайно выбранной аналогичной записи. Термин «горячая колода» восходит к хранению данных на перфокартах и указывает, что доноры информации происходят из того же набора данных, что и получатели. Стопка карточек была «горячей», потому что в данный момент она обрабатывалась.

Одна из форм условного вменения называется «перенесенным последним наблюдением» (или сокращенно LOCF), которая включает в себя сортировку набора данных по любой из нескольких переменных, создавая таким образом упорядоченный набор данных. Затем метод находит первое отсутствующее значение и использует значение ячейки непосредственно перед отсутствующими данными для вменения отсутствующего значения. Процесс повторяется для следующей ячейки с пропущенным значением до тех пор, пока все пропущенные значения не будут вычислены. В распространенном сценарии, в котором случаи представляют собой повторные измерения переменной для человека или другого объекта, это представляет собой уверенность в том, что если измерение отсутствует, лучше всего предположить, что оно не изменилось с момента последнего измерения. Известно, что этот метод увеличивает риск увеличения предвзятости и потенциально ложных выводов.По этой причине LOCF не рекомендуется использовать.[5]

Холодная дека [ править ]

Напротив, условное исчисление методом «холодной колоды» отбирает доноров из другого набора данных. Благодаря развитию компьютерных возможностей, более сложные методы вменения, как правило, вытеснили первоначальные методы случайного и отсортированного вменения. Это метод замены аналогичных вопросов в прошлых опросах на значения ответов. Он доступен в опросах, измеряющих временные интервалы.

Среднее замещение [ править ]

Другой метод вменения включает замену любого пропущенного значения средним значением этой переменной для всех других случаев, что дает то преимущество, что не меняет выборочное среднее для этой переменной. Однако среднее вменение ослабляет любые корреляции, включающие вменяемые переменные. Это связано с тем, что в случаях с условным исчислением гарантируется отсутствие связи между условно исчисляемой переменной и любыми другими измеряемыми переменными. Таким образом, среднее вменение имеет некоторые привлекательные свойства для одномерного анализа, но становится проблематичным для многомерного анализа.

Среднее вменение может быть выполнено внутри классов (т. Е. Категорий, таких как пол), и может быть выражено как где - вмененное значение для записи и - выборочное среднее данных респондентов в пределах некоторого класса . Это частный случай вменения обобщенной регрессии:

При этом значения оцениваются из регресса на в не вмененных данных, является переменным манекеном для членства в классе, и данные разбиты на респондент ( ) и пропавшие без вести ( ). [6] [7]

Неотрицательная матричная факторизация [ править ]

Неотрицательная матричная факторизация (NMF) может принимать недостающие данные, минимизируя при этом свою функцию стоимости, вместо того, чтобы обрабатывать эти недостающие данные как нули, которые могут привести к смещению. [8] Это делает его математически доказанным методом вменения данных. Сначала доказывая, что отсутствующие данные игнорируются в функции стоимости, а затем доказывая, что влияние отсутствующих данных может быть таким же небольшим, как эффект второго порядка.

Регресс [ править ]

Регрессионное вменение имеет противоположную проблему вменения среднего. Предполагается, что регрессионная модель предсказывает наблюдаемые значения переменной на основе других переменных, и затем эта модель используется для условного исчисления значений в случаях, когда значение этой переменной отсутствует. Другими словами, доступная информация для полных и неполных случаев используется для прогнозирования значения конкретной переменной. Затем для вменения пропущенных значений используются подобранные значения из регрессионной модели. Проблема в том, что условно исчисленные данные не содержат члена ошибки, включенного в их оценку, поэтому оценки идеально соответствуют линии регрессии без какой-либо остаточной дисперсии. Это приводит к переопределению взаимосвязей и предполагает большую точность вмененных значений, чем это требуется.Модель регрессии предсказывает наиболее вероятное значение отсутствующих данных, но не дает неопределенности относительно этого значения.

Стохастическая регрессия была довольно успешной попыткой исправить отсутствие члена ошибки в вменении регрессии путем добавления средней дисперсии регрессии к вмененным значениям регрессии, чтобы ввести ошибку. Стохастическая регрессия показывает гораздо меньшую систематическую ошибку, чем вышеупомянутые методы, но все же упускает одну вещь - если данные рассчитываются, то интуитивно можно было бы подумать, что в проблему следует внести больше шума, чем простая остаточная дисперсия. [4]

Множественное вменение [ править ]

Чтобы справиться с проблемой увеличения шума из-за вменения, Рубин (1987) [9] разработал метод усреднения результатов по множеству вмененных наборов данных, чтобы учесть это. Все методы множественного вменения включают три этапа.

  1. Вменение - аналогично единственному вменению, пропущенные значения вменяются. Однако условно исчисленные значения берутся m раз из распределения, а не один раз. В конце этого шага должно быть m завершенных наборов данных.
  2. Анализ - анализируется каждый из m наборов данных. В конце этого шага должно быть m анализов.
  3. Объединение - результаты m объединяются в один результат путем вычисления среднего значения, дисперсии и доверительного интервала для рассматриваемой переменной [10] [11] или путем объединения симуляций из каждой отдельной модели. [12]

Так же, как существует несколько методов единственного вменения, существует также несколько методов множественного вменения. Одно из преимуществ множественного вменения по сравнению с методами единственного вменения и полного случая состоит в том, что множественное вменение является гибким и может использоваться в самых разных сценариях. Множественное вменение может использоваться в случаях, когда данные отсутствуют полностью случайным образом , отсутствуют случайным образом и даже когда данные отсутствуют не случайно . Однако основным методом множественного вменения является множественное вменение с помощью связанных уравнений (MICE). Это также известно как «полностью условная спецификация» и «последовательная регрессия с множественным вменением». [13]Было показано, что MICE очень хорошо работает с отсутствующими случайными данными, хотя есть свидетельства, позволяющие предположить, посредством моделирования, что либо с достаточным количеством вспомогательных переменных, он также может работать с данными, которые отсутствуют не случайно; использование скрытой переменной (полученной с помощью метода анализа скрытых классов, дает более точные оценки по MICE). [14]

Как упоминалось в предыдущем разделе, единичное вменение не учитывает неопределенность вменений. После вменения данные обрабатываются так, как если бы они были фактическими реальными значениями в единичном вменении. Пренебрежение неопределенностью при вменении может и приведет к чрезмерно точным результатам и ошибкам в любых сделанных выводах. [15] При многократном вменении учитывается неопределенность и диапазон значений, которые могло бы принять истинное значение.

Кроме того, хотя единичное вменение и полное дело реализовать проще, множественное вменение не очень сложно. В различном статистическом программном обеспечении имеется широкий спектр различных статистических пакетов, которые позволяют легко выполнять множественное вменение. Например, пакет MICE позволяет пользователям в R выполнять множественное вменение с помощью метода MICE. [16]

См. Также [ править ]

  • Самостоятельная загрузка (статистика)
  • Цензурирование (статистика)
  • Гео-вменение
  • Интерполяция
  • Алгоритм ожидания – максимизации

Ссылки [ править ]

  1. ^ Барнард, Дж .; Мэн, XL (1999-03-01). «Применение множественного вменения в медицинских исследованиях: от СПИДа до NHANES». Статистические методы в медицинских исследованиях . 8 (1): 17–36. DOI : 10.1177 / 096228029900800103 . ISSN  0962-2802 . PMID  10347858 . S2CID  11453137 .
  2. Гельман, Эндрю и Дженнифер Хилл. Анализ данных с использованием регрессионных и многоуровневых / иерархических моделей. Издательство Кембриджского университета, 2006. Глава 25.
  3. ^ Kenward, Michael G (2013-02-26). «Обработка недостающих данных в клинических испытаниях» . Клиническое исследование . 3 (3): 241–250. DOI : 10,4155 / cli.13.7 . ISSN 2041-6792 . 
  4. ^ а б Эндерс, СК (2010). Прикладной анализ отсутствующих данных . Нью-Йорк: Guilford Press. ISBN 978-1-60623-639-0.
  5. ^ Мольнар, Франк Дж .; Хаттон, Брайан; Фергюссон, Дин (2007-10-07). «Вносит ли анализ с использованием« перенесенного последнего наблюдения »предвзятость в исследованиях деменции?» . Журнал Канадской медицинской ассоциации . 179 (8): 751–753. DOI : 10,1503 / cmaj.080820 . ISSN 0820-3946 . PMC 2553855 . PMID 18838445 .   
  6. ^ Kalton, Graham (1986). «Обработка недостающих данных обследования». Методология исследования . 12 : 1–16.
  7. ^ Калтон, Грэм; Каспршик, Даниэль (1982). «Вменение недостающих ответов на опрос» (PDF) . Материалы раздела по методам опросного исследования . Американская статистическая ассоциация . 22 . S2CID 195855359 .  
  8. ^ Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование данных для разделения сигналов в высококонтрастной визуализации». Астрофизический журнал . 892 (2): 74. arXiv : 2001.00563 . Bibcode : 2020ApJ ... 892 ... 74R . DOI : 10,3847 / 1538-4357 / ab7024 . S2CID 209531731 . 
  9. Рубин, Дональд (9 июня 1987 г.). Множественное вменение за неполучение ответов в опросах . Серия Уайли по вероятности и статистике. Вайли. DOI : 10.1002 / 9780470316696 . ISBN 9780471087052.
  10. Перейти ↑ Yuan, Yang C. (2010). «Множественное вменение недостающих данных: концепции и новые разработки» (PDF) . SAS Institute Inc., Роквилл, штат Мэриленд . 49 : 1–11.
  11. ^ Van Buuren, Стеф (2012-03-29). «2. Множественное вменение». Гибкое вменение отсутствующих данных . Chapman & Hall / CRC Interdisciplinary Statistics Series. 20125245 . Чепмен и Холл / CRC. DOI : 10.1201 / b11826 . ISBN 9781439868249.
  12. ^ Король, Гэри; Хонакер, Джеймс; Джозеф, Энн; Шеве, Кеннет (март 2001 г.). «Анализ неполных данных политологии: альтернативный алгоритм для множественного вменения» . Обзор американской политической науки . 95 (1): 49–69. DOI : 10.1017 / S0003055401000235 . ISSN 1537-5943 . 
  13. ^ Азур, Мелисса Дж .; Стюарт, Элизабет А .; Франгакис, Константин; Лист, Филип Дж. (2011-03-01). «Множественное вменение посредством связанных уравнений: что это такое и как это работает?» . Международный журнал методов психиатрических исследований . 20 (1): 40–49. DOI : 10.1002 / mpr.329 . ISSN 1557-0657 . PMC 3074241 . PMID 21499542 .   
  14. ^ Сулис, Изабелла; Порку, Мариано (июль 2017 г.). «Обработка отсутствующих данных в теории ответов на вопросы. Оценка точности процедуры множественного вменения на основе анализа скрытых классов». Журнал классификации . 34 (2): 327–359. DOI : 10.1007 / s00357-017-9220-3 . ISSN 0176-4268 . S2CID 6040710 .  
  15. ^ Грэм, Джон В. (2009-01-01). «Анализ недостающих данных: как заставить его работать в реальном мире». Ежегодный обзор психологии . 60 : 549–576. DOI : 10.1146 / annurev.psych.58.110405.085530 . ISSN 0066-4308 . PMID 18652544 .  
  16. ^ Хортон, Николас Дж .; Клейнман, Кен П. (2007-02-01). «Много шума из ничего: сравнение методов недостающих данных и программного обеспечения для соответствия неполным моделям регрессии данных» . Американский статистик . 61 (1): 79–90. DOI : 10.1198 / 000313007X172556 . ISSN 0003-1305 . PMC 1839993 . PMID 17401454 .   

Внешние ссылки [ править ]

  • Недостающие данные: Слонопотам на уровне инструмента и Вузлы на уровне предмета
  • Multiple-imputation.com
  • Часто задаваемые вопросы о множественном вменении, Penn State U
  • Описание вменения hot deck от Статистического управления Финляндии.
  • Документ, расширяющий подход Рао-Шао и обсуждающий проблемы с множественным вменением.
  • Бумажный алгоритм индукции нечетких неупорядоченных правил, используемый в качестве методов вменения отсутствующих значений для кластеризации K-среднего на реальных сердечно-сосудистых данных.
  • [1] Реальное применение импутации Национальным статистическим управлением Великобритании.