Удаление по списку

В статистике , listwise удаление является способ обработки недостающих данных . В этом методе вся запись исключается из анализа, если отсутствует какое-либо одно значение. ^[1]^{: 6}

Пример [ править ]

Например, рассмотрите следующую анкету, на которую ответили 10 испытуемых:

Предмет	Возраст	Пол	Доход
1	29	M	40 000 долл. США
2	45	M	36 000 долл. США
3	81 год	M	--отсутствующий--
4	22	--отсутствующий--	16 000 долл. США
5	41 год	M	98 000 долл. США
6	33	F	60 000 долл. США
7	22	F	24 000 долл. США
8	--отсутствующий--	F	81 000 долл. США
9	33	F	55 000 долл. США
10	45	F	80 000 долл. США

Исследователь надеется смоделировать доход ( зависимая переменная ) на основе возраста и пола (независимые переменные). Используя удаление по списку, исследователь удалял субъектов 3, 4 и 8 из выборки перед выполнением любого дальнейшего анализа.

Проблемы с удалением по списку [ править ]

Списочное удаление влияет на статистическую мощность проведенных тестов. ^[2]^[3] Статистическая мощность частично зависит от большого размера выборки. Поскольку удаление по списку исключает данные с пропущенными значениями, оно сокращает выборку, которая подвергается статистическому анализу.

Списочное удаление также проблематично, когда причина отсутствия данных может быть не случайной (например, вопросы в анкетах, направленные на извлечение конфиденциальной информации. ^[3] Из-за метода большая часть данных субъектов будет исключена из анализа, что приведет к смещению) в результатах данных. Например, анкета может включать вопросы об истории употребления наркотиков респондентами, текущем доходе или сексуальных убеждениях. Многие из испытуемых в выборке могут не отвечать из-за навязчивого характера вопросов, но могут отвечать на все остальные вопросы. . Удаление по списку исключает этих респондентов из анализа. Это может создать предвзятость, поскольку участники, которые разглашают эту информацию, могут иметь характеристики, отличные от характеристик участников, которые этого не делают.Множественное вменение - это альтернативный метод работы с отсутствующими данными, который пытается устранить эту систематическую ошибку.

По сравнению с другими методами [ править ]

Хотя удаление по списку имеет свои проблемы, оно предпочтительнее многих других методов обработки недостающих данных. ^[1]^{: 7} В некоторых случаях это может быть даже наименее проблемный метод. ^[1]^{: 6} В следующей таблице представлены некоторые сравнения списковых удалений с другими методами:

Методика	Сравнение
Попарное удаление	Неоднозначное определение размера выборки вызывает систематическую ошибку в оценках стандартных ошибок и статистике тестов. ^[1]^{: 9}
Регулировка фиктивной переменной	Производит предвзятые оценки коэффициентов. ^[4]

Ссылки [ править ]

^ ^а ^б ^в ^г Элисон, PD (2001). Отсутствующие данные . Серия документов Sage University по количественным приложениям в социальных науках. 07–136. Таузенд-Оукс, Калифорния: Сейдж.
Перейти ↑ Roth, PL (1994). «Недостающие данные: концептуальный обзор для прикладных психологов». Психология персонала . 47 (3): 537–559. DOI : 10.1111 / j.1744-6570.1994.tb01736.x .
^ ^а ^б Олинский, А .; Chen, S .; Харлоу, Л. (2003). «Сравнительная эффективность методов вменения недостающих данных при моделировании структурным уравнением». Европейский журнал операционных исследований . 151 (1): 53–79. DOI : 10.1016 / S0377-2217 (02) 00578-7 .
Перейти ↑ Jones, MP (1996). «Индикатор и методы стратификации для пропущенных независимых переменных в множественной линейной регрессии». J. Amer. Статист. Доц. 91 (433): 222–230. DOI : 10.1080 / 01621459.1996.10476680 . Цитируется Allison (2001), стр. 10.

[Allison2001-1] а ^б ^в ^г Элисон, PD (2001). Отсутствующие данные . Серия документов Sage University по количественным приложениям в социальных науках. 07–136. Таузенд-Оукс, Калифорния: Сейдж.

[2] Перейти ↑ Roth, PL (1994). «Недостающие данные: концептуальный обзор для прикладных психологов». Психология персонала . 47 (3): 537–559. DOI : 10.1111 / j.1744-6570.1994.tb01736.x .

[Olinsky_et_al.,_2003-3] а ^б Олинский, А .; Chen, S .; Харлоу, Л. (2003). «Сравнительная эффективность методов вменения недостающих данных при моделировании структурным уравнением». Европейский журнал операционных исследований . 151 (1): 53–79. DOI : 10.1016 / S0377-2217 (02) 00578-7 .

[4] Перейти ↑ Jones, MP (1996). «Индикатор и методы стратификации для пропущенных независимых переменных в множественной линейной регрессии». J. Amer. Статист. Доц. 91 (433): 222–230. DOI : 10.1080 / 01621459.1996.10476680 . Цитируется Allison (2001), стр. 10.

[1]