В статистике , listwise удаление является способ обработки недостающих данных . В этом методе вся запись исключается из анализа, если отсутствует какое-либо одно значение. [1] : 6
Пример [ править ]
Например, рассмотрите следующую анкету, на которую ответили 10 испытуемых:
Предмет | Возраст | Пол | Доход |
---|---|---|---|
1 | 29 | M | 40 000 долл. США |
2 | 45 | M | 36 000 долл. США |
3 | 81 год | M | --отсутствующий-- |
4 | 22 | --отсутствующий-- | 16 000 долл. США |
5 | 41 год | M | 98 000 долл. США |
6 | 33 | F | 60 000 долл. США |
7 | 22 | F | 24 000 долл. США |
8 | --отсутствующий-- | F | 81 000 долл. США |
9 | 33 | F | 55 000 долл. США |
10 | 45 | F | 80 000 долл. США |
Исследователь надеется смоделировать доход ( зависимая переменная ) на основе возраста и пола (независимые переменные). Используя удаление по списку, исследователь удалял субъектов 3, 4 и 8 из выборки перед выполнением любого дальнейшего анализа.
Проблемы с удалением по списку [ править ]
Списочное удаление влияет на статистическую мощность проведенных тестов. [2] [3] Статистическая мощность частично зависит от большого размера выборки. Поскольку удаление по списку исключает данные с пропущенными значениями, оно сокращает выборку, которая подвергается статистическому анализу.
Списочное удаление также проблематично, когда причина отсутствия данных может быть не случайной (например, вопросы в анкетах, направленные на извлечение конфиденциальной информации. [3] Из-за метода большая часть данных субъектов будет исключена из анализа, что приведет к смещению) в результатах данных. Например, анкета может включать вопросы об истории употребления наркотиков респондентами, текущем доходе или сексуальных убеждениях. Многие из испытуемых в выборке могут не отвечать из-за навязчивого характера вопросов, но могут отвечать на все остальные вопросы. . Удаление по списку исключает этих респондентов из анализа. Это может создать предвзятость, поскольку участники, которые разглашают эту информацию, могут иметь характеристики, отличные от характеристик участников, которые этого не делают.Множественное вменение - это альтернативный метод работы с отсутствующими данными, который пытается устранить эту систематическую ошибку.
По сравнению с другими методами [ править ]
Хотя удаление по списку имеет свои проблемы, оно предпочтительнее многих других методов обработки недостающих данных. [1] : 7 В некоторых случаях это может быть даже наименее проблемный метод. [1] : 6 В следующей таблице представлены некоторые сравнения списковых удалений с другими методами:
Методика | Сравнение |
---|---|
Попарное удаление | Неоднозначное определение размера выборки вызывает систематическую ошибку в оценках стандартных ошибок и статистике тестов. [1] : 9 |
Регулировка фиктивной переменной | Производит предвзятые оценки коэффициентов. [4] |
Ссылки [ править ]
- ^ а б в г Элисон, PD (2001). Отсутствующие данные . Серия документов Sage University по количественным приложениям в социальных науках. 07–136. Таузенд-Оукс, Калифорния: Сейдж.
- Перейти ↑ Roth, PL (1994). «Недостающие данные: концептуальный обзор для прикладных психологов». Психология персонала . 47 (3): 537–559. DOI : 10.1111 / j.1744-6570.1994.tb01736.x .
- ^ а б Олинский, А .; Chen, S .; Харлоу, Л. (2003). «Сравнительная эффективность методов вменения недостающих данных при моделировании структурным уравнением». Европейский журнал операционных исследований . 151 (1): 53–79. DOI : 10.1016 / S0377-2217 (02) 00578-7 .
- Перейти ↑ Jones, MP (1996). «Индикатор и методы стратификации для пропущенных независимых переменных в множественной линейной регрессии». J. Amer. Статист. Доц. 91 (433): 222–230. DOI : 10.1080 / 01621459.1996.10476680 . Цитируется Allison (2001), стр. 10.