Порядковые данные

Порядковые данные - это категориальный статистический тип данных, в котором переменные имеют естественные упорядоченные категории, а расстояние между категориями неизвестно. ^[1]^{: 2} Эти данные представлены в виде порядковой шкалы , одного из четырех уровней измерения, описанных С.С. Стивенсом в 1946 году. Порядковая шкала отличается от номинальной шкалы наличием ранжирования . Он также отличается от шкал интервалов и соотношений тем, что не имеет ширины категорий, которые представляют равные приращения базового атрибута. ^[2]

Примеры порядковых данных [ править ]

Хорошо известным примером порядковых данных является шкала Лайкерта . Пример шкалы Лайкерта: ^[3]^{: 685}

Нравиться	Вроде как	Нейтральный	Немного не нравится	Неприязнь
1	2	3	4	5

Примеры порядковых данных часто можно найти в анкетах: например, вопрос анкеты «Каково ваше общее состояние здоровья - плохое, удовлетворительное, хорошее или отличное?» эти ответы могут быть закодированы соответственно как 1, 2, 3 и 4. Иногда данные на шкале интервалов или шкале отношений группируются по порядковой шкале: например, люди, чей доход известен, могут быть сгруппированы по категориям дохода от 0 до 19 999 долларов США. , 20 000–39 999 долларов, 40 000–59 999 долларов, ..., которые затем могут быть закодированы как 1, 2, 3, 4, .... Другие примеры порядковых данных включают социально-экономический статус, воинские звания и буквенные оценки за курсовую работу. ^[4]

Способы анализа порядковых данных [ править ]

Для анализа обычных данных требуется другой набор анализов, чем для других качественных переменных. Эти методы включают естественный порядок переменных, чтобы избежать потери мощности. ^[1]^{: 88 Не} рекомендуется вычислять среднее значение выборки порядковых данных; другие меры центральной тенденции, в том числе медиана или мода, как правило, более уместны. ^[5]

Общие [ править ]

Стивенс (1946) утверждал, что, поскольку предположение о равном расстоянии между категориями не выполняется для порядковых данных, использование средних значений и стандартных отклонений для описания порядковых распределений и статистических выводов, основанных на средних и стандартных отклонениях, неуместно. Вместо этого следует использовать позиционные меры, такие как медиана и процентили, в дополнение к описательной статистике, подходящей для номинальных данных (количество наблюдений, режим, корреляция непредвиденных обстоятельств). ^[2]^{: 678} Непараметрические методы были предложены как наиболее подходящие процедуры для статистических выводов, включающих порядковые данные, особенно те, которые были разработаны для анализа ранжированных измерений. ^[4]^{: 25–28}Однако использование параметрической статистики для порядковых данных может быть допустимо с некоторыми оговорками, чтобы воспользоваться преимуществами более широкого диапазона доступных статистических процедур. ^[6]^[7]^[3]^{: 90}

Одномерная статистика [ править ]

Вместо средних значений и стандартных отклонений одномерная статистика, подходящая для порядковых данных, включает медианное значение ^[8]^{: 59–61,} другие процентили (например, квартили и децили), ^[8]^{: 71} и квартильное отклонение. ^[8]^{: 77} Один образец для испытаний порядковых данных включают в себя тест Колмогорова-Смирнова один пример , ^[4]^{: 51-55} на один образец тестовых прогонов , ^[4]^{: 58-64} и тест на изменение точки. ^[4]^{: 64–71}

Двумерная статистика [ править ]

Вместо проверки различий в средних с помощью t- критериев различия в распределении порядковых данных из двух независимых выборок можно проверить с помощью Mann-Whitney , ^[8]^{: 259–264} прогонов , ^[8]^{: 253–259} Smirnov , ^{[8 ]}^{: 266–269} и знаковые ранги ^[8]^{: 269–273} теста. Тест для двух связанных или совпадающих выборок включает критерий знаков ^[4]^{: 80–87} и критерий знаковых рангов Уилкоксона . ^[4]^{: 87–95} Дисперсионный анализ рангов.^[8]^{: 367–369} и тест Jonckheere для упорядоченных альтернатив ^[4]^{: 216–222} могут быть проведены с порядковыми данными вместо ANOVA независимых выборок. Тесты для более чем двух связанных выборок включают^{двухфакторный} дисперсионный анализ Фридмана по рангам ^[4]^{: 174–183} и тест Пейджа для упорядоченных альтернатив .^[4]^{: 184–188} Меры корреляции, подходящие для двух переменных с порядковой шкалой, включают тау Кендалла ,^[8]^{: 436–439} гамма ,^[8]^{: 442–443} rs ,^[8]^{: 434–436} и d yx / d xy . ^[8]^{: 443}

Приложения регрессии [ править ]

Порядковые данные можно рассматривать как количественную переменную. В логистической регрессии уравнение

{\ displaystyle logit [P (Y = 1)] = \ alpha + \ beta _ {1} c + \ beta _ {2} x}

является моделью, а c принимает заданные уровни категориальной шкалы. ^[1]^{: 189} В регрессионном анализе результаты ( зависимые переменные ), которые являются порядковыми переменными, можно предсказать, используя вариант порядковой регрессии , такой как упорядоченный логит или упорядоченный пробит .

При множественном регрессионном / корреляционном анализе порядковые данные могут быть размещены с использованием степенных полиномов и путем нормализации оценок и рангов. ^[9]

Линейные тренды [ править ]

Линейные тренды также используются для поиска связей между порядковыми данными и другими категориальными переменными, обычно в таблицах непредвиденных обстоятельств . Между переменными находится корреляция r, где r находится между -1 и 1. Чтобы проверить тенденцию, тестовая статистика:

{\ Displaystyle М ^ {2} = (п-1) г ^ {2}}

где n - размер выборки. ^[1]^{: 87}

R можно найти, указав как баллы строки и баллы столбца. Позвольте быть средним значением строки в то время как . Тогда - вероятность предельной строки и - вероятность предельного столбца. R рассчитывается по формуле: ${\ displaystyle u_ {1} \ leq u_ {2} \ leq ... \ leq u_ {I}}$ ${\ Displaystyle v_ {1} \ leq v_ {2} \ leq ... \ leq v_ {I}}$ ${\ displaystyle {\ bar {u}} \ = \ sum _ {i} u_ {i} p_ {i +}}$ ${\ displaystyle {\ bar {v}} \ = \ sum _ {j} v_ {j} p_ {j +}.}$ ${\ displaystyle p_ {я +}}$ ${\ displaystyle p _ {+ j}}$

{\ displaystyle r = {\ frac {\ sum _ {i, j} \ left (u_ {i} - {\ bar {u}} \ \ right) \ left (v_ {j} - {\ bar {v}) } \ \ right) p_ {ij}} {\ sqrt {\ left \ lbrack \ sum _ {i} (u_ {i} - {\ bar {u}} \ \ right) ^ {2} p_ {i +} \ rbrack \ lbrack \ sum _ {j} (v_ {j} - {\ bar {v}} \) ^ {2} p _ {+ j} \ rbrack}}}}

Методы классификации [ править ]

Также были разработаны методы классификации порядковых данных. Данные разделены на разные категории, поэтому все наблюдения похожи друг на друга. Дисперсия измеряется и сводится к минимуму в каждой группе, чтобы максимизировать результаты классификации. Дисперсионная функция используется в теории информации . ^[10]

Статистические модели для порядковых данных [ править ]

Существует несколько различных моделей, которые можно использовать для описания структуры порядковых данных. ^[11] Ниже описаны четыре основных класса моделей, каждый из которых определяется для случайной величины с уровнями, индексируемыми с помощью . ${\ displaystyle Y}$ $k=1,2,\dots ,q$

Обратите внимание, что в определениях моделей ниже значения и не будут одинаковыми для всех моделей для одного и того же набора данных, но нотация используется для сравнения структуры различных моделей. $\mu _{k}$ $\mathbf {\beta }$

Модель пропорциональных шансов [ править ]

Наиболее часто используемой моделью для порядковых данных является модель пропорциональных шансов, определяемая тем, где параметры описывают базовое распределение порядковых данных, являются ковариатами и являются коэффициентами, описывающими эффекты ковариат. $\log \left[{\frac {\Pr(Y\leq k)}{Pr(Y>k)}}\right]=\log \left[{\frac {\Pr(Y\leq k)}{1-\Pr(Y\leq k)}}\right]=\mu _{k}+\mathbf {\beta } ^{T}\mathbf {x}$ $\mu _{k}$ $\mathbf {x}$ $\mathbf {\beta }$

Эту модель можно обобщить, определив модель с использованием вместо , и это сделает модель пригодной для номинальных данных (в которых категории не имеют естественного порядка), а также для порядковых данных. Однако это обобщение может значительно затруднить подгонку модели к данным. $\mu _{k}+\mathbf {\beta } _{k}^{T}\mathbf {x}$ $\mu _{k}+\mathbf {\beta } ^{T}\mathbf {x}$

Модель логита базовой категории [ править ]

Базовая модель категории определяется $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=1)}}\right]=\mu _{k}+\mathbf {\beta } _{k}^{T}\mathbf {x}$

Эта модель не требует упорядочивания категорий и поэтому может применяться как к номинальным, так и к порядковым данным.

Упорядоченная стереотипная модель [ править ]

Модель упорядоченного стереотипа определяется тем, где параметры оценки ограничены таким образом, что . $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=1)}}\right]=\mu _{k}+\phi _{k}\mathbf {\beta } ^{T}\mathbf {x}$ $0=\phi _{1}\leq \phi _{2}\leq \dots \leq \phi _{q}=1$

Это более экономная и более специализированная модель, чем логит-модель базовой категории: ее можно рассматривать как аналогичную . $\phi _{k}\mathbf {\beta }$ $\mathbf {\beta } _{k}$

Модель неупорядоченного стереотипа имеет ту же форму, что и модель упорядоченного стереотипа, но без наложенного упорядочения . Эта модель может быть применена к номинальным данным. $\phi _{k}$

Обратите внимание, что подобранные баллы,, показывают, насколько легко различать разные уровни . Если тогда это означает, что текущий набор данных для ковариат не предоставляет много информации для различения уровней и , но это не обязательно означает, что фактические значения и находятся далеко друг от друга. И если значения ковариат изменится, то для того, что новые данные подогнанные оценки и может затем быть далеко друг от друга. ${\hat {\phi }}_{k}$ $Y$ ${\hat {\phi }}_{k}\approx {\hat {\phi }}_{k-1}$ $\mathbf {x}$ $k$ $k-1$ $k$ $k-1$ ${\hat {\phi }}_{k}$ ${\hat {\phi }}_{k-1}$

Модель логита смежных категорий [ править ]

Модель смежных категорий определяется, хотя наиболее распространенная форма, упоминаемая в Agresti (2010) ^[11] как «форма пропорциональных шансов», определяется следующим образом: $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=k+1)}}\right]=\mu _{k}+\mathbf {\beta } _{k}^{T}\mathbf {x}$ $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=k+1)}}\right]=\mu _{k}+\mathbf {\beta } ^{T}\mathbf {x}$

Эта модель может применяться только к порядковым данным, поскольку моделирование вероятностей перехода от одной категории к следующей подразумевает, что существует упорядочение этих категорий.

Логит-модель смежных категорий можно рассматривать как частный случай логит-модели базовой категории, где . Логит-модель смежных категорий также можно рассматривать как частный случай модели упорядоченного стереотипа, где , т. Е. Расстояния между ними, определяются заранее, а не оцениваются на основе данных. $\mathbf {\beta } _{k}=\mathbf {\beta } (k-1)$ $\phi _{k}\propto k-1$ $\phi _{k}$

Сравнение моделей [ править ]

Модель пропорциональных шансов имеет совершенно иную структуру по сравнению с тремя другими моделями, а также другое основное значение. Обратите внимание, что размер эталонной категории в модели пропорциональных шансов изменяется с , поскольку сравнивается с , тогда как в других моделях размер эталонной категории остается фиксированным по сравнению с или . $k$ $Y\leq k$ $Y>k$ $Y=k$ $Y=1$ $Y=k+1$

Различные функции ссылок [ править ]

Существуют варианты всех моделей, в которых используются разные функции связи, такие как пробит-ссылка или дополнительная ссылка на журнал-журнал.

Визуализация и отображение [ править ]

Порядковые данные можно визуализировать несколькими способами. Распространенными визуализациями являются гистограмма или круговая диаграмма . Таблицы также могут быть полезны для отображения порядковых данных и частот. Мозаичные графики могут использоваться, чтобы показать взаимосвязь между порядковой переменной и номинальной или порядковой переменной. ^[12] Ударная диаграмма - линейная диаграмма, показывающая относительное ранжирование элементов от одного момента времени к другому - также подходит для порядковых данных. ^[13]

Для представления упорядоченного характера данных можно использовать градацию цвета или оттенков серого . Однонаправленная шкала, такая как диапазоны доходов, может быть представлена гистограммой, где увеличение (или уменьшение) насыщенности или яркости одного цвета указывает на более высокий (или более низкий) доход. Порядковое распределение переменной, измеренной по двунаправленной шкале, такой как шкала Лайкерта, также можно проиллюстрировать цветом на гистограмме с накоплением. Нейтральный цвет (белый или серый) может использоваться для средней (нулевой или нейтральной) точки с контрастными цветами, используемыми в противоположных направлениях от средней точки, где увеличение насыщенности или темноты цветов может указывать на категории на увеличивающемся расстоянии от средней точки. ^[14] Картографические картытакже используйте цветную заливку или оттенки серого для отображения порядковых данных. ^[15]

Пример гистограммы мнения о расходах на оборону.

Пример графика мнений политических партий о расходах на оборону.

Пример мозаичного мнения о расходах политической партии на оборону.

Пример составной гистограммы мнения политической партии о расходах на оборону.

Приложения [ править ]

Порядковые данные можно найти в большинстве областей исследований, в которых генерируются категориальные данные. Настройки, в которых часто собираются порядковые данные, включают социальные и поведенческие науки, а также правительственные и деловые учреждения, где измерения собираются у людей путем наблюдения, тестирования или анкетирования . Некоторые общие контексты для сбора порядковых данных включают исследование опроса ; ^[16]^[17] и тестирование интеллекта , способностей и личности . ^[3]^{: 89–90}

См. Также [ править ]

Список анализов категориальных данных

Ссылки [ править ]

^ а б в г Агрести, Алан (2013). Категориальный анализ данных (3-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons. ISBN 978-0-470-46363-5.
^ а б Стивенс, СС (1946). «К теории весов». Наука . Новая серия. 103 (2684): 677–680. Bibcode : 1946Sci ... 103..677S . DOI : 10.1126 / science.103.2684.677 . PMID 17750512 .
^ a b c Коэн, Рональд Джей; Swerdik, Mark E .; Филлипс, Сюзанна М. (1996). Психологическое тестирование и оценка: введение в тесты и измерения (3-е изд.). Маунтин-Вью, Калифорния: Мэйфилд. С. 685 . ISBN 1-55934-427-X.
^ a b c d e f g h i j Сигел, Сидней; Кастеллан, Н. Джон младший (1988). Непараметрическая статистика для поведенческих наук (2-е изд.). Бостон: Макгроу-Хилл. С. 25–26. ISBN 0-07-057357-3.
Перейти ↑ Jamieson, Susan (декабрь 2004 г.). «Весы Лайкерта: как их использовать». Медицинское образование . 38 (12): 1212–1218. DOI : 10.1111 / j.1365-2929.2004.02012.x . PMID 15566531 . S2CID 42509064 .
^ Sarle, Уоррен С. (14 сентября 1997). «Теория измерений: часто задаваемые вопросы» .
^ ван Белль, Джеральд (2002). Статистические правила большого пальца . Нью-Йорк: Джон Вили и сыновья. С. 23–24. ISBN 0-471-40227-3.
^ a b c d e f g h i j k l Блалок, Хьюберт М. мл. (1979). Социальная статистика (Rev. 2-е изд.). Нью-Йорк: Макгроу-Хилл. ISBN 0-07-005752-4.
^ Коэн, Джейкоб; Коэн, Патрисия (1983). Прикладная множественная регрессия / корреляционный анализ для поведенческих наук (2-е изд.). Хиллсдейл, Нью-Джерси: Lawrence Erlbaum Associates. п. 273. ISBN. 0-89859-268-2.
Перейти ↑ Laird, Nan M. (1979). «Примечание по классификации данных в порядковом масштабе». Социологическая методология . 10 : 303–310. DOI : 10.2307 / 270775 . JSTOR 270775 .
^ a b Агрести, Алан (2010). Анализ порядковых категориальных данных (2-е изд.). Хобокен, Нью-Джерси: Wiley. ISBN 978-0470082898.
^ «Методы построения» .
^ Беринато, Скотт (2016). Хорошие диаграммы: Руководство HBR по созданию более умных и убедительных визуализаций данных . Бостон: издательство Harvard Business Review Press. п. 228. ISBN 978-1633690707.
^ Кирк, Энди (2016). Визуализация данных: Справочник по проектированию, основанному на данных (1-е изд.). Лондон: МУДРЕЦ. п. 269. ISBN. 978-1473912144.
^ Каир, Альберто (2016). Правдивое искусство: данные, диаграммы и карты для коммуникации (1-е изд.). Сан-Франциско: новые гонщики. п. 280. ISBN 978-0321934079.
^ Алвин, Дуэйн Ф. (2010). Марсден, Питер V .; Райт, Джеймс Д. (ред.). Оценка надежности и обоснованности сюрвейерских мероприятий . Справочник по опросным исследованиям . Howard House, Wagon Lane, Bingley BD16 1WA, Великобритания: Изумрудный дом. п. 420. ISBN 978-1-84855-224-1.CS1 maint: location (link)
Перейти ↑ Fowler, Floyd J. Jr. (1995). Улучшение вопросов опроса: дизайн и оценка . Таузенд-Оукс, Калифорния: Сейдж. С. 156–165 . ISBN 0-8039-4583-3.

Дальнейшее чтение [ править ]

Агрести, Алан (2010). Анализ порядковых категориальных данных (2-е изд.). Хобокен, Нью-Джерси: Wiley. ISBN 978-0470082898.

[agresti-1] а б в г Агрести, Алан (2013). Категориальный анализ данных (3-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons. ISBN 978-0-470-46363-5.

[stevens-2] а б Стивенс, СС (1946). «К теории весов». Наука . Новая серия. 103 (2684): 677–680. Bibcode : 1946Sci ... 103..677S . DOI : 10.1126 / science.103.2684.677 . PMID 17750512 .

[cohenetal-3] Коэн, Рональд Джей; Swerdik, Mark E .; Филлипс, Сюзанна М. (1996). Психологическое тестирование и оценка: введение в тесты и измерения (3-е изд.). Маунтин-Вью, Калифорния: Мэйфилд. С. 685 . ISBN 1-55934-427-X.

[s&c-4] ^ a b c d e f g h i j Сигел, Сидней; Кастеллан, Н. Джон младший (1988). Непараметрическая статистика для поведенческих наук (2-е изд.). Бостон: Макгроу-Хилл. С. 25–26. ISBN 0-07-057357-3.

[5] Перейти ↑ Jamieson, Susan (декабрь 2004 г.). «Весы Лайкерта: как их использовать». Медицинское образование . 38 (12): 1212–1218. DOI : 10.1111 / j.1365-2929.2004.02012.x . PMID 15566531 . S2CID 42509064 .

[6] Sarle, Уоррен С. (14 сентября 1997). «Теория измерений: часто задаваемые вопросы» .

[7] ван Белль, Джеральд (2002). Статистические правила большого пальца . Нью-Йорк: Джон Вили и сыновья. С. 23–24. ISBN 0-471-40227-3.

[blalock-8] ^ a b c d e f g h i j k l Блалок, Хьюберт М. мл. (1979). Социальная статистика (Rev. 2-е изд.). Нью-Йорк: Макгроу-Хилл. ISBN 0-07-005752-4.

[9] Коэн, Джейкоб; Коэн, Патрисия (1983). Прикладная множественная регрессия / корреляционный анализ для поведенческих наук (2-е изд.). Хиллсдейл, Нью-Джерси: Lawrence Erlbaum Associates. п. 273. ISBN. 0-89859-268-2.

[10] Перейти ↑ Laird, Nan M. (1979). «Примечание по классификации данных в порядковом масштабе». Социологическая методология . 10 : 303–310. DOI : 10.2307 / 270775 . JSTOR 270775 .

[Agresti_2010-11] Агрести, Алан (2010). Анализ порядковых категориальных данных (2-е изд.). Хобокен, Нью-Джерси: Wiley. ISBN 978-0470082898.

[12] «Методы построения» .

[13] Беринато, Скотт (2016). Хорошие диаграммы: Руководство HBR по созданию более умных и убедительных визуализаций данных . Бостон: издательство Harvard Business Review Press. п. 228. ISBN 978-1633690707.

[14] Кирк, Энди (2016). Визуализация данных: Справочник по проектированию, основанному на данных (1-е изд.). Лондон: МУДРЕЦ. п. 269. ISBN. 978-1473912144.

[15] Каир, Альберто (2016). Правдивое искусство: данные, диаграммы и карты для коммуникации (1-е изд.). Сан-Франциско: новые гонщики. п. 280. ISBN 978-0321934079.

[16] Алвин, Дуэйн Ф. (2010). Марсден, Питер V .; Райт, Джеймс Д. (ред.). Оценка надежности и обоснованности сюрвейерских мероприятий . Справочник по опросным исследованиям . Howard House, Wagon Lane, Bingley BD16 1WA, Великобритания: Изумрудный дом. п. 420. ISBN 978-1-84855-224-1.CS1 maint: location (link)

[17] Перейти ↑ Fowler, Floyd J. Jr. (1995). Улучшение вопросов опроса: дизайн и оценка . Таузенд-Оукс, Калифорния: Сейдж. С. 156–165 . ISBN 0-8039-4583-3.

[1]