Порядковая регрессия

Регрессионный анализ
Часть серии по
Модели
Линейная регрессия Простая регрессия Полиномиальная регрессия Общая линейная модель
Обобщенная линейная модель Дискретный выбор Биномиальная регрессия Бинарная регрессия Логистическая регрессия Полиномиальный логит Смешанный логит Пробит Полиномиальный пробит Заказал логит Заказал пробит Пуассон
Многоуровневая модель Фиксированные эффекты Случайные эффекты Линейная модель смешанных эффектов Нелинейная модель смешанных эффектов
Нелинейная регрессия Непараметрический Полупараметрический Крепкий Квантиль Изотонический Основные компоненты Наименьший угол Местный Сегментированный
Ошибки в переменных
Оценка
Наименьших квадратов Линейный Нелинейный
Обычный Взвешенный Обобщенный
Частичное Общее Неотрицательный Регрессия хребта Регулярный
Наименьшие абсолютные отклонения Итеративно переназначенный Байесовский Байесовская многомерная
Задний план
Проверка регрессии Средний и прогнозируемый ответ Ошибки и остатки Доброта подгонки Студентизированный остаток Теорема Гаусса – Маркова
Математический портал
v т е

В статистике , порядковая регрессия (также называемая «порядковая классификацией») представляет собой тип регрессионного анализа используется для прогнозирования в порядковом переменном , т.е. переменного, значение которой существует в произвольном масштабе , где только относительное упорядочение между различными значениями является существенным. Это можно считать промежуточной проблемой между регрессией и классификацией . ^[1]^[2] Примерами порядковой регрессии являются упорядоченный логит и упорядоченный пробит . Порядковая регрессия часто встречается в социальных науках, например, при моделировании уровней предпочтений человека (по шкале, скажем, от 1–5 для «очень плохо» до «отлично»), а также при поиске информации . В машинном обучении порядковая регрессия также может называться ранговым обучением . ^[3]^[а]

Линейные модели для порядковой регрессии [ править ]

Порядковая регрессия может быть выполнена с использованием обобщенной линейной модели (GLM), которая соответствует как вектору коэффициентов, так и набору пороговых значений для набора данных. Предположу , что один имеет набор наблюдений, представленный длина- $р$ векторы $х 1$ через $й п$ , с соответствующими ответами $у 1$ через $у п$ , где каждый $у я$ является порядковым переменным по шкале $1, ..., K$ . Для простоты и без ограничения общности мы предполагаем, что $y$ - неубывающий вектор, то есть ${\ displaystyle \ leq}$ . К этим данным подходят вектор $w$ коэффициентов длины $p$ и набор порогов $θ$ $1$ $, ...,$ $θ$ $K$ $-1$ со свойством $θ$ $1$ $<$ $θ$ $2$ $<... <$ $θ$ $K$ $-1$ . Этот набор пороговых значений делит линию вещественных чисел на $K$ непересекающихся сегментов, соответствующих $K$ уровням отклика.

Модель теперь можно сформулировать как

{\ Displaystyle \ Pr (Y \ Leq я | \ mathbf {x}) = \ sigma (\ theta _ {я} - \ mathbf {w} \ cdot \ mathbf {x})}

или совокупная вероятность того, что ответ $y$ не превосходит $i$ , задается функцией $σ$ ( функция обратной связи ), примененной к линейной функции от $x$ . Существует несколько вариантов для $σ$ ; логистическая функция

{\ displaystyle \ sigma (\ theta _ {i} - \ mathbf {w} \ cdot \ mathbf {x}) = {\ frac {1} {1 + e ^ {- (\ theta _ {i} - \ mathbf {ш} \ cdot \ mathbf {x})}}}}

дает упорядоченную логит- модель, а использование пробит- функции дает упорядоченную пробит- модель. Третий вариант - использовать экспоненциальную функцию

{\ displaystyle \ sigma (\ theta _ {i} - \ mathbf {w} \ cdot \ mathbf {x}) = \ exp (- \ exp (\ theta _ {i} - \ mathbf {w} \ cdot \ mathbf {Икс} ))}

что дает модель пропорциональных опасностей . ^[4]

Модель со скрытыми переменными [ править ]

Пробит-версия вышеупомянутой модели может быть оправдана, если предположить существование действительной скрытой переменной (ненаблюдаемой величины) $y *$ , определяемой ^[5]

y^{*}=\mathbf {w} \cdot \mathbf {x} +\varepsilon

где $ε$ является нормально распределены с нулевым средним и единичной дисперсией, кондиционером на $х$ . Переменная отклика $y является$ результатом «неполного измерения» $y *$ , где определяется только интервал, в который попадает $y *$ :

y={\begin{cases}1~~{\text{if}}~~y^{*}\leq \theta _{1},\\2~~{\text{if}}~~\theta _{1}<y^{*}\leq \theta _{2},\\3~~{\text{if}}~~\theta _{2}<y^{*}\leq \theta _{3}\\\vdots \\K~~{\text{if}}~~\theta _{K-1}<y^{*}.\end{cases}}

Определяя $θ 0 = -\infty$ и $θ K = \infty$ , вышесказанное можно резюмировать как $y = k$ тогда и только тогда, когда $θ k -1 < y * \leq θ k$ .

Исходя из этих предположений, можно получить условное распределение $y$ как ^[5]

{\begin{aligned}P(y=k|\mathbf {x} )&=P(\theta _{k-1}<y^{*}\leq \theta _{k}|\mathbf {x} )\\&=P(\theta _{k-1}<\mathbf {w} \cdot \mathbf {x} +\varepsilon \leq \theta _{k})\\&=\Phi (\theta _{k}-\mathbf {w} \cdot \mathbf {x} )-\Phi (\theta _{k-1}-\mathbf {w} \cdot \mathbf {x} )\end{aligned}}

где $Φ$ - кумулятивная функция распределения стандартного нормального распределения и играет роль функции обратной связи $σ$ . Логарифмическая функция правдоподобия модели для одного примера тренировочного $х I$ , $у я$ теперь может быть сформулирована ^[5]

\log {\mathcal {L}}(\mathbf {w} ,\mathbf {\theta } |\mathbf {x} _{i},y_{i})=\sum _{k=1}^{K}[y_{i}=k]\log[\Phi (\theta _{k}-\mathbf {w} \cdot \mathbf {x} _{i})-\Phi (\theta _{k-1}-\mathbf {w} \cdot \mathbf {x} _{i})]]

(с использованием скобки Айверсона $[y i = k]$ .) Логарифмическая вероятность упорядоченной логит-модели аналогична, с использованием логистической функции вместо $Φ$ . ^[6]

Альтернативные модели [ править ]

В машинном обучении были предложены альтернативы моделям порядковой регрессии со скрытыми переменными. Первым результатом был PRank, вариант алгоритма перцептрона , который обнаружил несколько параллельных гиперплоскостей, разделяющих различные ранги; его выходом являются весовой вектор $w$ и отсортированный вектор из $K -1$ порогов $θ$ , как в упорядоченных моделях логит / пробит. Правило прогнозирования для этой модели состоит в том, чтобы вывести наименьший ранг $k$ такой, что $wx < θ k$ . ^[7]

Другие методы основаны на принципе обучения с большим запасом, который также лежит в основе векторных машин поддержки . ^[8]^[9]

Другой подход предложен Ренни и Сребро, которые, понимая, что «даже простая оценка вероятности предиктора не является прямой» в моделях упорядоченного логита и упорядоченного пробита, предлагают подходящие модели порядковой регрессии путем адаптации общих функций потерь из классификации ( такие как потеря петли и потеря лога ) к порядковому случае. ^[10]

Программное обеспечение [ править ]

ORCA (Алгоритмы порядковой регрессии и классификации) - это структура Octave / MATLAB, включающая широкий набор методов порядковой регрессии. ^[11]

Пакеты R, которые предоставляют методы порядковой регрессии, включают MASS ^[12] и Ordinal. ^[13]

См. Также [ править ]

Логистическая регрессия

Заметки [ править ]

^ Не путать с обучением ранжированию .

Ссылки [ править ]

^ Winship, Кристофер; Маре, Роберт Д. (1984). «Регрессионные модели с порядковыми переменными» (PDF) . Американский социологический обзор . 49 (4): 512–525. DOI : 10.2307 / 2095465 . JSTOR 2095465 .
^ Гутьеррес, Пенсильвания; Pérez-Ortiz, M .; Sánchez-Monedero, J .; Fernández-Navarro, F .; Эрвас-Мартинес, К. (январь 2016 г.). «Методы порядковой регрессии: обзор и экспериментальное исследование». IEEE Transactions по разработке знаний и данных . 28 (1): 127–146. DOI : 10.1109 / TKDE.2015.2457911 . hdl : 10396/14494 . ISSN 1041-4347 .
^ Шашуа, Амнон; Левин, Анат (2002). Принцип ранжирования с большим отрывом: два подхода . НИПС .
^ McCullagh, Питер (1980). «Регрессионные модели для порядковых данных». Журнал Королевского статистического общества . Серия Б (Методическая). 42 (2): 109–142.
^ a b c Вулдридж, Джеффри М. (2010). Эконометрический анализ поперечных и панельных данных . MIT Press. С. 655–657. ISBN 9780262232586.
^ Агрести, Алан (23 октября 2010). «Моделирование порядковых категориальных данных» (PDF) . Проверено 23 июля 2015 года . CS1 maint: discouraged parameter (link)
^ Краммер, Коби; Певец, Йорам (2001). Шутки с рейтингом . НИПС.
^ Чу, Вэй; Кирти, С. Сатья (2007). «Опорный вектор порядковой регрессии». Нейронные вычисления . 19 (3): 792–815. CiteSeerX 10.1.1.297.3637 . DOI : 10.1162 / neco.2007.19.3.792 . PMID 17298234 .
^ Хербрих, Ральф; Грэпель, Тор; Обермайер, Клаус (2000). «Границы большого ранга маржи для порядковой регрессии» . Достижения в классификаторах большой маржи . MIT Press. С. 115–132.
^ Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретно упорядоченными метками (PDF) . Proc. Междисциплинарный семинар IJCAI по достижениям в обработке преференций.
^ orca: Порядковая регрессия и алгоритмы классификации , AYRNA, 2017-11-21 , получено 2017-11-21 CS1 maint: discouraged parameter (link)
^ "Современная прикладная статистика с S, 4-е изд" . www.stats.ox.ac.uk . Проверено 15 июля 2020 .
^ Кристенсен, руна Haubo Б. (2020-06-05), runehaubo / порядковое , извлекаются 2020-07-15

Дальнейшее чтение [ править ]

Агрести, Алан (2010). Анализ порядковых категориальных данных . Хобокен, Нью-Джерси: Уайли. ISBN 978-0470082898. CS1 maint: discouraged parameter (link)
Грин, Уильям Х. (2012). Эконометрический анализ (седьмое изд.). Бостон: образование Пирсона. С. 824–842. ISBN 978-0-273-75356-8. CS1 maint: discouraged parameter (link)
Хардин, Джеймс; Хильбе, Джозеф (2007). Обобщенные линейные модели и расширения (2-е изд.). Колледж-Стейшн: Stata Press. ISBN 978-1-59718-014-6. CS1 maint: discouraged parameter (link)

[4] Не путать с обучением ранжированию .

[1] Winship, Кристофер; Маре, Роберт Д. (1984). «Регрессионные модели с порядковыми переменными» (PDF) . Американский социологический обзор . 49 (4): 512–525. DOI : 10.2307 / 2095465 . JSTOR 2095465 .

[2] Гутьеррес, Пенсильвания; Pérez-Ortiz, M .; Sánchez-Monedero, J .; Fernández-Navarro, F .; Эрвас-Мартинес, К. (январь 2016 г.). «Методы порядковой регрессии: обзор и экспериментальное исследование». IEEE Transactions по разработке знаний и данных . 28 (1): 127–146. DOI : 10.1109 / TKDE.2015.2457911 . hdl : 10396/14494 . ISSN 1041-4347 .

[3] Шашуа, Амнон; Левин, Анат (2002). Принцип ранжирования с большим отрывом: два подхода . НИПС .

[mccullagh-5] McCullagh, Питер (1980). «Регрессионные модели для порядковых данных». Журнал Королевского статистического общества . Серия Б (Методическая). 42 (2): 109–142.

[wooldridge-6] Вулдридж, Джеффри М. (2010). Эконометрический анализ поперечных и панельных данных . MIT Press. С. 655–657. ISBN 9780262232586.

[7] Агрести, Алан (23 октября 2010). «Моделирование порядковых категориальных данных» (PDF) . Проверено 23 июля 2015 года . CS1 maint: discouraged parameter (link)

[8] Краммер, Коби; Певец, Йорам (2001). Шутки с рейтингом . НИПС.

[9] Чу, Вэй; Кирти, С. Сатья (2007). «Опорный вектор порядковой регрессии». Нейронные вычисления . 19 (3): 792–815. CiteSeerX 10.1.1.297.3637 . DOI : 10.1162 / neco.2007.19.3.792 . PMID 17298234 .

[10] Хербрих, Ральф; Грэпель, Тор; Обермайер, Клаус (2000). «Границы большого ранга маржи для порядковой регрессии» . Достижения в классификаторах большой маржи . MIT Press. С. 115–132.

[11] Ренни, Джейсон DM; Сребро, Натан (2005). Функции потерь для уровней предпочтений: регрессия с дискретно упорядоченными метками (PDF) . Proc. Междисциплинарный семинар IJCAI по достижениям в обработке преференций.

[12] rca: Порядковая регрессия и алгоритмы классификации , AYRNA, 2017-11-21 , получено 2017-11-21 CS1 maint: discouraged parameter (link)

[13] "Современная прикладная статистика с S, 4-е изд" . www.stats.ox.ac.uk . Проверено 15 июля 2020 .

[14] Кристенсен, руна Haubo Б. (2020-06-05), runehaubo / порядковое , извлекаются 2020-07-15