Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

В статистике , категориальная переменная является переменной , которая может принимать одно из ограниченного, и обычно фиксирована, число возможных значений, назначение каждого отдельного или другую единицу наблюдения к определенной группе или категории номинальной на основе какого - то качественного свойства . [1] В информатике и некоторых разделах математики категориальные переменные называются перечислениями или перечислимыми типами . Обычно (хотя и не в этой статье) каждое из возможных значений категориальной переменной упоминается как уровень . Распределение вероятностей, связанное сслучайная категориальная переменная называется категориальным распределением .

Категориальные данные - это тип статистических данных, состоящий из категориальных переменных или данных, которые были преобразованы в эту форму, например, как сгруппированные данные . Более конкретно, категориальные данные могут быть получены из наблюдений, сделанных на основе качественных данных , которые суммированы в виде подсчетов или перекрестных таблиц , или из наблюдений за количественными данными, сгруппированными в заданные интервалы. Часто чисто категориальные данные сводятся в виде таблицы непредвиденных обстоятельств.. Однако, особенно при рассмотрении анализа данных, обычно используется термин «категориальные данные» для применения к наборам данных, которые, хотя и содержат некоторые категориальные переменные, могут также содержать некатегориальные переменные.

Категориальная переменная, которая может принимать ровно два значения, называется двоичной переменной или дихотомической переменной ; важным частным случаем является переменная Бернулли . Категориальные переменные с более чем двумя возможными значениями называются политомическими переменными ; категориальные переменные часто считаются политомическими, если не указано иное. Дискретизация - это обработка непрерывных данных, как если бы они были категориальными. Дихотомизация - это обработка непрерывных данных или политомических переменных, как если бы они были двоичными переменными. Регрессионный анализ часто рассматривает принадлежность к категории с помощью одной или нескольких количественных фиктивных переменных..

Примеры категориальных переменных [ править ]

Примеры значений, которые могут быть представлены в категориальной переменной:

Обозначение [ править ]

Для облегчения статистической обработки категориальным переменным могут быть присвоены числовые индексы, например, от 1 до K для категориальной переменной K-типа (т. Е. Переменной, которая может выражать точно K возможных значений). В целом, однако, числа являются произвольными и не имеют никакого значения, кроме простого предоставления удобной метки для определенного значения. Другими словами, значения категориальной переменной существуют в номинальном масштабе : каждое из них представляет собой логически отдельную концепцию, не обязательно может быть осмысленно упорядочено , и им нельзя иначе манипулировать, как числами. Вместо этого допустимыми операциями являются эквивалентность , установите членство, и другие операции, связанные с множеством.

В результате центральная тенденция набора категориальных переменных определяется его режимом ; ни среднее значение, ни медианаможно определить. В качестве примера для набора людей мы можем рассмотреть набор категориальных переменных, соответствующих их фамилиям. Мы можем рассмотреть такие операции, как эквивалентность (имеют ли два человека одинаковую фамилию), установить членство (есть ли у человека имя в данном списке), подсчет (сколько людей имеет данную фамилию) или поиск режима ( какое имя встречается чаще всего). Однако мы не можем осмысленно вычислить «сумму» Смита + Джонсона или спросить, является ли Смит «меньше» или «больше» Джонсона. В результате мы не можем осмысленно спрашивать, какое «среднее имя» (среднее значение) или «среднее имя» (медиана) входит в набор имен.

Обратите внимание, что при этом игнорируется концепция алфавитного порядка , которая является свойством, которое присуще не самим именам, а способу построения меток. Например, если мы напишем имена кириллицей и рассмотрим кириллический порядок букв, мы можем получить другой результат вычисления «Smith <Johnson», чем если бы мы написали имена стандартным латинским алфавитом ; и если мы напишем имена китайскими иероглифами, мы вообще не можем осмысленно оценить "Smith <Johnson", потому что для таких символов не определен согласованный порядок. Однако, если мы действительно рассматриваем имена в том виде, в каком они написаны, например, в латинском алфавите, и определяем порядок, соответствующий стандартному алфавитному порядку, то мы эффективно преобразовываем их в порядковые переменные, определенные на порядковой шкале .

Количество возможных значений [ править ]

Категориальные случайные переменные обычно описываются статистически категориальным распределением , которое позволяет выразить произвольную категориальную переменную K-типа с отдельными вероятностями, указанными для каждого из K возможных исходов. Такие категориальные переменные с несколькими категориями часто анализируются с использованием полиномиального распределения , которое подсчитывает частоту каждой возможной комбинации количества появлений различных категорий. Регрессионный анализ категориальных исходов осуществляется с помощью полиномиальной логистической регрессии , полиномиального пробита или родственной модели дискретного выбора .

Категориальные переменные, которые имеют только два возможных результата (например, «да» против «нет» или «успех» против «неудачи»), известны как бинарные переменные (или переменные Бернулли ). Из-за своей важности эти переменные часто считаются отдельной категорией с отдельным распределением ( распределение Бернулли ) и отдельными моделями регрессии ( логистическая регрессия , пробит-регрессия и т. Д.). В результате термин «категориальная переменная» часто зарезервирован для случаев с 3 или более исходами, иногда называемых многосторонней переменной в отличие от двоичной переменной.

Также можно рассматривать категориальные переменные, где количество категорий не фиксировано заранее. Например, для категориальной переменной, описывающей конкретное слово, мы можем не знать заранее размер словаря, и мы хотели бы допустить возможность встретить слова, которые мы еще не видели. Стандартные статистические модели, такие как модели с категориальным распределением и полиномиальной логистической регрессией , предполагают, что количество категорий известно заранее, а изменение количества категорий на лету - непростая задача. В таких случаях необходимо использовать более продвинутые методы. Примером может служить процесс Дирихле , относящийся к сфере непараметрической статистики.. В таком случае логически предполагается, что существует бесконечное количество категорий, но в любой момент времени большинство из них (фактически все, кроме конечного числа) никогда не были замечены. Все формулы сформулированы в терминах количества категорий, фактически просмотренных на данный момент, а не (бесконечного) общего количества существующих потенциальных категорий, и создаются методы для постепенного обновления статистических распределений, включая добавление «новых» категорий.

Категориальные переменные и регрессия [ править ]

Категориальные переменные представляют собой качественный метод оценки данных (т. Е. Представляют категории или членство в группах). Они могут быть включены как независимые переменные в регрессионный анализ или как зависимые переменные в логистической регрессии или пробит-регрессии , но должны быть преобразованы в количественные данные , чтобы иметь возможность анализировать данные. Это достигается с помощью систем кодирования. Анализы проводятся так, что кодируется только g -1 ( g - количество групп). Это минимизирует избыточность, в то же время представляя полный набор данных, поскольку никакой дополнительной информации не будет получено от кодирования всего g.группы: например, при кодировании пола (где g = 2: мужской и женский), если мы кодируем только женщин, все оставшиеся обязательно будут мужчинами. В общем, группа, для которой не кодируется, является наименее интересной. [2]

При анализе категориальных переменных в регрессии обычно используются три основные системы кодирования: фиктивное кодирование, кодирование эффектов и кодирование контраста. Уравнение регрессии принимает форму Y = bX + a , где b - наклон и дает вес, эмпирически присвоенный объяснителю, X - объясняющая переменная, а a - интервал Y , и эти значения принимают разные значения в зависимости от об используемой системе кодирования. Выбор системы кодирования не влияет на статистику F или R 2 . Однако каждый выбирает систему кодирования на основе представляющего интерес сравнения, поскольку интерпретация bзначения будут отличаться. [2]

Фиктивное кодирование [ править ]

Фиктивное кодирование используется, когда имеется в виду контрольная группа или группа сравнения. Таким образом, анализируются данные одной группы по отношению к группе сравнения: a представляет собой среднее значение контрольной группы, а b - разность между средним значением экспериментальной группы и средним значением контрольной группы. Предлагается выполнить три критерия для определения подходящей контрольной группы: группа должна быть устоявшейся группой (например, не должна быть «другой» категорией), должна быть логическая причина для выбора этой группы для сравнения ( например, ожидается, что группа получит наивысший балл по зависимой переменной), и, наконец, размер выборки группы должен быть существенным и не маленьким по сравнению с другими группами.[3]

При фиктивном кодировании контрольной группе присваивается значение 0 для каждой кодовой переменной, интересующей группе для сравнения с контрольной группой присваивается значение 1 для ее указанной кодовой переменной, в то время как всем другим группам присваивается 0 для этой конкретной кодовая переменная. [2]

Значения b следует интерпретировать так, чтобы экспериментальную группу сравнивали с контрольной группой. Следовательно, получение отрицательного значения b приведет к тому, что экспериментальная группа получит меньше, чем контрольная группа, по зависимой переменной . Чтобы проиллюстрировать это, предположим, что мы измеряем оптимизм среди нескольких национальностей и решили, что французы будут служить полезным средством контроля. Если мы сравниваем их с итальянцами и наблюдаем отрицательное значение b , это говорит о том, что итальянцы в среднем получают более низкие оценки оптимизма.

В следующей таблице приведена пример кодирования манекена с французами в качестве контрольной группы и С1, С2 и С3 , соответственно , будучи кодами для итальянского , немецкого , и Другого (ни французского , ни итальянского , ни немецкого):

Кодирование эффектов [ править ]

В системе кодирования эффектов данные анализируются путем сравнения одной группы со всеми другими группами. В отличие от фиктивного кодирования, здесь нет контрольной группы. Скорее, сравнение проводится по среднему значению всех групп, вместе взятых ( а теперь является общим средним ). Следовательно, человек ищет данные не по отношению к другой группе, а, скорее, по отношению к общему среднему значению. [2]

Кодирование эффектов может быть взвешенным или невзвешенным. Кодирование взвешенных эффектов - это просто вычисление взвешенного общего среднего с учетом размера выборки по каждой переменной. Это наиболее уместно в ситуациях, когда выборка является репрезентативной для рассматриваемого населения. Кодирование невзвешенных эффектов наиболее целесообразно в ситуациях, когда различия в размере выборки являются результатом случайных факторов. Интерпретация b различна для каждого из них: в коде невзвешенных эффектов b - это разница между средним значением экспериментальной группы и общим средним, тогда как во взвешенной ситуации это среднее значение экспериментальной группы за вычетом взвешенного общего среднего. [2]

При кодировании эффектов мы кодируем интересующую группу цифрой 1, как и при фиктивном кодировании. Принципиальное отличие состоит в том, что мы кодируем −1 для группы, которая нас меньше всего интересует. Поскольку мы продолжаем использовать схему кодирования g - 1, на самом деле именно кодированная группа −1 не будет производить данные, отсюда и тот факт, что мы меньше всего интересуются этой группой. Всем остальным группам присваивается код 0.

Значения b следует интерпретировать так, чтобы экспериментальная группа сравнивалась со средним значением всех групп вместе (или взвешенным общим средним в случае кодирования взвешенных эффектов). Следовательно, получение отрицательного значения b приведет к тому, что закодированная группа получит меньше, чем среднее значение всех групп по зависимой переменной. Используя наш предыдущий пример оценок оптимизма среди национальностей, если группа интересов - итальянцы, наблюдение отрицательного значения b предполагает, что они получают более низкий балл оптимизма.

В следующей таблице приведен пример кодирования эффектов, когда Other является наименее интересной группой.

Контрастное кодирование [ править ]

Система контрастного кодирования позволяет исследователю напрямую задавать конкретные вопросы. Вместо того, чтобы система кодирования диктовала, что проводится сравнение (т. Е. С контрольной группой, как при фиктивном кодировании, или со всеми группами, как при кодировании эффектов), можно разработать уникальное сравнение, отвечающее конкретному вопросу исследования. Эта адаптированная гипотеза обычно основана на предыдущей теории и / или исследованиях. Предлагаемые гипотезы обычно следующие: во-первых, есть центральная гипотеза, которая постулирует большое различие между двумя наборами групп; вторая гипотеза предполагает, что внутри каждого набора различия между группами невелики. С помощью своих априорных гипотез сосредоточено, контраст кодирования может привести к увеличению мощности от статистического тестапо сравнению с менее направленными предыдущими системами кодирования. [2]

Определенные различия возникают, когда мы сравниваем наши априорные коэффициенты между ANOVA и регрессией. В отличие от использования в ANOVA, где исследователь по усмотрению выбирает значения коэффициентов, которые являются ортогональными или неортогональными, в регрессии важно, чтобы значения коэффициентов, присвоенные при контрастном кодировании, были ортогональными. Кроме того, в регрессии значения коэффициентов должны быть либо в дробной, либо в десятичной форме. Они не могут принимать интервальные значения.

Построение контрастных кодов ограничивается тремя правилами:

  1. Сумма коэффициентов контрастности для каждой переменной кода должна равняться нулю.
  2. Разница между суммой положительных коэффициентов и суммой отрицательных коэффициентов должна равняться 1.
  3. Кодированные переменные должны быть ортогональными. [2]

Нарушение правила 2 дает точные значения R 2 и F , указывая на то, что мы могли бы прийти к одним и тем же выводам о том, есть ли существенная разница; однако мы больше не можем интерпретировать значения b как среднюю разницу.

Чтобы проиллюстрировать построение кодов контраста, рассмотрим следующую таблицу. Коэффициенты были выбраны, чтобы проиллюстрировать наши априорные гипотезы: Гипотеза 1: французы и итальянцы будут иметь больший оптимизм, чем немцы (французы = +0,33, итальянцы = +0,33, немцы = -0,66). Это проиллюстрировано присвоением одного и того же коэффициента французской и итальянской категориям и другого - немцам. Присвоенные знаки указывают направление взаимоотношений (следовательно, отрицательный знак немцев свидетельствует об их более низких предполагаемых оценках оптимизма). Гипотеза 2: ожидается, что французы и итальянцы различаются по своим показателям оптимизма (французский = +0,50, итальянский = -0,50, немецкий = 0). Здесь присвоение немцам нулевого значения демонстрирует их невключение в анализ этой гипотезы. Очередной раз,присвоенные знаки указывают на предполагаемые отношения.

Глупое кодирование [ править ]

Бессмысленное кодирование происходит, когда вместо обозначенных «0», «1» и «-1» используются произвольные значения, которые использовались в предыдущих системах кодирования. Несмотря на то, что он дает правильные средние значения для переменных, использование бессмысленного кодирования не рекомендуется, поскольку это приведет к неинтерпретируемым статистическим результатам. [2]

Вложения [ править ]

Вложения - это кодирование категориальных значений в многомерные вещественные (иногда комплексно-значные ) векторные пространства, обычно таким образом, что «сходным» значениям присваиваются «похожие» векторы, или по отношению к какому-либо другому критерию, определяющему векторы, полезные для соответствующего приложения. Распространенным частным случаем являются вложения слов , где возможные значения категориальной переменной - это слова на языке, а словам с аналогичными значениями должны быть назначены аналогичные векторы.

Взаимодействия [ править ]

Взаимодействие может возникнуть при рассмотрении вопроса о взаимосвязи между тремя или более переменных, а также описывает ситуацию , в которой одновременное воздействие двух переменных на треть не является аддитивным. Взаимодействия могут возникать с категориальными переменными двумя способами: либо категориальными посредством взаимодействий категориальных переменных, либо категориальными посредством взаимодействий с непрерывными переменными.

Категориальные взаимодействия с категориальными переменными [ править ]

Этот тип взаимодействия возникает, когда у нас есть две категориальные переменные. Чтобы исследовать этот тип взаимодействия, нужно использовать систему, которая наиболее точно соответствует гипотезе исследователя. Продукт кодов дает взаимодействие. Затем можно вычислить значение b и определить, является ли взаимодействие значимым. [2]

Категоризация по непрерывному взаимодействию переменных [ править ]

Простой анализ уклонов - это распространенный апостериорный тестиспользуется в регрессии, которая аналогична простому анализу эффектов в ANOVA, используемому для анализа взаимодействий. В этом тесте мы исследуем простые наклоны одной независимой переменной при определенных значениях другой независимой переменной. Такой тест не ограничивается использованием непрерывных переменных, но может также применяться, когда независимая переменная является категориальной. Мы не можем просто выбрать значения для проверки взаимодействия, как в случае с непрерывной переменной, из-за номинального характера данных (т.е. в непрерывном случае можно было бы анализировать данные на высоком, умеренном и низком уровнях, присвоив 1 стандартное отклонение выше среднего, на среднее значение и на одно стандартное отклонение ниже среднего соответственно). В нашем категориальном случае мы использовали бы простое уравнение регрессии для каждой группы, чтобы исследовать простые наклоны.Обычной практикой являетсястандартизируйте или центрируйте переменные, чтобы сделать данные более интерпретируемыми при простом анализе уклонов; однако категориальные переменные никогда не следует стандартизировать или центрировать. Этот тест можно использовать со всеми системами кодирования. [2]

См. Также [ править ]

  • Уровень измерения
  • Список анализов категориальных данных
  • Качественные данные
  • Тип статистических данных
  • Одно горячее кодирование

Ссылки [ править ]

  1. ^ Йейтс, Дэниел С .; Мур, Дэвид С .; Старнес, Дарен С. (2003). Практика статистики (2-е изд.). Нью-Йорк: Фриман . ISBN 978-0-7167-4773-4. Архивировано из оригинала на 2005-02-09 . Проверено 28 сентября 2014 .
  2. ^ a b c d e f g h i j Cohen, J .; Cohen, P .; Запад, SG; Айкен, LS (2003). Применил множественный регрессионный / корреляционный анализ для поведенческих наук (3-е изд.) . Нью-Йорк, штат Нью-Йорк: Рутледж.
  3. ^ Харди, Мелисса (1993). Регрессия с фиктивными переменными . Ньюбери-Парк, Калифорния: Сейдж.

Дальнейшее чтение [ править ]

  • Андерсен, Эрлинг Б. 1980. Дискретные статистические модели с приложениями социальных наук . Северная Голландия, 1980 год.
  • Епископ, YMM ; Fienberg, SE ; Голландия, PW (1975). Дискретный многомерный анализ: теория и практика . MIT Press. ISBN 978-0-262-02113-5. Руководство по ремонту  0381130 .
  • Кристенсен, Рональд (1997). Логлинейные модели и логистическая регрессия . Тексты Springer в статистике (второе изд.). Нью-Йорк: Springer-Verlag. С. xvi + 483. ISBN 0-387-98247-7. Руководство по ремонту  1633357 .
  • Дружелюбный, Майкл . Визуализация категориальных данных . Институт САС, 2000.
  • Лауритцен, Штеффен Л. (2002) [1979]. Лекции по таблицам непредвиденных обстоятельств (PDF) (обновленная электронная версия (University of Aalborg) 3rd (1989) ed.).
  • NIST / SEMATEK (2008) Справочник по статистическим методам