Анализ дерева элементов ( ITA ) - это метод анализа данных, который позволяет построить иерархическую структуру по элементам вопросника или теста на основе наблюдаемых шаблонов ответов.
Предположим, что у нас есть вопросник с m пунктами, и что испытуемые могут ответить положительно (1) или отрицательно (0) на каждый из этих вопросов, т. Е. Вопросы дихотомичны . Если n субъектов отвечают на вопросы, это приводит к матрице двоичных данных D
с m столбцами и n ряды. Типичными примерами этого формата данных являются тестовые задания, которые испытуемые могут решить (1) или не выполнить (0). Другими типичными примерами являются анкеты, пункты которых представляют собой утверждения, с которыми испытуемые могут согласиться (1) или не согласиться (0).
В зависимости от содержания элементов возможно, что ответ субъекта на элемент j определяет его или его ответы на другие вопросы. Например, возможно, что каждый субъект, согласившийся с пунктом j , также согласится с пунктом i . В этом случае мы говорим, что элемент j подразумевает элемент i (кратко ). Цель в ITA заключается в раскрытии таких детерминированных последствий из набора данных D .
ITA был первоначально разработан Ван Леуве в 1974 году. [1] Результатом его алгоритма , который мы далее называем классическим ITA , является логически согласованный набор импликаций . Логически непротиворечивый означает, что если i подразумевает j, а j подразумевает k, то i подразумевает k для каждой тройки i , j , k элементов. Таким образом, результатом ITA является рефлексивное и транзитивное отношение по набору элементов, т. Е. Квазипорядок по элементам.
Другой алгоритм выполнения ITA был предложен в Schrepp (1999) . Этот алгоритм называется Inductive ITA .
И классическая ITA, и индуктивная ITA создают квазипорядок для элемента, установленного с помощью исследовательского анализа данных . Но оба метода используют разные алгоритмы для построения этого квазипорядка. Для данного набора данных результирующие квазипорядки от классической и индуктивной ITA обычно будут различаться.
Подробное описание алгоритмов, используемых в классической и индуктивной ITA, можно найти в Schrepp (2003) или Schrepp (2006) [1]. В недавней статье (Sargin & Ünlü, 2009) предлагаются некоторые модификации алгоритма индуктивной ITA, которые улучшают способность этого метода обнаруживать правильные последствия из данных (особенно в случае более высоких показателей случайных ошибок ответа).
ITA относится к группе методов анализа данных, называемых логическим анализом анкет . Логический анализ был введен Flament в 1976 году [2] Целью булева анализа является обнаружение детерминированных зависимостей (формул из булевой логики , соединяющих элементы, как, например , и ) между пунктами вопросника или тестом. Начиная с основной работы Фламента (1976), был разработан ряд различных методов логического анализа. См., Например, Van Buggenhaut and Degreef (1987) , Duquenne (1987) или Theuns (1994) . Эти методы разделяют цель получениядетерминированные зависимости между элементами анкеты от данных, но различаются алгоритмами для достижения этой цели. Сравнение ITA с другими методами анализа логических данных можно найти в Schrepp (2003) .
Доступно несколько исследовательских работ, в которых описываются конкретные приложения анализа дерева элементов. Held и Korossy (1998) анализируют последствия для набора задач алгебры с классической ITA. Анализ дерева элементов также используется в ряде исследований в области социальных наук для понимания структуры дихотомических данных. В Bart and Krus (1973) , например, предшественник ITA используется для установления иерархического порядка элементов, описывающих социально неприемлемое поведение. В Janssens (1999) метод булевого анализа используется для исследования процесса интеграции меньшинств в систему ценностей.доминирующей культуры. Шрепп [3] описывает несколько применений индуктивной ITA для анализа зависимостей между элементами анкет по социальным наукам.
Чтобы показать возможности анализа набора данных ITA, мы анализируем формулировки вопроса 4 Международной программы исследования социальных наук (ISSSP) за 1995 год с помощью индуктивной и классической ITA. ISSSP - это постоянная ежегодная программа межнационального сотрудничества по опросам, охватывающим важные темы для исследований в области социальных наук. Программа ежегодно проводит один опрос с сопоставимыми вопросами в каждой из участвующих стран. Темой исследования 1995 года была национальная идентичность . Мы анализируем результаты для вопроса 4 для набора данных по Западной Германии . Утверждение для вопроса 4 было:
Некоторые люди говорят, что для того, чтобы быть настоящим немцем, важно следующее. Другие говорят, что они не важны. Как вы думаете, насколько важно каждое из следующих условий :
1. родиться в Германии
2. иметь немецкое гражданство
3. прожить в Германии большую часть своей жизни
4. уметь говорить по-немецки
5. быть Христианин
6. уважать политические институты Германии
7. чувствовать себя немцем
У испытуемых были варианты ответа: очень важно , важно , не очень важно , совсем не важно и не могут выбрать ответ на утверждения. Чтобы применить ITA к этому набору данных, мы изменили категории ответов.
Очень важные и Важные имеют код 1. Не очень важные и Совсем не важные имеют код 0. Невозможно выбрать, были обработаны как отсутствующие данные.
На следующем рисунке показаны результирующие квазипорядки от индуктивного ITA и классического ITA.
Программа ITA 2.0 реализует как классическую, так и индуктивную ITA. Программа доступна на [2] . Краткая документация программы доступна в [3] .
Теория отклика предмета