Теория отклика предмета

В психометрии , теория ответа пункта ( ИРТ ) (также известная как скрытая теория признака , сильная истинная теория оценки , или современной теория психического теста ) является парадигмой для проектирования, анализа и озвучивания тестов , опросников и аналогичных инструментов измерения способностей, отношения или другие переменные. Это теория тестирования, основанная на взаимосвязи между результатами отдельных лиц по заданию теста и уровнями успеваемости тестируемых по общему показателю способности, для измерения которой этот элемент был разработан. Несколько различных статистических моделей используются для представления характеристик как заданий, так и испытуемых.^[1] В отличие от более простых альтернатив для создания шкал и оценки ответов на вопросник, он не предполагает, что каждый пункт одинаково сложен. Это отличает IRT, например, от шкалирования Лайкерта , в котором « предполагается, чтовсе элементы являются копиями друг друга, или, другими словами, элементы считаются параллельными инструментами»^[2] (стр. 197). Напротив, теория ответов на вопросы рассматривает сложность каждого элемента (характеристические кривые элемента или ICC ) как информацию, которая должна быть включена в масштабирование элементов.

Он основан на применении связанных математических моделей к данным тестирования . Потому что часто рассматривается как выше классической теории тест , ^[3] , что является предпочтительным методом для разработки шкал в Соединенных Штатах ^{[ править ]} , особенно когда оптимальные решения востребованы, как и в так называемых высоких лимитах тестов , например , , Graduate Record Examination (GRE) и Graduate Management Admission Test (GMAT).

Теория ответа на вопрос о названии возникла из-за того, что теория сосредоточена на элементе, в отличие от классической теории тестирования, ориентированной на уровень тестирования. Таким образом, IRT моделирует реакцию каждого испытуемого с определенной способностью на каждый элемент теста. Термин « элемент» является общим и охватывает все виды информационных элементов. Это могут быть вопросы с несколькими вариантами ответов, на которые есть неправильные или правильные ответы, но также обычно они представляют собой утверждения в анкетах, которые позволяют респондентам указать уровень согласия ( рейтинг или шкала Лайкерта ) или симптомы пациента, оцениваемые как присутствующие / отсутствующие, или диагностическая информация в комплексе. системы.

IRT основана на идее о том , что вероятность правильного / шпоночным ответ на пункт является математической функцией от человека и элементов параметров . (Выражение «математическая функция параметров человека и предмета» аналогично уравнению Курта Левина B = f (P, E) , которое утверждает, что поведение является функцией человека в его окружении.) Параметр человека определяется как ( обычно) единственная скрытая черта или измерение. Примеры включают общий интеллектили сила отношения. Параметры, по которым элементы характеризуются, включают их сложность (известную как «местоположение» из-за их расположения в диапазоне сложности); дискриминация (наклон или корреляция), показывающая, насколько резко степень успеха людей зависит от их способностей; и параметр псевдогадания, характеризующий (нижнюю) асимптоту, при которой даже наименее способные люди будут получать баллы из-за угадывания (например, 25% для чистой вероятности по заданию с множественным выбором с четырьмя возможными ответами).

Таким же образом IRT можно использовать для измерения поведения людей в социальных сетях. Мнения, выраженные разными людьми, можно объединить для изучения с помощью IRT. Также оценивалось его использование для классификации информации как дезинформации или достоверной информации.

Обзор [ править ]

Этот раздел требует дополнительных ссылок для проверки . Пожалуйста, помогите улучшить эту статью , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален. ( Декабрь 2015 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Концепция функции ответа элемента существовала до 1950 года. Пионерская работа IRT как теории произошла в 1950-х и 1960-х годах. Трое из пионеров были Educational Testing Service psychometrician Фредерик М. Лорд , ^[4] датский математик Георг Rasch , и австрийский социолог Лазарсфельд , который проводит параллельные исследования независимо друг от друга. К ключевым фигурам, способствовавшим развитию IRT, относятся Бенджамин Дрейк Райт и Дэвид Андрич . IRT не получила широкого распространения до конца 1970-х и 1980-х годов, когда практикам рассказали о «полезности» и «преимуществах» IRT, с одной стороны, и персональных компьютеров. с другой стороны, предоставил многим исследователям доступ к вычислительной мощности, необходимой для IRT.

Среди прочего, цель IRT - предоставить основу для оценки того, насколько хорошо работают оценки и насколько хорошо работают отдельные элементы оценок. Чаще всего IRT применяется в образовании, где психометристы используют его для разработки и проектирования экзаменов , ведения банков заданий для экзаменов и уравнивания сложности заданий для последующих версий экзаменов (например, для сравнения результатов во времени). . ^[5]

IRT-модели часто называют моделями скрытых признаков . Термин « латентный» используется для того, чтобы подчеркнуть, что дискретные ответы на вопросы рассматриваются как наблюдаемые проявления предполагаемых черт, конструкций или атрибутов, которые не наблюдаются напрямую, но которые должны быть выведены из явных ответов. Модели скрытых черт были разработаны в области социологии, но практически идентичны моделям IRT.

IRT обычно считается улучшением по сравнению с классической теорией тестирования (CTT). Для задач, которые могут быть выполнены с помощью CTT, IRT обычно обеспечивает большую гибкость и предоставляет более сложную информацию. Некоторые приложения, такие как компьютеризированное адаптивное тестирование , поддерживаются IRT и не могут быть выполнены с использованием только классической теории тестирования. Еще одно преимущество IRT перед CTT состоит в том, что более подробная информация, которую предоставляет IRT, позволяет исследователю повысить надежность оценки.

IRT предполагает три допущения:

Одномерная черта, обозначаемая ; ${\ displaystyle {\ theta}}$
Местная независимость предметов;
Реакцию человека на элемент можно смоделировать с помощью математической функции ответа элемента (IRF).

Далее предполагается, что признак можно измерить по шкале (это предполагает простое наличие теста), обычно установленной на стандартную шкалу со средним значением 0,0 и стандартным отклонением 1,0. Одномерность следует интерпретировать как однородность, качество, которое должно быть определено или эмпирически продемонстрировано в отношении данной цели или использования, но не как количество, которое можно измерить. «Локальная независимость» означает (а) что вероятность использования одного предмета не связана с каким-либо другим используемым предметом (ами) и (б) что ответ на предмет является независимым решением каждого тестируемого, то есть, здесь нет жульничества, парной или групповой работы. Тема размерности часто исследуется с помощью факторного анализа., в то время как IRF является основным строительным блоком IRT и центром многих исследований и литературы.

Функция ответа элемента [ править ]

IRF дает вероятность того, что человек с заданным уровнем способностей ответит правильно. Люди с более низкими способностями имеют меньше шансов, в то время как люди с высокими способностями скорее всего ответят правильно; например, учащиеся с более высокими математическими способностями с большей вероятностью получат правильный предмет по математике. Точное значение вероятности зависит, помимо способности, от набора параметров элемента для IRF.

Трехпараметрическая логистическая модель [ править ]

Рисунок 1: Пример 3PL IRF с наложенными пунктирными линиями для демонстрации параметров.

Например, в трехпараметрической логистической модели ( 3PL ) вероятность правильного ответа на дихотомический элемент i , обычно это вопрос с несколькими вариантами ответов, составляет:

{\ displaystyle p_ {i} ({\ theta}) = c_ {i} + {\ frac {1-c_ {i}} {1 + e ^ {- a_ {i} ({\ theta} -b_ {i })}}}}

где указывает, что способности человека смоделированы как выборка из нормального распределения с целью оценки параметров элемента. После того, как параметры задания были оценены, для целей отчетности оцениваются способности отдельного человека. , и - параметры элемента. Параметры элемента определяют форму IRF. На рисунке 1 изображен идеальный 3PL ICC. ${\ displaystyle {\ theta}}$ ${\ displaystyle a_ {i}}$ ${\ displaystyle b_ {i}}$ ${\ displaystyle c_ {i}}$

Параметры товара можно интерпретировать как изменение формы стандартной логистической функции :

{\ displaystyle P (t) = {\ frac {1} {1 + e ^ {- t}}}.}

Вкратце, параметры интерпретируются следующим образом (для удобства чтения индексы опускаются); b является самым основным, поэтому он указан первым:

b - сложность, расположение предмета: точка на полпути между (мин.) и 1 (макс.), также там, где наклон максимален. ${\ Displaystyle р (Ь) = (1 + с) / 2,}$ ${\ displaystyle c_ {i}}$
а - дискриминация, масштаб, крутизна: максимальная крутизна ${\ displaystyle p '(b) = a \ cdot (1-c) / 4.}$
c - псевдогадание, шанс, асимптотический минимум ${\ Displaystyle р (- \ infty) = с.}$

Если затем они упрощаются до и означают, что b равно 50% -ному уровню успеха (сложности), а a (деленное на четыре) - это максимальный наклон (различение), который возникает при 50% -ом уровне успеха. Кроме того, логит (логарифм шансов ) правильного ответа равен (при условии ): в частности, если способность θ равна сложности b, есть четные шансы (1: 1, поэтому логит 0) правильного ответа, тем больше способность выше (или ниже) трудность - более (или менее) вероятность правильного ответа, при этом различение определяет, насколько быстро шансы увеличиваются или уменьшаются в зависимости от способности. ${\ displaystyle c = 0,}$ ${\ displaystyle p (b) = 1/2}$ ${\ Displaystyle р '(Ь) = а / 4,}$ ${\ Displaystyle а (\ тета -b)}$ ${\ displaystyle c = 0}$

Другими словами, стандартная логистическая функция имеет асимптотический минимум 0 ( ), центрируется вокруг 0 ( , ) и имеет максимальный наклон . Параметр растягивает горизонтальный масштаб, параметр сдвигает горизонтальный масштаб, а параметр сжимает вертикальный масштаб от на этом подробно рассмотрен ниже. ${\ displaystyle c = 0}$ ${\ displaystyle b = 0}$ ${\ Displaystyle P (0) = 1/2}$ ${\ Displaystyle P '(0) = 1/4.}$ ${\ displaystyle a}$ $b$ $c$ $[0,1]$ $[c,1].$

Параметр представляет местонахождение предмета, которое в случае тестирования достижений называется сложностью предмета. Это точка, в которой IRF имеет максимальный наклон, и где значение находится посередине между минимальным значением и максимальным значением 1. Этот примерный элемент имеет среднюю сложность, так как = 0,0, что находится рядом с центром распространение. Обратите внимание, что эта модель масштабирует сложность предмета и черту человека в одном континууме. Таким образом, допустимо говорить о том, что предмет настолько же сложен, как уровень черты человека А, или что уровень черты человека примерно такой же, как сложность предмета Y, в том смысле, что успешное выполнение задачи, связанной с предметом, отражает конкретный уровень способностей. $b_{i}$ ${\theta }$ $c_{i}$ $b_{i}$

Параметр предмета представляет различение предмета: то есть степень, в которой предмет различает людей в разных регионах скрытого континуума. Этот параметр характеризует наклон IRF, где наклон максимален. В примере элемента = 1.0, что довольно хорошо различает; Люди с низкими способностями действительно имеют гораздо меньшие шансы правильно ответить, чем люди с более высокими способностями. Этот параметр дискриминации соответствует весовому коэффициенту соответствующего элемента или индикатора в стандартной взвешенной линейной регрессии (обычный метод наименьших квадратов, OLS ) и, следовательно, может использоваться для создания взвешенного индекса индикаторов для неконтролируемого измерения лежащей в основе скрытой концепции. $a_{i}$ $a_{i}$

Для таких элементов, как элементы с множественным выбором , этот параметр используется в попытке учесть влияние предположений на вероятность правильного ответа. Он указывает на вероятность того, что люди с очень низкими способностями получат правильное задание случайно, математически представленная в виде нижней асимптоты . Элемент с несколькими вариантами выбора из четырех вариантов может иметь IRF, как в примере элемента; вероятность того, что кандидат с крайне низкими способностями угадает правильный ответ, составляет 1/4, поэтому вероятность будет равна примерно 0,25. Этот подход предполагает, что все варианты одинаково правдоподобны, потому что, если один вариант не имеет смысла, даже человек с самыми низкими способностями сможет отказаться от него, поэтому методы оценки параметров IRT учитывают это и оценивают $c_{i}$ $c_{i}$ $c_{i}$ на основании наблюдаемых данных. ^[6]

IRT модели [ править ]

Вообще говоря, модели IRT можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют единственного измерения черты (способности) . Многомерные модели IRT моделируют данные об ответах, предположительно возникающие из нескольких характеристик. Однако из-за значительно возросшей сложности в большинстве исследований и приложений IRT используется одномерная модель. ${\theta }$

Модели IRT также можно разделить на категории в зависимости от количества полученных ответов. Типичный элемент с множественным выбором дихотомичен ; хотя может быть четыре или пять вариантов, он все равно оценивается только как правильный / неправильный (правильный / неправильный). Другой класс моделей применяется к политомическим результатам, где каждый ответ имеет различное значение оценки. ^[7]^[8] Типичным примером этого являются элементы типа Лайкерта , например, «Оцените по шкале от 1 до 5».

Количество параметров IRT [ править ]

Дихотомические модели IRT описываются количеством используемых в них параметров. ^[9] 3PL назван так, потому что он использует три параметра элемента. Двухпараметрическая модель (2PL) предполагает, что данные не предполагают никаких предположений, но элементы могут различаться с точки зрения местоположения ( ) и дискриминации ( ). Однопараметрическая модель (1PL) предполагает, что угадывание является частью способности и что все элементы, которые соответствуют модели, имеют эквивалентные различия, так что элементы описываются только одним параметром ( $b_{i}$ $a_{i}$ $b_{i}$ ). Это приводит к однопараметрическим моделям, обладающим свойством конкретной объективности, что означает, что уровень сложности задания одинаков для всех респондентов независимо от способностей, и что ранг способности человека одинаков для заданий независимо от сложности. Таким образом, однопараметрические модели не зависят от выборки, а это свойство не выполняется для двухпараметрических и трехпараметрических моделей. Кроме того, теоретически существует четырехпараметрическая модель (4PL) с верхней асимптотой , обозначенной где в 3PL заменяется на . Однако это используется редко. Обратите внимание, что алфавитный порядок параметров пункта не соответствует их практической или психометрической значимости; расположение / сложность ( $d_{i},$ $1-c_{i}$ $d_{i}-c_{i}$ $b_{i}$ ), несомненно, является наиболее важным, поскольку он включен во все три модели. 1PL использует только , 2PL использует и , 3PL добавляет , а 4PL добавляет . $b_{i}$ $b_{i}$ $a_{i}$ $c_{i}$ $d_{i}$

2PL эквивалентен модели 3PL с использованием и подходит для тестирования заданий, где угадывание правильного ответа крайне маловероятно, например заданий с заполнением пробелов («Какой квадратный корень из 121?») Или где концепция угадывания неприменима, например, в отношении личности, отношения или интереса (например, «Мне нравятся бродвейские мюзиклы. Согласен / не согласен»). $c_{i}=0$

1PL предполагает, что не только предположения отсутствуют (или не имеют отношения к делу), но и что все элементы эквивалентны с точки зрения различения, аналогично общему факторному анализу с одинаковыми нагрузками для всех элементов. Отдельные предметы или отдельные лица могут иметь вторичные факторы, но предполагается, что они взаимно независимы и коллективно ортогональны .

Логистические и обычные модели IRT [ править ]

Альтернативная формулировка строит IRF на основе нормального распределения вероятностей; их иногда называют нормальными ожившими моделями . Например, формула для двухпараметрической нормальной-оживляющей IRF:

p_{i}(\theta )=\Phi \left({\frac {\theta -b_{i}}{\sigma _{i}}}\right)

где Φ - кумулятивная функция распределения (CDF) стандартного нормального распределения.

Нормально-позитивная модель основана на предположении о нормально распределенной ошибке измерения и теоретически привлекательна на этой основе. Это опять же параметр сложности. Параметр дискриминации равен стандартному отклонению ошибки измерения для элемента i и сравним с 1 / . $b_{i}$ ${\sigma }_{i}$ $a_{i}$

Можно оценить модель латентных черт с нормальным даром путем факторного анализа матрицы тетрахорических корреляций между элементами. ^[10] Это означает, что технически возможно оценить простую модель IRT с использованием универсального статистического программного обеспечения.

При изменении масштаба параметра способности можно сделать логистическую модель 2PL максимально приближенной к кумулятивному нормальному оживлению. Как правило, логические и нормальные IRF 2PL различаются по вероятности не более чем на 0,01 в диапазоне функции. Однако наибольшая разница наблюдается в хвостах распределения, которые, как правило, имеют большее влияние на результаты.

Модель скрытого признака / IRT была первоначально разработана с использованием обычных огивов, но в то время (1960-е годы) она считалась слишком требовательной к вычислениям для компьютеров. Логистическая модель была предложена как более простая альтернатива и с тех пор широко используется. Совсем недавно, однако, было показано , что, используя стандартные полиномиальные приближения к нормальному КОРУ , ^[11] нормаль-стрельчатая модель является не более вычислительно требовательным , чем логистические модели. ^[12]

Модель Раша [ править ]

Модель Раша часто рассматривается как модель 1PL IRT. Однако сторонники моделирования Раша предпочитают рассматривать его как совершенно другой подход к концептуализации взаимосвязи между данными и теорией. ^[13] Как и другие подходы к статистическому моделированию, IRT подчеркивает примат соответствия модели наблюдаемым данным, ^{[14] в} то время как модель Раша подчеркивает примат требований к фундаментальным измерениям, при этом адекватное соответствие модели данных является важным, но вторичное требование, которое должно быть выполнено до того, как можно будет заявить о тесте или исследовательском инструменте для измерения характеристики. ^[15] С практической точки зрения это означает, что подходы IRT включают дополнительные параметры модели для отражения паттернов, наблюдаемых в данных (например, позволяя элементам варьироваться в их корреляции со скрытым признаком), тогда как в подходе Раша утверждения о наличии скрытого признака может считаться действительным только тогда, когда и (а) данные соответствуют модели Раша, и (б) тестовые задания и экзаменуемые соответствуют модели. Следовательно, согласно моделям Раша, несоответствующие ответы требуют диагностики причины несоответствия и могут быть исключены из набора данных, если можно по существу объяснить, почему они не обращаются к латентному признаку. ^[16] Таким образом, подход Раша можно рассматривать как подтверждающий подход в отличие от исследовательских подходов, которые пытаются смоделировать наблюдаемые данные.

Наличие или отсутствие параметра предположения или псевдослучайности является важным и иногда спорным отличием. Подход IRT включает параметр левой асимптоты для учета предположений в экзаменах с множественным выбором , в то время как модель Раша этого не делает, потому что предполагается, что угадывание добавляет к данным случайно распределенный шум. Поскольку шум распределен случайным образом, предполагается, что при условии, что проверено достаточное количество элементов, ранжирование людей по скрытому признаку по необработанной оценке не изменится, а просто подвергнется линейному масштабированию. Напротив, трехпараметрическая IRT обеспечивает соответствие модели данных путем выбора модели, которая соответствует данным ^[17] за счет принесения в жертву конкретной объективности .

На практике модель Раша имеет как минимум два основных преимущества по сравнению с подходом IRT. Первое преимущество - это приоритет специфических требований Раша ^[18], которые (при соблюдении) обеспечивают фундаментальное измерение без использования человека (где люди и предметы могут быть отображены на одной и той же инвариантной шкале). ^[19] Еще одним преимуществом подхода Раша является то, что оценка параметров более проста в моделях Раша из-за наличия достаточной статистики, которая в этом приложении означает взаимно однозначное сопоставление необработанных количественно-правильных оценок с оценками Раша . ^[20] ${\theta }$

Анализ соответствия модели [ править ]

В этом разделе не процитировать любые источники . Пожалуйста, помогите улучшить этот раздел , добавив цитаты из надежных источников . Материал, не полученный от источника, может быть оспорен и удален . ( Июль 2014 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Как и при любом использовании математических моделей, важно оценить соответствие данных модели. Если установлено, что несоответствие задания какой-либо модели связано с плохим качеством задания, например, вводя в заблуждение отвлекающих факторов в тесте с множественным выбором, то эти задания могут быть удалены из этой тестовой формы и переписаны или заменены в будущих тестовых формах. Если, однако, возникает большое количество элементов несоответствия без очевидной причины несоответствия, необходимо будет пересмотреть конструктивную валидность теста и, возможно, придется переписать спецификации теста. Таким образом, misfit предоставляет неоценимые диагностические инструменты для разработчиков тестов, позволяя эмпирически проверять гипотезы, на которых основаны спецификации тестов, на основе данных.

Существует несколько методов оценки соответствия, таких как статистика хи-квадрат или ее стандартизованная версия. Двух- и трехпараметрические модели IRT регулируют различение элементов, обеспечивая улучшенное соответствие модели данных, поэтому статистике соответствия не хватает подтверждающей диагностической ценности, обнаруживаемой в однопараметрических моделях, где идеализированная модель указывается заранее.

Данные не следует удалять на основании несоответствия модели, а скорее потому, что была диагностирована конструктивно релевантная причина несоответствия, например, не носитель английского языка, сдающий тест по естественным наукам, написанный на английском языке. Можно утверждать, что такой кандидат не принадлежит к одной и той же совокупности людей в зависимости от размерности теста, и, хотя считается, что измерения одного параметра IRT не зависят от выборки, они не являются независимыми от совокупности, поэтому такое несоответствие является построение релевантного и не делает недействительным тест или модель. Такой подход является важным инструментом при валидации инструментов. В двух- и трехпараметрических моделях, где психометрическая модель настраивается в соответствии с данными,будущие администрации теста должны быть проверены на соответствие той же модели, которая использовалась при первоначальной валидации, чтобы подтвердить гипотезу о том, что оценки от каждой администрации распространяются на другие администрации. Если для каждой администрации указана разная модель, чтобы добиться соответствия модели данных, то измеряется другая скрытая характеристика, и нельзя утверждать, что результаты тестов могут быть сопоставимы между администрациями.

Информация [ править ]

Одним из основных вкладов теории отклика элементов является расширение концепции надежности . Традиционно надежность относится к точности измерения (т. Е. Степени, в которой измерение не содержит ошибок). Традиционно он измеряется с использованием единого индекса, определяемого различными способами, например, отношения истинной и наблюдаемой дисперсии оценок. Этот индекс полезен для характеристики средней надежности теста, например, для сравнения двух тестов. Но IRT ясно дает понять, что точность неодинакова по всему диапазону результатов тестов. Например, оценки на краю диапазона теста обычно имеют больше ошибок, чем оценки ближе к середине диапазона.

Теория отклика элемента развивает концепцию информации элемента и тестовой информации, чтобы заменить надежность. Информация также является функцией параметров модели. Например, согласно теории информации Фишера, информация об элементе, предоставляемая в случае 1PL для данных дихотомического ответа, представляет собой просто вероятность правильного ответа, умноженную на вероятность неправильного ответа, или,

I(\theta )=p_{i}(\theta )q_{i}(\theta ).\,

Стандартная ошибка оценки (SE) является обратным тестовой информацией на данном уровне признака в, является

{\text{SE}}(\theta )={\frac {1}{\sqrt {I(\theta )}}}.

Таким образом, больше информации означает меньшую погрешность измерения.

Для других моделей, таких как модели с двумя и тремя параметрами, параметр дискриминации играет важную роль в функции. Информационная функция элемента для двухпараметрической модели:

I(\theta )=a_{i}^{2}p_{i}(\theta )q_{i}(\theta ).\,

Информационная функция элемента для трехпараметрической модели:

I(\theta )=a_{i}^{2}{\frac {(p_{i}(\theta )-c_{i})^{2}}{(1-c_{i})^{2}}}{\frac {q_{i}(\theta )}{p_{i}(\theta )}}.

^[21]

В общем, информационные функции элемента имеют тенденцию выглядеть колоколообразно. Элементы с высокой степенью различения имеют высокие, узкие информационные функции; они вносят большой вклад, но в узком диапазоне. Менее разборчивые элементы предоставляют меньше информации, но в более широком диапазоне.

Графики информации об элементе можно использовать, чтобы увидеть, сколько информации вносит элемент и в какую часть диапазона баллов шкалы. Из-за локальной независимости функции информации о предметах являются аддитивными . Таким образом, информационная функция теста - это просто сумма информационных функций пунктов экзамена. Используя это свойство с большим банком элементов, можно сформировать функции тестовой информации для очень точного управления ошибкой измерения .

Определение точности результатов тестов, возможно, является центральным вопросом психометрической теории и главным различием между IRT и CTT. Результаты IRT показывают, что концепция надежности CTT является упрощением. Вместо надежности IRT предлагает функцию тестовой информации, которая показывает степень точности при различных значениях тета, θ.

Эти результаты позволяют психометристам (потенциально) тщательно формировать уровень надежности для различных диапазонов способностей, включая тщательно подобранные элементы. Например, в ситуации сертификации, когда тест может быть пройден или не пройден, где есть только один «проходной балл» и где фактический проходной балл не важен, можно разработать очень эффективный тест, выбрав только те элементы, которые имеют высокая информация рядом с рейтингом. Эти задания, как правило, соответствуют заданиям, сложность которых примерно такая же, как и у оценок.

Подсчет очков [ править ]

Параметр человека представляет собой величину скрытых черт человека, которая представляет собой человеческие способности или атрибуты, измеренные с помощью теста. ^[22] Это могут быть когнитивные способности, физические способности, навыки, знания, отношение, личностные характеристики и т. Д. ${\theta }$

Оценка параметра «человек» - «балл» по тесту с IRT - вычисляется и интерпретируется совсем иначе, чем традиционные оценки, такие как число или процент правильных ответов. Общая оценка индивидуального правильного числа не является фактической оценкой, а скорее основана на IRF, что приводит к взвешенной оценке, когда модель содержит параметры распознавания элементов. Это на самом деле получается путем умножения функции отклика элемент для каждого элемента , чтобы получить функцию правдоподобия , самая высокая точка которого является оценка максимального правдоподобия из . Эта наивысшая точка обычно оценивается с помощью программного обеспечения IRT с использованием метода Ньютона – Рафсона . ^[23] ${\theta }$ Хотя подсчет баллов в IRT намного сложнее, для большинства тестов (линейная) корреляция между тета-оценкой и традиционной оценкой очень высока; часто это 0,95 или больше. График оценок IRT по сравнению с традиционными оценками показывает оживленную форму, означающую, что IRT оценивает отдельных лиц на границах диапазона больше, чем в середине.

Важным различием между CTT и IRT является обработка ошибки измерения, индексируемой стандартной ошибкой измерения . Все тесты, анкеты и инвентаризация - неточные инструменты; мы никогда не сможем узнать истинную оценку человека , а скорее будем иметь только оценку, наблюдаемую оценку. Существует некоторая случайная ошибка, которая может подтолкнуть наблюдаемую оценку выше или ниже истинной. CTT предполагает, что количество ошибок одинаково для каждого экзаменуемого, но IRT позволяет ему варьироваться. ^[24]

Кроме того, ничто в IRT не опровергает человеческого развития или улучшения или предполагает, что уровень черты фиксирован. Человек может приобрести навыки, знания или даже так называемые «навыки сдачи тестов», которые могут привести к более высокому истинному баллу. Фактически, часть исследований IRT сосредоточена на измерении изменения уровня черт. ^[25]

Сравнение классической теории и теории ответа на вопросы [ править ]

Классическая теория тестирования (CTT) и IRT в основном связаны с одними и теми же проблемами, но представляют собой разные области теории и влекут за собой разные методы. Хотя эти две парадигмы в целом согласованы и дополняют друг друга, есть ряд различий:

IRT делает более сильные предположения, чем CTT, и во многих случаях дает, соответственно, более убедительные выводы; в первую очередь, характеристики ошибки. Конечно, эти результаты верны только тогда, когда предположения моделей IRT действительно выполняются.
Хотя результаты CTT позволили получить важные практические результаты, модель IRT дает много преимуществ по сравнению с аналогичными результатами CTT.
Процедуры оценки теста CTT имеют то преимущество, что их легко вычислить (и объяснить), тогда как оценка IRT обычно требует относительно сложных процедур оценки.
IRT предоставляет несколько улучшений в масштабировании предметов и людей. Специфика зависит от модели IRT, но большинство моделей масштабируют сложность предметов и способности людей по одной и той же метрике. Таким образом, можно осмысленно сравнить сложность предмета и способности человека.
Еще одно улучшение, обеспечиваемое IRT, заключается в том, что параметры моделей IRT обычно не зависят от выборки или теста, тогда как истинный результат определяется в CTT в контексте конкретного теста. Таким образом, IRT обеспечивает значительно большую гибкость в ситуациях, когда используются разные образцы или тестовые формы. Эти результаты IRT являются основой компьютерного адаптивного тестирования.

Стоит также упомянуть некоторые конкретные сходства между CTT и IRT, которые помогают понять соответствие между концепциями. Во- первых, Лорд ^[26] показали , что при условии , что обычно распространяется, дискриминация в модели 2PL находится примерно в монотонной функцией от точечного бирядных корреляции . Особенно: $\theta$

a_{i}\cong {\frac {\rho _{it}}{\sqrt {1-\rho _{it}^{2}}}}

где - точечная бисерийная корреляция пункта i . Таким образом, если предположение верно, то там, где есть более высокая дискриминация, обычно будет более высокая точка-бисерийная корреляция. $\rho _{it}$

Другое сходство состоит в том, что хотя IRT обеспечивает стандартную ошибку каждой оценки и информационную функцию, также возможно получить индекс для теста в целом, который прямо аналогичен альфе Кронбаха , называемый индексом разделения . Для этого необходимо начать с разложения оценки IRT на истинное местоположение и ошибку, аналогично разложению наблюдаемой оценки на истинную оценку и ошибку в CTT. Позволять

{\hat {\theta }}=\theta +\epsilon

где - истинное местоположение, а - связь ошибки с оценкой. Затем выполняется оценка стандартного отклонения для человека с данным взвешенным баллом, и индекс разделения получается следующим образом $\theta$ $\epsilon$ ${\mbox{SE}}({\theta })$ $\epsilon$

R_{\theta }={\frac {{\text{var}}[\theta ]}{{\text{var}}[{\hat {\theta }}]}}={\frac {{\text{var}}[{\hat {\theta }}]-{\text{var}}[\epsilon ]}{{\text{var}}[{\hat {\theta }}]}}

где среднеквадратичная стандартная ошибка оценки человека дает оценку дисперсии ошибок , у разных людей. Стандартные ошибки обычно возникают как побочный продукт процесса оценки. Индекс разделения обычно очень близок по значению к альфе Кронбаха. ^[27] $\epsilon _{n}$

IRT иногда называют теорией сильных истинных оценок или современной теорией ментальных тестов, потому что это более новая теория, которая делает более явными гипотезы, подразумеваемые в CTT.

См. Также [ править ]

Классическая теория тестирования
Инвентарь концепций
Функционирование дифференциального элемента
Анализ соответствия личности

Психометрия
Масштаб (общественные науки)
Стандартизированный тест
Stata

Ссылки [ править ]

^ Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI Архивировано 07.07.2017 -22 у Wayback Machine
^ А. ван Альфен, Р. Халфенс, А. Хасман и Т. Имбос. (1994). Лайкерт или Раш? Нет ничего более применимого, чем хорошая теория. Журнал Advanced Nursing . 20 , 196-201
^ Embretson, Susan E .; Райз, Стивен П. (2000). Пункт Теория отклика для психологов . Психология Press. ISBN 9780805828191.
^ Обзор исследования ETS
^ Хэмблтон, RK, Сваминатана, H., & Rogers, HJ (1991). Основы теории отклика на предмет . Ньюбери-Парк, Калифорния: Sage Press.
^ Бок, RD; Айткин М. (1981). «Оценка предельного максимального правдоподобия параметров объекта: применение алгоритма EM». Психометрика . 46 (4): 443–459. DOI : 10.1007 / BF02293801 .
^ Остини, Ремо; Неринг, Майкл Л. (2005). Модели теории отклика политомного элемента . Количественные приложения в социальных науках. 144 . МУДРЕЦ. ISBN 978-0-7619-3068-6.
^ Неринг, Майкл Л .; Остини, Ремо, ред. (2010). Справочник по моделям теории политомного ответа . Тейлор и Фрэнсис. ISBN 978-0-8058-5992-8.
^ Thissen, Д. и Орландо, М. (2001). Теория ответа на вопросы, полученные по двум категориям. В D. Thissen & Wainer, H. (Eds.), Test Scoring (стр. 73-140). Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
^ KG Jöreskog и D. Sörbom (1988). PRELIS 1 руководство пользователя, версия 1 . Чикаго: Scientific Software, Inc.
^ Abramowitz М., Stegun И. А. (1972). Справочник по математическим функциям . Вашингтон, округ Колумбия: Типография правительства США.
^ Uebersax, JS (декабрь 1999). «Пробит анализ латентных классов с дихотомическими или упорядоченными категориями: модели условной независимости / зависимости». Прикладное психологическое измерение . 23 (4): 283–297. DOI : 10.1177 / 01466219922031400 .
^ Андрич, Д. (1989), Различия между допущениями и требованиями в измерениях в социальных науках », Китс, Дж. А., Тафт, Р., Хит, Р. А., Ловибонд, С. (ред.),« Математические и теоретические системы » , издательство Elsevier Science Publishers , Северная Голландия, Амстердам, стр. 7–16.
Перейти ↑ Steinberg, J. (2000). Фредерик Лорд, разработавший критерий тестирования, умер в возрасте 87 лет. New York Times, 10 февраля 2000 г.
^ Андрич, Д. (январь 2004 г.). «Противоречие и модель Раша: характеристика несовместимых парадигм?». Медицинское обслуживание . 42 (1): I – 7. DOI : 10.1097 / 01.mlr.0000103528.48582.7c . PMID 14707751 .
Перейти ↑ Smith, RM (1990). «Теория и практика подгонки» . Сделки по измерениям Раша . 3 (4): 78.
^ Zwick, R .; Тайер, Д.Т.; Вингерский, М. (декабрь 1995 г.). «Влияние калибровки Раша на оценку способностей и DIF в компьютерно-адаптивных тестах». Журнал педагогических измерений . 32 (4): 341–363. DOI : 10.1111 / j.1745-3984.1995.tb00471.x .
^ Раш, Г. (1960/1980). Вероятностные модели для некоторых тестов интеллекта и достижений . (Копенгаген, Датский институт исследований в области образования), расширенное издание (1980 г.) с предисловием и послесловием Б. Д. Райта. Чикаго: Издательство Чикагского университета.
Перейти ↑ Wright, BD (1992). «IRT в 1990-е годы: какие модели работают лучше всего?». Сделки по измерениям Раша . 6 (1): 196–200.
^ Фишер, GH & Molenaar, IW (1995). Модели Раша: основы, последние разработки и приложения . Нью-Йорк: Спрингер.
Перейти ↑ de Ayala, RJ (2009). Теория и практика теории отклика на предмет , Нью-Йорк, Нью-Йорк: Гилфорд Пресс. (6.12), стр.144
^ Lazarsfeld PF и Генри NW (1968). Скрытый структурный анализ . Бостон: Хоутон Миффлин.
Перейти ↑ Thompson, NA (2009). «Оценка способностей с IRT» (PDF) .
^ Колен, Майкл Дж .; Цзэн, Линцзя; Хэнсон, Брэдли А. (июнь 1996 г.). «Условные стандартные ошибки измерения шкал с использованием IRT». Журнал педагогических измерений . 33 (2): 129–140. DOI : 10.1111 / j.1745-3984.1996.tb00485.x .
Перейти ↑ Hall, LA, & McDonald, JL (2000). Измерение изменений в восприятии учителями влияния развития персонала на преподавание. Доклад, представленный на Ежегодном собрании Американской ассоциации исследований в области образования (Новый Орлеан, Лос-Анджелес, 24–28 апреля 2000 г.).
^ Лорд, FM (1980). Применение теории отклика элемента к практическим задачам тестирования . Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.
^ Андрич, Д. (1982). «Индекс разделения людей в теории скрытых черт, традиционный индекс KR.20 и образец ответа по шкале Гуттмана». Образовательные исследования и перспективы . 9 : 95–104.

Дальнейшее чтение [ править ]

Было написано много книг, которые касаются теории отклика элементов или содержат модели, подобные IRT или IRT. Это неполный список, в котором основное внимание уделяется текстам, которые обеспечивают большую глубину.

Лорд, FM (1980). Применение теории отклика элемента к практическим задачам тестирования. Махва, Нью-Джерси: Эрлбаум.

В этой книге кратко излагается большая часть работы Лорда по IRT, включая главы о взаимосвязи между IRT и классическими методами, основы IRT, оценки и несколько дополнительных тем. Его глава оценки теперь датирована тем, что в ней в первую очередь обсуждается совместный метод максимального правдоподобия, а не метод предельного максимального правдоподобия, реализованный Дарреллом Боком и его коллегами.

Embretson, Susan E .; Райз, Стивен П. (2000). Пункт Теория отклика для психологов . Психология Press. ISBN 978-0-8058-2819-1.

Эта книга представляет собой доступное введение в IRT, предназначенное, как сказано в названии, для психологов.

Бейкер, Фрэнк (2001). Основы теории ответов на вопросы. Информационный центр ERIC по оценке и оценке, Мэрилендский университет, Колледж-Парк, штат Мэриленд.

Эта вводная книга написана одним из пионеров в этой области и доступна в Интернете по адресу [1]

Бейкер, Фрэнк Б .; Ким, Сок-Хо (2004). Теория ответа элемента: методы оценки параметров (2-е изд.). Марсель Деккер. ISBN 978-0-8247-5825-7.

В этой книге описаны различные модели теории отклика предметов и приведены подробные объяснения алгоритмов, которые можно использовать для оценки параметров предмета и способностей. Отдельные части книги доступны в режиме ограниченного предварительного просмотра в Google Книгах .

ван дер Линден, Вим Дж .; Хэмблтон, Рональд К., ред. (1996). Справочник по современной теории отклика на предмет . Springer. ISBN 978-0-387-94661-0.

В этой книге представлен исчерпывающий обзор различных популярных моделей IRT. Он хорошо подходит для людей, которые уже получили базовое понимание IRT.

де Бок, Поль; Уилсон, Марк (2004). Модели ответов с пояснительными заданиями: обобщенный линейный и нелинейный подход . Springer. ISBN 978-0-387-40275-8.

В этом томе представлено комплексное введение в модели ответа на вопросы, в основном предназначенное для практиков, исследователей и аспирантов.

Фокс, Жан-Поль (2010). Моделирование ответов байесовского элемента: теория и приложения . Springer. ISBN 978-1-4419-0741-7.

В этой книге обсуждается байесовский подход к моделированию реакции элемента. Книга будет полезна людям (знакомым с IRT), интересующимся анализом данных ответов на вопросы с байесовской точки зрения.

Внешние ссылки [ править ]

«ИСТОРИЯ ТЕОРИИ ОТВЕТА НА ПУНКТ (до 1982 г.)» , Иллинойсский университет в Чикаго
Простое руководство по теории ответов на вопросы (PDF)
Загрузки психометрического программного обеспечения
Учебное пособие по IRT
Учебное пособие по IRT FAQ
Введение в IRT
Стандарты педагогического и психологического тестирования
Компьютерная программа IRT Command Language (ICL)
Программы IRT от SSI, Inc.
Анализ скрытых черт и модели IRT
Анализ Раша
Программы анализа Раша от Winsteps
Теория отклика предмета
Бесплатное программное обеспечение IRT
Пакеты IRT в R
Поддержка IRT / EIRT в Lertap 5
Визуальный IRT-анализ и отчетность с Xcalibre

[1] Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI Архивировано 07.07.2017 -22 у Wayback Machine

[vanAlphen1994-2] А. ван Альфен, Р. Халфенс, А. Хасман и Т. Имбос. (1994). Лайкерт или Раш? Нет ничего более применимого, чем хорошая теория. Журнал Advanced Nursing . 20 , 196-201

[3] Embretson, Susan E .; Райз, Стивен П. (2000). Пункт Теория отклика для психологов . Психология Press. ISBN 9780805828191.

[4] Обзор исследования ETS

[5] Хэмблтон, RK, Сваминатана, H., & Rogers, HJ (1991). Основы теории отклика на предмет . Ньюбери-Парк, Калифорния: Sage Press.

[6] Бок, RD; Айткин М. (1981). «Оценка предельного максимального правдоподобия параметров объекта: применение алгоритма EM». Психометрика . 46 (4): 443–459. DOI : 10.1007 / BF02293801 .

[7] Остини, Ремо; Неринг, Майкл Л. (2005). Модели теории отклика политомного элемента . Количественные приложения в социальных науках. 144 . МУДРЕЦ. ISBN 978-0-7619-3068-6.

[8] Неринг, Майкл Л .; Остини, Ремо, ред. (2010). Справочник по моделям теории политомного ответа . Тейлор и Фрэнсис. ISBN 978-0-8058-5992-8.

[9] Thissen, Д. и Орландо, М. (2001). Теория ответа на вопросы, полученные по двум категориям. В D. Thissen & Wainer, H. (Eds.), Test Scoring (стр. 73-140). Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.

[10] KG Jöreskog и D. Sörbom (1988). PRELIS 1 руководство пользователя, версия 1 . Чикаго: Scientific Software, Inc.

[11] Abramowitz М., Stegun И. А. (1972). Справочник по математическим функциям . Вашингтон, округ Колумбия: Типография правительства США.

[12] Uebersax, JS (декабрь 1999). «Пробит анализ латентных классов с дихотомическими или упорядоченными категориями: модели условной независимости / зависимости». Прикладное психологическое измерение . 23 (4): 283–297. DOI : 10.1177 / 01466219922031400 .

[13] Андрич, Д. (1989), Различия между допущениями и требованиями в измерениях в социальных науках », Китс, Дж. А., Тафт, Р., Хит, Р. А., Ловибонд, С. (ред.),« Математические и теоретические системы » , издательство Elsevier Science Publishers , Северная Голландия, Амстердам, стр. 7–16.

[14] Перейти ↑ Steinberg, J. (2000). Фредерик Лорд, разработавший критерий тестирования, умер в возрасте 87 лет. New York Times, 10 февраля 2000 г.

[15] Андрич, Д. (январь 2004 г.). «Противоречие и модель Раша: характеристика несовместимых парадигм?». Медицинское обслуживание . 42 (1): I – 7. DOI : 10.1097 / 01.mlr.0000103528.48582.7c . PMID 14707751 .

[16] Перейти ↑ Smith, RM (1990). «Теория и практика подгонки» . Сделки по измерениям Раша . 3 (4): 78.

[17] Zwick, R .; Тайер, Д.Т.; Вингерский, М. (декабрь 1995 г.). «Влияние калибровки Раша на оценку способностей и DIF в компьютерно-адаптивных тестах». Журнал педагогических измерений . 32 (4): 341–363. DOI : 10.1111 / j.1745-3984.1995.tb00471.x .

[18] Раш, Г. (1960/1980). Вероятностные модели для некоторых тестов интеллекта и достижений . (Копенгаген, Датский институт исследований в области образования), расширенное издание (1980 г.) с предисловием и послесловием Б. Д. Райта. Чикаго: Издательство Чикагского университета.

[19] Перейти ↑ Wright, BD (1992). «IRT в 1990-е годы: какие модели работают лучше всего?». Сделки по измерениям Раша . 6 (1): 196–200.

[20] Фишер, GH & Molenaar, IW (1995). Модели Раша: основы, последние разработки и приложения . Нью-Йорк: Спрингер.

[21] Перейти ↑ de Ayala, RJ (2009). Теория и практика теории отклика на предмет , Нью-Йорк, Нью-Йорк: Гилфорд Пресс. (6.12), стр.144

[22] Lazarsfeld PF и Генри NW (1968). Скрытый структурный анализ . Бостон: Хоутон Миффлин.

[23] Перейти ↑ Thompson, NA (2009). «Оценка способностей с IRT» (PDF) .

[24] Колен, Майкл Дж .; Цзэн, Линцзя; Хэнсон, Брэдли А. (июнь 1996 г.). «Условные стандартные ошибки измерения шкал с использованием IRT». Журнал педагогических измерений . 33 (2): 129–140. DOI : 10.1111 / j.1745-3984.1996.tb00485.x .

[25] Перейти ↑ Hall, LA, & McDonald, JL (2000). Измерение изменений в восприятии учителями влияния развития персонала на преподавание. Доклад, представленный на Ежегодном собрании Американской ассоциации исследований в области образования (Новый Орлеан, Лос-Анджелес, 24–28 апреля 2000 г.).

[26] Лорд, FM (1980). Применение теории отклика элемента к практическим задачам тестирования . Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.

[27] Андрич, Д. (1982). «Индекс разделения людей в теории скрытых черт, традиционный индекс KR.20 и образец ответа по шкале Гуттмана». Образовательные исследования и перспективы . 9 : 95–104.

[1]