Теория отклика предмета

В психометрии , теория ответа пункта ( ИРТ ) (также известная как скрытая теория признака , сильная истинная теория оценки , или современной теория психического теста ) является парадигмой для проектирования, анализа и озвучивания тестов , опросников и аналогичных инструментов измерения способностей, отношения или другие переменные. Это теория тестирования, основанная на взаимосвязи между показателями отдельных лиц по заданию теста и уровнями успеваемости тестируемых по общему показателю способности, для измерения которой этот элемент был разработан. Для представления характеристик как заданий, так и тестируемых используется несколько различных статистических моделей.^[1] В отличие от более простых альтернатив для создания шкал и оценки ответов на вопросник, он не предполагает, что каждый пункт одинаково сложен. Это отличает IRT, например, от шкалирования Лайкерта , в котором « предполагается, чтовсе элементы являются копиями друг друга, или, другими словами, элементы считаются параллельными инструментами»^[2] (стр. 197). Напротив, теория ответов на вопросы рассматривает сложность каждого элемента (характеристические кривые или ICC ) как информацию, которая должна быть включена в масштабирование элементов.

Он основан на применении связанных математических моделей к данным тестирования . Потому что часто рассматривается как выше классической теории тест , ^[3] , что является предпочтительным методом для разработки шкал в Соединенных Штатах ^{[ править ]} , особенно когда оптимальные решения востребованы, как и в так называемых высоких лимитах тестов , например , , Graduate Record Examination (GRE) и Graduate Management Admission Test (GMAT).

Теория ответа на вопрос о названии возникла из-за того, что теория сосредоточена на элементе, в отличие от классической теории тестирования, ориентированной на уровень тестирования. Таким образом, IRT моделирует реакцию каждого испытуемого с определенной способностью на каждый элемент теста. Термин « элемент» является общим и охватывает все виды информационных элементов. Это могут быть вопросы с несколькими вариантами ответов, на которые есть неправильные и правильные ответы, но также обычно это утверждения в анкетах, которые позволяют респондентам указать уровень согласия ( рейтинг или шкала Лайкерта ), или симптомы пациента, оцениваемые как присутствующие / отсутствующие, или диагностическая информация в комплексе. системы.

IRT основана на идее о том , что вероятность правильного / шпоночным ответ на пункт является математической функцией от человека и элементов параметров . (Выражение «математическая функция параметров человека и предмета» аналогично уравнению Курта Левина B = f (P, E) , которое утверждает, что поведение является функцией человека в его окружении.) Параметр человека определяется как ( обычно) единственная скрытая черта или измерение. Примеры включают общий интеллект или силу отношения. Параметры, по которым элементы характеризуются, включают их сложность (известную как «местоположение» из-за их расположения в диапазоне сложности); дискриминация (наклон или корреляция), показывающая, насколько резко степень успеха людей зависит от их способностей; и параметр псевдогадания, характеризующий (нижнюю) асимптоту, при которой даже наименее способные люди будут набирать баллы из-за угадывания (например, 25% для чистой вероятности по заданию с множественным выбором с четырьмя возможными ответами).

Таким же образом IRT можно использовать для измерения поведения людей в социальных сетях. Мнения, выраженные разными людьми, можно объединить для изучения с помощью IRT. Также оценивалось его использование для классификации информации как дезинформации или достоверной информации.

Обзор

Концепция функции ответа элемента существовала до 1950 года. Пионерская работа IRT как теории произошла в 1950-х и 1960-х годах. Трое из пионеров были Educational Testing Service psychometrician Фредерик М. Лорд , ^[4] датский математик Георг Rasch , и австрийский социолог Лазарсфельд , который проводит параллельные исследования независимо друг от друга. К ключевым фигурам, способствовавшим развитию IRT, относятся Бенджамин Дрейк Райт и Дэвид Андрич . IRT не получил широкого распространения до конца 1970-х и 1980-х годов, когда практикам рассказали о «полезности» и «преимуществах» IRT, с одной стороны, а персональные компьютеры предоставили многим исследователям доступ к вычислительной мощности, необходимой для IRT, с другой.

Среди прочего, цель IRT - предоставить основу для оценки того, насколько хорошо работают оценки и насколько хорошо работают отдельные элементы оценок. Чаще всего IRT применяется в образовании, где психометристы используют его для разработки и проектирования экзаменов , ведения банков заданий для экзаменов и уравнивания сложности заданий для последовательных версий экзаменов (например, для сравнения результатов с течением времени). . ^[5]

IRT-модели часто называют моделями скрытых признаков . Термин « латентный» используется для того, чтобы подчеркнуть, что дискретные ответы на вопросы рассматриваются как наблюдаемые проявления предполагаемых черт, конструкций или атрибутов, которые не наблюдаются напрямую, но которые должны быть выведены из явных ответов. Модели скрытых черт были разработаны в области социологии, но практически идентичны моделям IRT.

IRT обычно считается улучшением по сравнению с классической теорией тестирования (CTT). Для задач, которые могут быть выполнены с помощью CTT, IRT обычно обеспечивает большую гибкость и предоставляет более сложную информацию. Некоторые приложения, такие как компьютеризированное адаптивное тестирование , поддерживаются IRT и не могут быть выполнены с использованием только классической теории тестирования. Еще одно преимущество IRT перед CTT состоит в том, что более подробная информация, которую предоставляет IRT, позволяет исследователю повысить надежность оценки.

IRT предполагает три допущения:

Одномерная черта, обозначаемая ${\ displaystyle {\ theta}}$ ;
Местная независимость предметов;
Реакцию человека на элемент можно смоделировать с помощью математической функции ответа элемента (IRF).

Далее предполагается, что признак можно измерить по шкале (это предполагает простое наличие теста), обычно установленной на стандартную шкалу со средним значением 0,0 и стандартным отклонением 1,0. Одномерность следует интерпретировать как однородность, качество, которое должно быть определено или эмпирически продемонстрировано в отношении данной цели или использования, но не как количество, которое можно измерить. «Локальная независимость» означает (а) что вероятность использования одного предмета не связана с каким-либо другим используемым предметом (ами) и (б) что ответ на предмет является независимым решением каждого тестируемого, то есть, здесь нет жульничества, парной или групповой работы. Тема размерности часто исследуется с помощью факторного анализа , в то время как IRF является основным строительным блоком IRT и является центром большей части исследований и литературы.

Функция ответа элемента

IRF дает вероятность того, что человек с заданным уровнем способностей ответит правильно. Люди с более низкими способностями имеют меньше шансов, в то время как люди с высокими способностями скорее всего ответят правильно; например, учащиеся с более высокими математическими способностями с большей вероятностью получат правильный предмет по математике. Точное значение вероятности зависит, помимо способности, от набора параметров элемента для IRF.

Трехпараметрическая логистическая модель

Рисунок 1: Пример 3PL IRF с наложенными пунктирными линиями для демонстрации параметров.

Например, в трехпараметрической логистической модели ( 3PL ) вероятность правильного ответа на дихотомический элемент i , обычно это вопрос с несколькими вариантами ответов, составляет:

{\ displaystyle p_ {i} ({\ theta}) = c_ {i} + {\ frac {1-c_ {i}} {1 + e ^ {- a_ {i} ({\ theta} -b_ {i })}}}}

где ${\ displaystyle {\ theta}}$ указывает, что способности человека смоделированы как выборка из нормального распределения с целью оценки параметров элемента. После того, как параметры задания были оценены, для целей отчетности оцениваются способности отдельного человека. ${\ displaystyle a_ {i}}$ , ${\ displaystyle b_ {i}}$ , а также ${\ displaystyle c_ {i}}$ параметры элемента. Параметры элемента определяют форму IRF. На рисунке 1 изображен идеальный 3PL ICC.

Параметры товара можно интерпретировать как изменение формы стандартной логистической функции :

{\ Displaystyle P (t) = {\ frac {1} {1 + e ^ {- t}}}.}

Вкратце, параметры интерпретируются следующим образом (для удобства чтения индексы опускаются); b является самым основным, поэтому он указан первым:

б - сложность, расположение предмета: ${\ Displaystyle р (Ь) = (1 + с) / 2,}$ на полпути между ${\ displaystyle c_ {i}}$ (мин.) и 1 (макс.), также там, где наклон максимален.
а - дискриминация, масштаб, крутизна: максимальная крутизна ${\ displaystyle p '(b) = a \ cdot (1-c) / 4.}$
c - псевдогадание, шанс, асимптотический минимум ${\ Displaystyle р (- \ infty) = с.}$

Если ${\ displaystyle c = 0,}$ тогда они упрощаются до ${\ displaystyle p (b) = 1/2}$ а также ${\ Displaystyle р '(Ь) = а / 4,}$ это означает, что b равно 50% уровню успеха (сложности), а a (деленное на четыре) - это максимальный наклон (различение), который возникает на уровне успеха 50%. Кроме того, логит (логарифм шансов ) правильного ответа равен ${\ Displaystyle а (\ тета -b)}$ (при условии ${\ displaystyle c = 0}$ ): в частности, если способность θ равна сложности b, есть четные шансы (1: 1, поэтому logit 0) правильного ответа, чем больше способность выше (или ниже) сложности, тем более (или менее) вероятно, что правильный ответ ответ, с различением, определяющим, насколько быстро шансы увеличиваются или уменьшаются в зависимости от способности.

Другими словами, стандартная логистическая функция имеет асимптотический минимум 0 ( ${\ displaystyle c = 0}$ ), с центром около 0 ( ${\ displaystyle b = 0}$ , ${\ Displaystyle P (0) = 1/2}$ ), и имеет максимальный наклон ${\ Displaystyle P '(0) = 1/4.}$ В ${\ displaystyle a}$ параметр растягивает горизонтальную шкалу, ${\ displaystyle b}$ параметр сдвигает горизонтальный масштаб, а ${\ displaystyle c}$ сжимает вертикальный масштаб из ${\ displaystyle [0,1]}$ к ${\ displaystyle [c, 1].}$ Это подробно описано ниже.

Параметр ${\ displaystyle b_ {i}}$ представляет собой расположение элемента, которое в случае тестирования достижений называется сложностью задания. Это точка на ${\ displaystyle {\ theta}}$ где IRF имеет максимальный наклон, а значение находится посередине между минимальным значением ${\ displaystyle c_ {i}}$ и максимальное значение 1. Этот пример имеет среднюю сложность, так как ${\ displaystyle b_ {i}}$ = 0,0, что близко к центру распределения. Обратите внимание, что эта модель масштабирует сложность предмета и черту человека в одном континууме. Таким образом, допустимо говорить о том, что предмет настолько же сложен, как уровень черты человека А, или что уровень черты человека примерно такой же, как сложность предмета Y, в том смысле, что успешное выполнение задачи, связанной с предметом, отражает конкретный уровень способностей.

Параметр элемента ${\ displaystyle a_ {i}}$ представляет собой различение предмета: то есть степень, в которой предмет различает людей в разных регионах скрытого континуума. Этот параметр характеризует наклон IRF, где наклон максимален. В примере товара есть ${\ displaystyle a_ {i}}$ = 1.0, что достаточно хорошо различает; Люди с низкими способностями действительно имеют гораздо меньшие шансы правильно ответить, чем люди с более высокими способностями. Этот параметр дискриминации соответствует весовому коэффициенту соответствующего элемента или индикатора в стандартной взвешенной линейной регрессии (обычный метод наименьших квадратов, OLS ) и, следовательно, может использоваться для создания взвешенного индекса индикаторов для неконтролируемого измерения лежащей в основе скрытой концепции.

Для таких элементов, как элементы с множественным выбором , параметр ${\ displaystyle c_ {i}}$ используется в попытке учесть влияние предположений на вероятность правильного ответа. Он указывает на вероятность того, что люди с очень низкими способностями получат правильное задание случайно, математически представленная в виде нижней асимптоты . Элемент с несколькими вариантами выбора из четырех вариантов может иметь IRF, как в примере элемента; вероятность того, что кандидат с чрезвычайно низкими способностями угадает правильный ответ, составляет 1/4, поэтому ${\ displaystyle c_ {i}}$ будет примерно 0,25. Этот подход предполагает, что все варианты одинаково правдоподобны, потому что, если один вариант не имеет смысла, даже человек с самыми низкими способностями сможет отказаться от него, поэтому методы оценки параметров IRT учитывают это и оценивают ${\ displaystyle c_ {i}}$ на основании наблюдаемых данных. ^[6]

IRT модели

Вообще говоря, модели IRT можно разделить на два семейства: одномерные и многомерные. Одномерные модели требуют единственного измерения черты (способности) ${\ displaystyle {\ theta}}$ . Многомерные модели IRT моделируют данные об ответах, предположительно возникающие из нескольких характеристик. Однако из-за значительно возросшей сложности в большинстве исследований и приложений IRT используется одномерная модель.

Модели IRT также можно разделить на категории в зависимости от количества полученных ответов. Типичный элемент с множественным выбором дихотомичен ; хотя может быть четыре или пять вариантов, он все равно оценивается только как правильный / неправильный (правильный / неправильный). Другой класс моделей применяется к политомическим результатам, где каждый ответ имеет различное значение оценки. ^[7]^[8] Типичным примером этого являются элементы типа Лайкерта , например, «Оцените по шкале от 1 до 5».

Количество параметров IRT

Дихотомические модели IRT описываются количеством используемых в них параметров. ^[9] 3PL назван так, потому что он использует три параметра элемента. Двухпараметрическая модель (2PL) предполагает, что данные не предполагают никаких предположений, но элементы могут различаться в зависимости от местоположения ( ${\ displaystyle b_ {i}}$ ) и дискриминация ( ${\ displaystyle a_ {i}}$ ). Однопараметрическая модель (1PL) предполагает, что угадывание является частью способности и что все элементы, которые соответствуют модели, имеют эквивалентные различия, так что элементы описываются только одним параметром ( ${\ displaystyle b_ {i}}$ ). Это приводит к однопараметрическим моделям, обладающим свойством конкретной объективности, что означает, что уровень сложности задания одинаков для всех респондентов независимо от способностей, и что ранг способности человека одинаков для заданий независимо от сложности. Таким образом, однопараметрические модели не зависят от выборки, а это свойство не выполняется для двухпараметрических и трехпараметрических моделей. Кроме того, теоретически существует четырехпараметрическая модель (4PL) с верхней асимптотой , обозначенной ${\ displaystyle d_ {i},}$ где ${\ displaystyle 1-c_ {i}}$ в 3PL заменяется на ${\ displaystyle d_ {i} -c_ {i}}$ . Однако это используется редко. Обратите внимание, что алфавитный порядок параметров пункта не соответствует их практической или психометрической значимости; расположение / сложность ( ${\ displaystyle b_ {i}}$ ), несомненно, является наиболее важным, поскольку он включен во все три модели. 1PL использует только ${\ displaystyle b_ {i}}$ , 2PL использует ${\ displaystyle b_ {i}}$ а также ${\ displaystyle a_ {i}}$ , 3PL добавляет ${\ displaystyle c_ {i}}$ , а 4PL добавляет ${\ displaystyle d_ {i}}$ .

2PL эквивалентен модели 3PL с ${\ displaystyle c_ {i} = 0}$ , и подходит для тестовых заданий, в которых угадывание правильного ответа маловероятно, например, в заданиях с заполнением пробелов («Какой квадратный корень из 121?») или в тех случаях, когда концепция угадывания неприменима, например как элементы личности, отношения или интереса (например, «Мне нравятся бродвейские мюзиклы. Согласен / не согласен»).

1PL предполагает, что не только предположения отсутствуют (или не имеют отношения к делу), но и что все элементы эквивалентны с точки зрения различения, аналогично общему факторному анализу с одинаковыми нагрузками для всех элементов. Отдельные предметы или отдельные лица могут иметь вторичные факторы, но предполагается, что они взаимно независимы и коллективно ортогональны .

Логистические и обычные модели IRT

Альтернативная формулировка строит IRF на основе нормального распределения вероятностей; их иногда называют нормальными ожившими моделями . Например, формула для двухпараметрической нормальной-оживляющей IRF:

{\ displaystyle p_ {i} (\ theta) = \ Phi \ left ({\ frac {\ theta -b_ {i}} {\ sigma _ {i}}} \ right)}

где Φ - кумулятивная функция распределения (CDF) стандартного нормального распределения.

Нормально-позитивная модель основана на предположении о нормально распределенной ошибке измерения и теоретически привлекательна на этой основе. Здесь ${\ displaystyle b_ {i}}$ это опять же параметр сложности. Параметр дискриминации равен ${\ Displaystyle {\ sigma} _ {я}}$ , стандартное отклонение ошибки измерения для элемента i и сравнимо с 1 / ${\ displaystyle a_ {i}}$ .

Можно оценить модель латентных черт с нормальным даром путем факторного анализа матрицы тетрахорических корреляций между элементами. ^[10] Это означает, что технически возможно оценить простую модель IRT с использованием универсального статистического программного обеспечения.

При изменении масштаба параметра способности можно сделать логистическую модель 2PL максимально приближенной к кумулятивному нормальному оживлению. Как правило, логические и нормальные IRF 2PL различаются по вероятности не более чем на 0,01 в диапазоне функции. Однако наибольшая разница наблюдается в хвостах распределения, которые, как правило, имеют большее влияние на результаты.

Модель скрытого признака / IRT была первоначально разработана с использованием обычных огивов, но в то время (1960-е годы) она считалась слишком требовательной к вычислениям для компьютеров. Логистическая модель была предложена как более простая альтернатива и с тех пор широко используется. Совсем недавно, однако, было показано , что, используя стандартные полиномиальные приближения к нормальному КОРУ , ^[11] нормаль-стрельчатая модель является не более вычислительно требовательным , чем логистические модели. ^[12]

Модель Раша

Модель Раша часто рассматривается как модель 1PL IRT. Однако сторонники моделирования Раша предпочитают рассматривать его как совершенно другой подход к концептуализации взаимосвязи между данными и теорией. ^[13] Как и другие подходы к статистическому моделированию, IRT подчеркивает примат соответствия модели наблюдаемым данным, ^{[14] в} то время как модель Раша подчеркивает примат требований к фундаментальным измерениям, при этом адекватное соответствие модели данных является важным, но вторичное требование, которое должно быть выполнено до того, как можно будет заявить о тесте или исследовательском инструменте для измерения характеристики ^{[15] С практической точки} зрения это означает, что подходы IRT включают дополнительные параметры модели для отражения паттернов, наблюдаемых в данных (например, позволяя элементам варьироваться в их корреляции со скрытым признаком), тогда как в подходе Раша заявления о наличии латентная черта может считаться действительной только тогда, когда (а) данные соответствуют модели Раша и (б) тестовые задания и испытуемые соответствуют модели. Следовательно, согласно моделям Раша, несоответствующие ответы требуют диагностики причины несоответствия и могут быть исключены из набора данных, если можно по существу объяснить, почему они не обращаются к латентному признаку. ^[16] Таким образом, подход Раша можно рассматривать как подтверждающий подход в отличие от исследовательских подходов, которые пытаются смоделировать наблюдаемые данные.

Наличие или отсутствие параметра предположения или псевдослучайности является важным и иногда спорным отличием. Подход IRT включает параметр левой асимптоты для учета предположений в экзаменах с множественным выбором , в то время как модель Раша этого не делает, потому что предполагается, что угадывание добавляет к данным случайно распределенный шум. Поскольку шум распределен случайным образом, предполагается, что при условии, что проверено достаточное количество элементов, ранжирование людей по скрытому признаку по необработанной оценке не изменится, а просто подвергнется линейному масштабированию. Напротив, трехпараметрическая IRT обеспечивает соответствие модели данных путем выбора модели, которая соответствует данным ^[17] за счет принесения в жертву конкретной объективности .

На практике модель Раша имеет как минимум два основных преимущества по сравнению с подходом IRT. Первое преимущество - это приоритет специфических требований Раша ^[18], которые (при их выполнении) обеспечивают фундаментальное измерение без использования человека (где люди и предметы могут быть отображены в одной и той же инвариантной шкале). ^[19] Еще одним преимуществом подхода Раша является то, что оценка параметров более проста в моделях Раша из-за наличия достаточной статистики, что в этом приложении означает взаимно однозначное сопоставление необработанных количественно-правильных оценок с Рашем. ${\ displaystyle {\ theta}}$ оценки. ^[20]

Анализ соответствия модели

Как и при любом использовании математических моделей, важно оценить соответствие данных модели. Если установлено, что несоответствие задания какой-либо модели связано с плохим качеством задания, например, вводя в заблуждение отвлекающих факторов в тесте с множественным выбором, то элементы могут быть удалены из этой формы теста и переписаны или заменены в будущих формах теста. Если, однако, возникает большое количество элементов несоответствия без очевидной причины несоответствия, необходимо будет пересмотреть конструктивную валидность теста и, возможно, придется переписать спецификации теста. Таким образом, misfit предоставляет неоценимые диагностические инструменты для разработчиков тестов, позволяя эмпирически проверять гипотезы, на которых основаны спецификации тестов, на основе данных.

Существует несколько методов оценки соответствия, таких как статистика хи-квадрат или ее стандартизованная версия. Двух- и трехпараметрические модели IRT регулируют различение элементов, обеспечивая улучшенное соответствие модели данных, поэтому статистике соответствия не хватает подтверждающей диагностической ценности, обнаруженной в однопараметрических моделях, где идеализированная модель указывается заранее.

Данные не следует удалять на основании несоответствия модели, а скорее потому, что была диагностирована конструктивно релевантная причина несоответствия, например, не носитель английского языка, сдающий тест по естественным наукам, написанный на английском языке. Можно утверждать, что такой кандидат не принадлежит к одной и той же совокупности людей в зависимости от размерности теста, и, хотя считается, что измерения одного параметра IRT не зависят от выборки, они не являются независимыми от совокупности, поэтому такое несоответствие является построение релевантного и не делает недействительным тест или модель. Такой подход является важным инструментом при валидации инструментов. В двух- и трехпараметрических моделях, где психометрическая модель корректируется для соответствия данным, будущие администрации теста должны быть проверены на соответствие той же модели, которая использовалась при первоначальной валидации, чтобы подтвердить гипотезу, согласно которой оценки каждой администрации обобщают другим администрациям. Если для каждой администрации указана разная модель, чтобы добиться соответствия модели данных, то измеряется другая скрытая характеристика, и нельзя утверждать, что результаты тестов могут быть сопоставимы между администрациями.

Информация

Одним из основных вкладов теории отклика элементов является расширение концепции надежности . Традиционно надежность относится к точности измерения (т. Е. Степени, в которой измерение не содержит ошибок). Традиционно он измеряется с использованием единого индекса, определяемого различными способами, например, отношения истинной и наблюдаемой дисперсии оценок. Этот индекс полезен для характеристики средней надежности теста, например, для сравнения двух тестов. Но IRT ясно дает понять, что точность неодинакова по всему диапазону результатов тестов. Например, оценки на краю диапазона теста обычно имеют больше ошибок, чем оценки ближе к середине диапазона.

Теория отклика элемента развивает концепцию информации элемента и тестовой информации, чтобы заменить надежность. Информация также является функцией параметров модели. Например, согласно теории информации Фишера, информация об элементе, предоставляемая в случае 1PL для данных дихотомического ответа, представляет собой просто вероятность правильного ответа, умноженную на вероятность неправильного ответа, или,

{\ Displaystyle I (\ theta) = p_ {i} (\ theta) q_ {i} (\ theta). \,}

Стандартная ошибка оценки (SE) является обратным тестовой информацией на данном уровне признака в, является

{\ displaystyle {\ text {SE}} (\ theta) = {\ frac {1} {\ sqrt {I (\ theta)}}}.}.

Таким образом, больше информации означает меньшую погрешность измерения.

Для других моделей, таких как модели с двумя и тремя параметрами, параметр дискриминации играет важную роль в функции. Информационная функция элемента для двухпараметрической модели:

{\ Displaystyle I (\ theta) = a_ {i} ^ {2} p_ {i} (\ theta) q_ {i} (\ theta). \,}

Информационная функция элемента для трехпараметрической модели:

{\ Displaystyle I (\ theta) = a_ {i} ^ {2} {\ frac {(p_ {i} (\ theta) -c_ {i}) ^ {2}} {(1-c_ {i}) ^ {2}}} {\ frac {q_ {i} (\ theta)} {p_ {i} (\ theta)}}.}.

^[21]

В общем, информационные функции элемента имеют тенденцию выглядеть колоколообразно. Элементы с высокой степенью различения имеют высокие, узкие информационные функции; они вносят большой вклад, но в узком диапазоне. Менее разборчивые элементы предоставляют меньше информации, но в более широком диапазоне.

Графики информации об элементе можно использовать, чтобы увидеть, сколько информации вносит элемент и в какую часть диапазона баллов шкалы. Из-за локальной независимости функции информации о предметах являются аддитивными . Таким образом, информационная функция теста - это просто сумма информационных функций пунктов экзамена. Используя это свойство с большим банком элементов, можно сформировать функции тестовой информации для очень точного управления ошибкой измерения .

Определение точности результатов тестов, возможно, является центральным вопросом психометрической теории и главным различием между IRT и CTT. Результаты IRT показывают, что концепция надежности CTT является упрощением. Вместо надежности IRT предлагает функцию тестовой информации, которая показывает степень точности при различных значениях тета, θ.

Эти результаты позволяют психометристам (потенциально) тщательно формировать уровень надежности для различных диапазонов способностей, включая тщательно подобранные элементы. Например, в ситуации сертификации, когда тест может быть пройден или не пройден, где есть только один «проходной балл» и где фактический проходной балл не важен, можно разработать очень эффективный тест, выбрав только те элементы, которые имеют высокая информация рядом с рейтингом. Эти задания, как правило, соответствуют заданиям, сложность которых примерно такая же, как и у оценок.

Подсчет очков

Параметр человека ${\ displaystyle {\ theta}}$ представляет собой величину скрытой черты человека, которая представляет собой человеческий потенциал или свойство, измеряемое тестом. ^[22] Это могут быть когнитивные способности, физические способности, навыки, знания, отношение, личностные характеристики и т. Д.

Оценка параметра «человек» - «балл» по тесту с IRT - вычисляется и интерпретируется совсем иначе, чем традиционные оценки, такие как число или процент правильных ответов. Общая оценка индивидуального правильного числа не является фактической оценкой, а скорее основана на IRF, что приводит к взвешенной оценке, когда модель содержит параметры распознавания элементов. Это на самом деле получается путем умножения функции отклика элемента для каждого элемента , чтобы получить функцию правдоподобия , самая высокая точка которого является оценкой максимального правдоподобия из ${\ displaystyle {\ theta}}$ . Эта наивысшая точка обычно оценивается с помощью программного обеспечения IRT с использованием метода Ньютона – Рафсона . ^[23] Несмотря на то, что подсчет очков в IRT намного сложнее, для большинства тестов (линейная) корреляция между тета-оценкой и традиционной оценкой очень высока; часто это 0,95 или больше. График оценок IRT по сравнению с традиционными оценками показывает оживленную форму, означающую, что IRT оценивает отдельных лиц на границах диапазона больше, чем в середине.

Важным различием между CTT и IRT является обработка ошибки измерения, индексируемой стандартной ошибкой измерения . Все тесты, анкеты и инвентаризация - неточные инструменты; мы никогда не сможем узнать истинную оценку человека , а скорее будем иметь только оценку, наблюдаемую оценку. Существует некоторая случайная ошибка, которая может подтолкнуть наблюдаемую оценку выше или ниже истинной. CTT предполагает, что количество ошибок одинаково для каждого экзаменуемого, но IRT позволяет ему варьироваться. ^[24]

Кроме того, ничто в IRT не опровергает человеческого развития или улучшения или предполагает, что уровень черты фиксирован. Человек может приобрести навыки, знания или даже так называемые «навыки сдачи тестов», которые могут привести к более высокому истинному баллу. Фактически, часть исследований IRT сосредоточена на измерении изменения уровня черт. ^[25]

Сравнение классической теории и теории ответа на вопросы

Классическая теория тестирования (CTT) и IRT в основном связаны с одними и теми же проблемами, но представляют собой разные области теории и влекут за собой разные методы. Хотя эти две парадигмы в целом согласованы и дополняют друг друга, есть ряд различий:

IRT делает более сильные предположения, чем CTT, и во многих случаях дает, соответственно, более убедительные выводы; в первую очередь, характеристики ошибки. Конечно, эти результаты верны только тогда, когда предположения моделей IRT действительно выполняются.
Хотя результаты CTT позволили получить важные практические результаты, модель IRT дает много преимуществ по сравнению с аналогичными результатами CTT.
Процедуры оценки теста CTT имеют то преимущество, что их легко вычислить (и объяснить), тогда как оценка IRT обычно требует относительно сложных процедур оценки.
IRT предоставляет несколько улучшений в масштабировании предметов и людей. Специфика зависит от модели IRT, но большинство моделей масштабируют сложность предметов и способности людей по одной и той же метрике. Таким образом, можно осмысленно сравнить сложность предмета и способности человека.
Еще одно улучшение, обеспечиваемое IRT, заключается в том, что параметры моделей IRT обычно не зависят от выборки или теста, тогда как истинный результат определяется в CTT в контексте конкретного теста. Таким образом, IRT обеспечивает значительно большую гибкость в ситуациях, когда используются разные образцы или тестовые формы. Эти результаты IRT являются основополагающими для компьютеризированного адаптивного тестирования.

Стоит также упомянуть некоторые конкретные сходства между CTT и IRT, которые помогают понять соответствие между концепциями. Во-первых, Лорд ^[26] показал, что в предположении, что ${\ displaystyle \ theta}$ имеет нормальное распределение, дискриминация в модели 2PL находится примерно в монотонной функции от точечной бирядных корреляции . В частности:

{\ displaystyle a_ {i} \ cong {\ frac {\ rho _ {it}} {\ sqrt {1- \ rho _ {it} ^ {2}}}}}

где ${\ displaystyle \ rho _ {it}}$ - точечная бисерийная корреляция пункта i . Таким образом, если предположение верно, то там, где есть более высокая дискриминация, обычно будет более высокая точка-бисерийная корреляция.

Другое сходство состоит в том, что хотя IRT обеспечивает стандартную ошибку каждой оценки и информационную функцию, также возможно получить индекс для теста в целом, который прямо аналогичен альфе Кронбаха , называемый индексом разделения . Для этого необходимо начать с разложения оценки IRT на истинное местоположение и ошибку, аналогично разложению наблюдаемой оценки на истинную оценку и ошибку в CTT. Позволять

{\ displaystyle {\ hat {\ theta}} = \ theta + \ epsilon}

где ${\ displaystyle \ theta}$ истинное местоположение, и ${\ displaystyle \ epsilon}$ это связь ошибки с оценкой. потом ${\ displaystyle {\ mbox {SE}} ({\ theta})}$ оценка стандартного отклонения ${\ displaystyle \ epsilon}$ для человека с данным взвешенным баллом и индекс разделения получается следующим образом

{\ displaystyle R _ {\ theta} = {\ frac {{\ text {var}} [\ theta]} {{\ text {var}} [{\ hat {\ theta}}]}} = {\ frac { {\ text {var}} [{\ hat {\ theta}}] - {\ text {var}} [\ epsilon]} {{\ text {var}} [{\ hat {\ theta}}]}} }

где среднеквадратическая стандартная ошибка оценки человека дает оценку дисперсии ошибок, ${\ displaystyle \ epsilon _ {n}}$ , через лиц. Стандартные ошибки обычно возникают как побочный продукт процесса оценки. Индекс разделения обычно очень близок по значению к альфе Кронбаха. ^[27]

IRT иногда называют теорией сильных истинных оценок или современной теорией ментальных тестов, потому что это более новая теория, которая делает более явными гипотезы, подразумеваемые в CTT.

Смотрите также

Классическая теория тестирования
Инвентарь концепций
Функционирование дифференциального элемента
Анализ соответствия личности

Психометрия
Масштаб (общественные науки)
Стандартизированный тест
Stata

дальнейшее чтение

Было написано много книг, которые касаются теории отклика элементов или содержат модели, подобные IRT или IRT. Это неполный список, в котором основное внимание уделяется текстам, которые обеспечивают большую глубину.

Лорд, FM (1980). Применение теории отклика элемента к практическим задачам тестирования. Махва, Нью-Джерси: Эрлбаум.

В этой книге кратко излагается большая часть работы Лорда по IRT, включая главы о взаимосвязи между IRT и классическими методами, основы IRT, оценки и несколько дополнительных тем. Его глава оценки теперь датирована тем, что в ней в первую очередь обсуждается совместный метод максимального правдоподобия, а не метод предельного максимального правдоподобия, реализованный Дарреллом Боком и его коллегами.

Embretson, Susan E .; Райз, Стивен П. (2000). Пункт Теория отклика для психологов . Психология Press. ISBN 978-0-8058-2819-1.

Эта книга представляет собой доступное введение в IRT, предназначенное, как сказано в названии, для психологов.

Бейкер, Фрэнк (2001). Основы теории ответов на вопросы. Информационный центр ERIC по оценке и оценке, Мэрилендский университет, Колледж-Парк, штат Мэриленд.

Эта вводная книга написана одним из пионеров в этой области и доступна в Интернете по адресу [1]

Бейкер, Фрэнк Б .; Ким, Сок-Хо (2004). Теория ответа элемента: методы оценки параметров (2-е изд.). Марсель Деккер. ISBN 978-0-8247-5825-7.

В этой книге описаны различные модели теории отклика предметов и приведены подробные объяснения алгоритмов, которые можно использовать для оценки параметров предмета и способностей. Отдельные части книги доступны в режиме ограниченного предварительного просмотра в Google Книгах .

ван дер Линден, Вим Дж .; Хэмблтон, Рональд К., ред. (1996). Справочник по современной теории отклика на предмет . Springer. ISBN 978-0-387-94661-0.

В этой книге представлен исчерпывающий обзор различных популярных моделей IRT. Он хорошо подходит для людей, которые уже получили базовое понимание IRT.

де Бок, Поль; Уилсон, Марк (2004). Модели ответов с пояснительными заданиями: обобщенный линейный и нелинейный подход . Springer. ISBN 978-0-387-40275-8.

В этом томе представлено комплексное введение в модели ответа на вопросы, в основном предназначенное для практиков, исследователей и аспирантов.

Фокс, Жан-Поль (2010). Моделирование ответов байесовского элемента: теория и приложения . Springer. ISBN 978-1-4419-0741-7.

В этой книге обсуждается байесовский подход к моделированию реакции элемента. Книга будет полезна людям (знакомым с IRT), интересующимся анализом данных ответов на вопросы с байесовской точки зрения.

Внешние ссылки

«ИСТОРИЯ ТЕОРИИ ОТВЕТА НА ПУНКТ (до 1982 г.)» , Иллинойсский университет в Чикаго
Простое руководство по теории ответов на вопросы (PDF)
Загрузки психометрического программного обеспечения
Учебное пособие по IRT
Учебное пособие по IRT FAQ
Введение в IRT
Стандарты педагогического и психологического тестирования
Компьютерная программа IRT Command Language (ICL)
Программы IRT от SSI, Inc.
Анализ скрытых черт и модели IRT
Анализ Раша
Программы анализа Раша от Winsteps
Теория отклика предмета
Бесплатное программное обеспечение IRT
Пакеты IRT в R
Поддержка IRT / EIRT в Lertap 5
Визуальный IRT-анализ и отчетность с Xcalibre

[1] Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorI Архивировано 07.07.2017 -22 у Wayback Machine

[vanAlphen1994-2] А. ван Альфен, Р. Халфенс, А. Хасман и Т. Имбос. (1994). Лайкерт или Раш? Нет ничего более применимого, чем хорошая теория. Журнал Advanced Nursing . 20 , 196-201

[3] Embretson, Susan E .; Райз, Стивен П. (2000). Пункт Теория отклика для психологов . Психология Press. ISBN 9780805828191.

[4] Обзор исследования ETS

[5] Хэмблтон, RK, Сваминатана, H., & Rogers, HJ (1991). Основы теории отклика на предмет . Ньюбери-Парк, Калифорния: Sage Press.

[6] Бок, Р. Д.; Айткин М. (1981). «Оценка предельного максимального правдоподобия параметров объекта: применение алгоритма EM». Психометрика . 46 (4): 443–459. DOI : 10.1007 / BF02293801 .

[7] Остини, Ремо; Неринг, Майкл Л. (2005). Модели теории отклика политомного элемента . Количественные приложения в социальных науках. 144 . МУДРЕЦ. ISBN 978-0-7619-3068-6.

[8] Неринг, Майкл Л .; Остини, Ремо, ред. (2010). Справочник по моделям теории политомного ответа . Тейлор и Фрэнсис. ISBN 978-0-8058-5992-8.

[9] Thissen, Д. и Орландо, М. (2001). Теория ответа на вопросы, полученные по двум категориям. В D. Thissen & Wainer, H. (Eds.), Test Scoring (стр. 73-140). Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.

[10] KG Jöreskog и D. Sörbom (1988). PRELIS 1 руководство пользователя, версия 1 . Чикаго: Scientific Software, Inc.

[11] Abramowitz М., Stegun И. А. (1972). Справочник по математическим функциям . Вашингтон, округ Колумбия: Типография правительства США.

[12] Uebersax, JS (декабрь 1999 г.). «Пробит анализ латентных классов с дихотомическими или упорядоченными категориями: модели условной независимости / зависимости». Прикладное психологическое измерение . 23 (4): 283–297. DOI : 10.1177 / 01466219922031400 .

[13] Андрич, Д. (1989), Различия между допущениями и требованиями в измерениях в социальных науках », Китс, Дж. А., Тафт, Р., Хит, Р. А., Ловибонд, С. (ред.),« Математические и теоретические системы » , издательство Elsevier Science Publishers , Северная Голландия, Амстердам, стр. 7–16.

[14] Перейти ↑ Steinberg, J. (2000). Фредерик Лорд, разработавший критерий тестирования, умер в возрасте 87 лет. New York Times, 10 февраля 2000 г.

[15] Андрич, Д. (январь 2004 г.). «Противоречие и модель Раша: характеристика несовместимых парадигм?». Медицинское обслуживание . 42 (1): I – 7. DOI : 10.1097 / 01.mlr.0000103528.48582.7c . PMID 14707751 .

[16] Смит, Р.М. (1990). «Теория и практика подгонки» . Сделки по измерениям Раша . 3 (4): 78.

[17] Zwick, R .; Тайер, Д.Т.; Вингерский, М. (декабрь 1995 г.). «Влияние калибровки Раша на оценку способностей и DIF в компьютерно-адаптивных тестах». Журнал педагогических измерений . 32 (4): 341–363. DOI : 10.1111 / j.1745-3984.1995.tb00471.x .

[18] Раш, Г. (1960/1980). Вероятностные модели для некоторых тестов интеллекта и достижений . (Копенгаген, Датский институт исследований в области образования), расширенное издание (1980 г.) с предисловием и послесловием Б. Д. Райта. Чикаго: Издательство Чикагского университета.

[19] Райт, Б.Д. (1992). «IRT в 1990-е годы: какие модели работают лучше всего?». Сделки по измерениям Раша . 6 (1): 196–200.

[20] Фишер, GH & Molenaar, IW (1995). Модели Раша: основы, последние разработки и приложения . Нью-Йорк: Спрингер.

[21] Перейти ↑ de Ayala, RJ (2009). Теория и практика теории отклика на предмет , Нью-Йорк, Нью-Йорк: Гилфорд Пресс. (6.12), стр.144

[22] Lazarsfeld PF и Генри NW (1968). Скрытый структурный анализ . Бостон: Хоутон Миффлин.

[23] Томпсон, Н. А. (2009). «Оценка способностей с IRT» (PDF) .

[24] Колен, Майкл Дж .; Цзэн, Линцзя; Хэнсон, Брэдли А. (июнь 1996 г.). «Условные стандартные ошибки измерения шкал с использованием IRT». Журнал педагогических измерений . 33 (2): 129–140. DOI : 10.1111 / j.1745-3984.1996.tb00485.x .

[25] Перейти ↑ Hall, LA, & McDonald, JL (2000). Измерение изменений в восприятии учителями влияния развития персонала на преподавание. Доклад, представленный на Ежегодном собрании Американской ассоциации исследований в области образования (Новый Орлеан, Лос-Анджелес, 24–28 апреля 2000 г.).

[26] Лорд, FM (1980). Применение теории отклика элемента к практическим задачам тестирования . Махва, Нью-Джерси: Lawrence Erlbaum Associates, Inc.

[27] Андрич, Д. (1982). «Индекс разделения людей в теории скрытых черт, традиционный индекс KR.20 и образец ответа по шкале Гуттмана». Образовательные исследования и перспективы . 9 : 95–104.

[1]