Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Дифференциальное функционирование предмета ( DIF ) - это статистическая характеристика предмета, которая показывает степень, в которой предмет может измерять различные способности членов отдельных подгрупп. Средние баллы по заданию для подгрупп, имеющих одинаковый общий балл по тесту, сравниваются, чтобы определить, оценивается ли элемент практически одинаково для всех подгрупп. Наличие DIF требует проверки и суждения, и это не обязательно указывает на наличие предвзятости. [1] DIF-анализ указывает на неожиданное поведение элементов теста. Элемент не отображает DIF, если люди из разных групп имеют разную вероятность дать определенный ответ; он отображает DIF тогда и только тогда, когда люди из разных группс той же основной истинной способностью имеют разную вероятность дать определенный ответ. Распространенными процедурами оценки DIF являются методы Мантеля-Хензеля, методы, основанные на теории отклика элементов (IRT), и логистическая регрессия . [2]

Описание [ править ]

DIF относится к различиям в функционировании элементов в группах, часто демографических, которые совпадают по скрытому признаку или, в более общем смысле, атрибуту, измеряемому элементами или тестом. [3] [4] Важно отметить, что при проверке элементов для DIF группы должны быть сопоставлены по измеряемому атрибуту, иначе это может привести к неточному обнаружению DIF. Чтобы получить общее представление о DIF или систематической ошибке измерения, рассмотрим следующий пример, предложенный Osterlind и Everson (2009). [5] В этом случае Y относится к ответу на конкретный элемент теста, который определяется скрытой конструкцией.измеряется. Представляющая интерес скрытая конструкция обозначается как theta (θ), где Y - индикатор θ, который может быть упорядочен в терминах распределения вероятности Y на θ с помощью выражения f (Y) | θ . Следовательно, ответ Y зависит от скрытого признака (θ). Поскольку DIF исследует различия в условных вероятностях Y между группами, давайте обозначим эти группы как «контрольные» и «фокусные». Хотя обозначение не имеет значения, типичной практикой в ​​литературе является обозначение контрольной группы как группы, которая предположительно имеет преимущество, в то время как фокусная группа относится к группе, которая, как ожидается, окажется в невыгодном положении по результатам теста. [3] Следовательно, учитывая функциональную взаимосвязьи в предположении, что существуют идентичные распределения ошибок измерения для контрольной и целевой групп, можно сделать вывод, что при нулевой гипотезе :

где G соответствует группирующей переменной, «r» - контрольной группе, а «f» - фокусной группе. Это уравнение представляет собой случай, когда DIF отсутствует. В этом случае отсутствие ФРП определяется тем, что условная вероятностьраспределение Y не зависит от членства в группе. Для иллюстрации рассмотрим элемент с вариантами ответа 0 и 1, где Y = 0 указывает на неправильный ответ, а Y = 1 указывает на правильный ответ. Вероятность правильного ответа на вопрос одинакова для членов любой группы. Это указывает на отсутствие предвзятости DIF или предмета, потому что члены контрольной и целевой группы с одной и той же базовой способностью или атрибутом имеют одинаковую вероятность правильного ответа. Следовательно, у одной группы нет предвзятости или недостатка по сравнению с другой. Рассмотрим случай, когда условная вероятность Y не одинакова для контрольной и целевой групп. Другими словами, члены разных групп с одинаковыми чертами или уровнями способностей имеют неодинаковое распределение вероятностей по Y. После контроля θ,существует явная зависимость между членством в группе и производительностью элемента. Длядихотомические вопросы, это говорит о том, что, когда фокусная и референтная группы находятся в одном месте на θ, существует разная вероятность получения правильного ответа или одобрения элемента. Таким образом, группа с более высокой условной вероятностью правильного ответа на задание является группой, имеющей преимущество перед тестовым заданием. Это говорит о том, что элемент теста смещен и работает по-разному для групп, поэтому демонстрирует DIF. Важно проводить различие между DIF или систематической ошибкой измерения и обычными групповыми различиями. В то время как групповые различия указывают на различное распределение баллов по Y, DIF явно включает обусловливание по θ. Например, рассмотрим следующее уравнение:

Это указывает на то, что оценка экзаменуемого зависит от группировки, так что наличие информации о членстве в группе изменяет вероятность правильного ответа. Следовательно, если группы различаются по θ, а производительность зависит от θ, то приведенное выше уравнение предполагает смещение по заданным параметрам даже в отсутствие DIF. По этой причине в литературе по измерениям обычно считается, что различия по Y, зависящие только от членства в группах, неадекватны для установления систематической ошибки. [6] [7] [8] Фактически, различия в θ или способностях являются общими для разных групп и создают основу для многих исследований. Не забудьте установить смещение или DIF, группы должны быть сопоставлены по θ, а затем продемонстрировать дифференциальные вероятности по Y как функцию членства в группе.

Формы [ править ]

Равномерный DIF - это простейший тип DIF, в котором величина условной зависимости относительно неизменна в континууме скрытых признаков (θ). Интересующий пункт постоянно дает одной группе преимущество на всех уровнях способностей θ. [9] В пределах (IRT) основы теории отклика элемента это будет свидетельством , когда оба пункта характерных кривые (ICC) в равной степени дискриминации еще демонстрируют различия в параметрах сложности (то есть, г = а е и б ге ) как изображено на рисунке 1. [10]Однако неоднородный DIF представляет собой интересный случай. Вместо постоянного преимущества, предоставляемого контрольной группе по континууму способностей, условная зависимость перемещается и меняет направление в разных точках континуума θ. [11] Например, элемент может дать контрольной группе небольшое преимущество на нижнем конце континуума, в то время как большое преимущество на верхнем конце. Кроме того , в отличие от равномерного DIF, элемент может одновременно варьироваться в дискриминации для двух групп , а также различной трудности (т.е. ге и б г <B п). Еще более сложным является «пересечение» неоднородного DIF. Как показано на рисунке 2, это происходит, когда элемент дает преимущество контрольной группе на одном конце континуума θ, а на другом конце - фокусной группе. Различия в ICC указывают на то, что испытуемые из двух групп с одинаковыми уровнями способностей имеют неравные шансы правильно ответить на задание. Когда кривые разные, но не пересекаются, это свидетельствует о равномерном DIF. Однако, если ICC пересекаются в любой точке по шкале θ, это свидетельствует о неоднородном DIF.

Uniform DIF curve.pngNonuni DIF ICC.png

Процедуры обнаружения DIF [ править ]

Mantel-Haenszel [ править ]

Распространенной процедурой обнаружения DIF является подход Mantel-Haenszel (MH). [12] Процедура MH - это подход, основанный на таблице сопряженности хи-квадрат, который исследует различия между контрольной и целевой группами по всем пунктам теста, один за другим. [13] Континуум способностей, определяемый общими результатами тестов, делится на k интервалов, которые затем служат основой для сопоставления членов обеих групп. [14] Таблица непредвиденных обстоятельств 2 x 2 используется в каждом интервале kсравнение обеих групп по отдельному элементу. Строки таблицы непредвиденных обстоятельств соответствуют членству в группе (справочной или основной), а столбцы соответствуют правильным или неправильным ответам. В следующей таблице представлена ​​общая форма для отдельного предмета в интервале k- й способности.

Соотношение шансов [ править ]

Следующим шагом в вычислении статистики MH является использование данных из таблицы непредвиденных обстоятельств для получения отношения шансов для двух групп по интересующему элементу в конкретном интервале k . Это выражается в терминах p и q, где p представляет собой правильную пропорцию, а q неправильную пропорцию как для контрольной (R), так и для целевой (F) групп. Для процедуры MH полученное отношение шансов представлено как α с возможным значением от 0 до ∞. А αзначение 1.0 указывает на отсутствие DIF и, следовательно, на одинаковую производительность обеих групп. Значения больше 1,0 предполагают, что контрольная группа превзошла или сочла задание менее сложным, чем фокусная группа. С другой стороны, если полученное значение меньше 1.0, это показатель того, что задание было менее сложным для целевой группы. [8] Использование переменных из таблицы непредвиденных выше, вычисление выглядит следующим образом : α = Кк / д Кк ) / Рк / д Рк ) = к / (А к + В к )) / (B k / (A k + Bк )) / к / (С к + D , K )) / (D к / (С к + D , K )) =к / В к ) / к / D , K ) = A K D k B k C k Вышеупомянутое вычисление относится к отдельному предмету в одном интервале способностей. Оценка населенияαможет быть расширена, чтобы отразить общее отношение шансов для всех интервалов способностейkдля конкретного товара. Общая оценка отношения шансов обозначается α MH и может быть вычислена с помощью следующего уравнения: α МН = Σ (А к Д К / Н K ) / Σ (В к С к / N к )
при всех значениях к и где N k представляет собой общий размер выборки на k-м интервале. Полученное значение α MH часто стандартизируется с помощью логарифмического преобразования, центрируя значение около 0. [15] Новый преобразованный модуль оценки MH D-DIFвычисляется следующим образом: MH D-DIF = -2,35ln (α MH ) Таким образом, полученное значение 0 означает отсутствие DIF. При изучении уравнения важно отметить, что знак минус изменяет интерпретацию значений меньше или больше 0. Значения меньше 0 указывают на преимущество контрольной группы, тогда как значения больше 0 указывают на преимущество для целевой группы.

Теория отклика предмета [ править ]

Теория отклика на предмет (IRT) - еще один широко используемый метод оценки DIF. IRT позволяет критически изучить ответы на конкретные вопросы теста или меры. Как отмечалось ранее, DIF исследует вероятность правильного ответа или одобрения элемента, обусловленного скрытой чертой или способностью. Поскольку IRT исследует монотонную взаимосвязь между ответами и скрытой чертой или способностью, это подходящий подход для изучения DIF. [16] Три основных преимущества использования IRT при обнаружении DIF: [17]

  • По сравнению с классической теорией испытаний , оценки параметров IRT не так сильно искажены характеристиками выборки.
  • Статистические свойства элементов могут быть выражены с большей точностью, что увеличивает точность интерпретации DIF между двумя группами.
  • Эти статистические свойства элементов могут быть выражены графически, улучшая интерпретируемость и понимание того, как элементы функционируют по-разному в разных группах.

В отношении DIF оценки параметров элемента вычисляются и графически исследуются с помощью характеристических кривых элемента (ICC), также называемых линиями трассировки или функциями ответа элемента (IRF). После изучения ICC и последующего подозрения на DIF применяются статистические процедуры для проверки различий между оценками параметров. ICC представляют собой математические функции взаимосвязи между позиционированием в континууме скрытых черт и вероятностью дать конкретный ответ. [18] Рисунок 3 иллюстрирует эту взаимосвязь как логистическую функцию.. Люди с более низким уровнем скрытой черты или с меньшими способностями имеют меньшую вероятность получить правильный ответ или одобрить предмет, особенно по мере увеличения сложности. Таким образом, те, у кого более высокая скрытая черта или способности, имеют больше шансов на правильный ответ или одобрение предмета. Например, при инвентаризации депрессии люди с сильной депрессией будут иметь большую вероятность одобрить предмет, чем люди с более низкой депрессией. Точно так же люди с более высокими математическими способностями имеют большую вероятность получить правильный математический элемент, чем люди с меньшими способностями. Другой важный аспект ICC относится к точке перегиба . Это точка на кривой, где вероятность конкретного ответа составляет 0,5, а также представляет собой максимальное значение для наклона.. [19] Эта точка перегиба указывает, где вероятность правильного ответа или одобрения элемента становится больше 50%, за исключением случая, когда параметр c больше 0, который затем помещает точку перегиба на 1 + c / 2 (описание будет последующим ниже). Точка перегиба определяется сложностью предмета, которая соответствует значениям континуума способности или скрытых черт. [20] Следовательно, для легкого предмета эта точка перегиба может быть ниже в континууме способностей, в то время как для сложного предмета она может быть выше по той же шкале.

Перед тем, как представить статистические процедуры для проверки различий в параметрах элементов, важно сначала дать общее представление о различных моделях оценки параметров и связанных с ними параметрах. К ним относятся одно-, двух- и трехпараметрические логистические (PL) модели. Все эти модели предполагают одну скрытую черту или способность. Все три модели имеют параметр сложности предмета, обозначенный b . Для моделей 1PL и 2PL параметр b соответствует точке перегиба на шкале способностей, как упоминалось выше. В случае модели 3PL перегиб соответствует 1 + c / 2, где c- нижняя асимптота (обсуждается ниже). Теоретически значения сложности могут варьироваться от -∞ до + ∞; однако на практике они редко превышают ± 3. Более высокие значения указывают на более сложные тестовые задания. Предметы, показывающие низкие параметры b, являются легкими объектами тестирования. [21] Еще одним оцениваемым параметром является параметр дискриминации, обозначенный a . Этот параметр относится к способности предмета различать людей. Параметр a оценивается в моделях 2PL и 3PL. В случае модели 1PL этот параметр должен быть одинаковым между группами. Применительно к ICC параметр a - это наклон точки перегиба. Как упоминалось ранее, наклон максимален в точке перегиба.параметр, как и параметр b , может находиться в диапазоне от -∞ до + ∞; однако типичные значения меньше 2. В этом случае более высокое значение указывает на большую дискриминацию между людьми. [22] Модель 3PL имеет дополнительный параметр, называемый параметром предположения или псевдошансом, и обозначается буквой c . Это соответствует более низкой асимптоте, которая, по сути, дает возможность человеку правильно ответить на средний или сложный элемент, даже если у него низкие способности. Значения c находятся в диапазоне от 0 до 1, однако обычно ниже 0,3. [23] При применении статистических процедур для оценки DIF, a и bпараметры (различение и сложность) представляют особый интерес. Однако предположим, что использовалась модель 1PL, где параметры a должны быть одинаковыми для обеих групп, оставляя только оценку параметров b . После изучения ICC наблюдается явная разница в параметрах b для обеих групп. Используя метод, аналогичный t-критерию Стьюдента , следующий шаг - определить, является ли разница в сложности статистически значимой. При нулевой гипотезе H 0 : b r = b f Лорд (1980) предоставляет легко вычисляемую и нормально распределенную статистику теста. d = (b r - bе ) / SE (б г - б е ) стандартная ошибка разности между Ь параметров рассчитывается путем √ [SE (б г )] 2 + √ [SE (б е )] 2

Статистика Вальда [ править ]

Однако чаще всего модель 2PL или 3PL является более подходящей, чем подгонка модели 1PL к данным, и поэтому оба параметра a и b должны быть проверены на DIF. Лорд (1980) предложил другой метод проверки различий в параметрах a и b , где параметры c должны быть одинаковыми для разных групп. Этот тест дает статистику Вальда, которая следует распределению хи-квадрат. В этом случае проверяется нулевая гипотеза H 0 : a r = a f и b r = b f . Во-первых, ковариационная матрица 2 x 2оценок параметров рассчитывается для каждой группы, которые представлены S r и S f для контрольной и целевой групп. Эти ковариационные матрицы вычисляются путем инвертирования полученных информационных матриц. Затем разности между оцененными параметрами помещаются в вектор 2 x 1 и обозначаются как V '= (a r - a f , b r - b f ). Затем ковариационная матрица S оценивается путем суммирования S r и S f . Используя эту информацию, статистика Вальда вычисляется следующим образом: χ 2 = V'S −1 Vкоторый оценивается по 2 степеням свободы .

Тест отношения правдоподобия [ править ]

Тест отношения правдоподобия - еще один метод, основанный на IRT, для оценки DIF. Эта процедура предполагает сравнение соотношения двух моделей. В соответствии с моделью (M c ) параметры элемента должны быть равными или неизменными между эталонной и целевой группами. В соответствии с моделью (M v ) параметры элемента могут изменяться. [24] Функция правдоподобия при M c обозначается (L c ), а функция правдоподобия при M v обозначается (L v). Элементы, которые должны быть равны, служат в качестве элементов привязки для этой процедуры, в то время как элементы, подозреваемые в DIF, могут свободно меняться. Используя элементы привязки и позволяя изменять остальные параметры элемента, можно одновременно оценивать несколько элементов на предмет DIF. [25] Однако, если отношение правдоподобия указывает на потенциальную DIF, постатейный анализ будет подходящим для определения того, какие предметы, если не все, содержат DIF. Отношение правдоподобия двух моделей вычисляется как G 2 = 2ln [L v / L c ] В качестве альтернативы отношение может быть выражено как G 2 = -2ln [L c / L v ], где L v и L cпереворачиваются, а затем умножаются на -2ln. G 2 приблизительно соответствует распределению хи-квадрат, особенно для образцов большего размера. Следовательно, он оценивается по степеням свободы, которые соответствуют количеству ограничений, необходимых для получения модели с ограничениями из свободно меняющейся модели. [26] Например, если используется модель 2PL, и параметры a и b могут изменяться при M v, и эти же два параметра ограничены при M c , то соотношение оценивается при 2 степенях свободы.

Логистическая регрессия [ править ]

Подходы логистической регрессии к обнаружению DIF предполагают проведение отдельного анализа для каждого элемента. Независимые переменные, включенные в анализ, - это членство в группе, переменная соответствия способностей, обычно общая оценка, и термин взаимодействия между ними. Интересующая зависимая переменная - это вероятность или вероятность получения правильного ответа или одобрения элемента. Поскольку интересующий результат выражается в терминах вероятностей, оценка максимального правдоподобия является подходящей процедурой. [27] Этот набор переменных затем может быть выражен следующим уравнением регрессии:

Y = β 0 + β 1 M + β 2 G + β 3 MG

где β 0 соответствует перехвату или вероятности ответа, когда M и G равны 0 с оставшимися β sсоответствующие весовым коэффициентам для каждой независимой переменной. Первая независимая переменная, M, - это переменная соответствия, используемая для установления связи между людьми по способностям, в данном случае общая оценка за тест, аналогичная той, которая используется в процедуре Mantel-Haenszel. Переменная членства в группе обозначается G и в случае регрессии представлена ​​фиктивными кодированными переменными. Последний член MG соответствует взаимодействию между двумя вышеупомянутыми переменными. Для этой процедуры переменные вводятся иерархически. Следуя структуре уравнения регрессии, представленной выше, переменные вводятся в следующей последовательности: сопоставимая переменная M, группирующая переменная G и переменная взаимодействия MG. Определение DIF производится путем оценки полученной статистики хи-квадрат с 2 степенями свободы. Кроме того,Проверяется значимость оценки параметра. Исходя из результатов логистической регрессии, DIF будет отображаться, если индивидуумы, соответствующие по способностям, имеют значительно разные вероятности ответа на элемент и, следовательно, разные кривые логистической регрессии. И наоборот, если кривые для обеих групп одинаковы, то элемент несмещен и, следовательно, DIF отсутствует. Что касается однородного и неоднородного DIF, если параметры перехвата и согласования переменных для обеих групп не равны, то имеется свидетельство однородного DIF. Однако, если есть ненулевой параметр взаимодействия, это указывает на неоднородность DIF.DIF будет указываться, если индивидуумы, соответствующие по способностям, имеют существенно разные вероятности ответа на элемент и, таким образом, разные кривые логистической регрессии. И наоборот, если кривые для обеих групп одинаковы, то элемент несмещен и, следовательно, DIF отсутствует. Что касается однородного и неоднородного DIF, если параметры перехвата и согласования переменных для обеих групп не равны, то имеется свидетельство однородного DIF. Однако, если есть ненулевой параметр взаимодействия, это указывает на неоднородность DIF.DIF будет указываться, если индивидуумы, соответствующие по способностям, имеют существенно разные вероятности ответа на элемент и, таким образом, разные кривые логистической регрессии. И наоборот, если кривые для обеих групп одинаковы, то элемент несмещен и, следовательно, DIF отсутствует. Что касается однородного и неоднородного DIF, если параметры перехвата и согласования переменных для обеих групп не равны, то имеется свидетельство однородного DIF. Однако, если есть ненулевой параметр взаимодействия, это указывает на неоднородность DIF.если есть ненулевой параметр взаимодействия, это указывает на неоднородность DIF.если есть ненулевой параметр взаимодействия, это указывает на неоднородность DIF.[28]

Соображения [ править ]

Размер выборки [ править ]

Первое соображение относится к вопросам размера выборки, особенно в отношении контрольной и целевой групп. Перед любым анализом обычно известна информация о количестве людей в каждой группе, например о количестве мужчин / женщин или членов этнических / расовых групп. Тем не менее, проблема более тесно связана с тем, достаточно ли количества людей в группе для получения достаточной статистической мощности.для идентификации DIF. В некоторых случаях, таких как этническая принадлежность, могут быть свидетельства неравных размеров групп, так что белые представляют гораздо большую групповую выборку, чем каждая отдельная представленная этническая группа. Следовательно, в таких случаях может оказаться целесообразным изменить или скорректировать данные так, чтобы группы, сравниваемые для DIF, фактически были равны или ближе по размеру. Фиктивное кодирование или перекодирование - обычная практика, используемая для корректировки различий в размере контрольной и целевой группы. В этом случае все небелые этнические группы могут быть сгруппированы вместе, чтобы иметь относительно равный размер выборки для контрольной и целевой групп. Это позволило бы сравнить функционирование элементов "большинство / меньшинство". Если модификации не производятся и выполняются процедуры DIF,может не хватить статистической мощности для определения DIF, даже если DIF существует между группами. Другая проблема, связанная с размером выборки, напрямую связана со статистической процедурой, используемой для обнаружения DIF. Помимо соображений относительно размера выборки контрольной и целевой групп, должны соблюдаться определенные характеристики самой выборки, чтобы соответствовать допущениям каждого статистического теста, используемого при обнаружении DIF. Например, использование подходов IRT может потребовать больших выборок, чем требуется для процедуры Mantel-Haenszel. Это важно, поскольку исследование размера группы может подтолкнуть к использованию одной процедуры вместо другой. В рамках подхода логистической регрессии усиленные значения и выбросы вызывают особую озабоченность и должны быть проверены до обнаружения DIF. Кроме того, как и при любом анализе, должны выполняться допущения статистических тестов.Некоторые процедуры более устойчивы к незначительным нарушениям, а другие - в меньшей степени. Таким образом, следует изучить характер распределения выборочных ответов до внедрения каких-либо процедур DIF.

Предметы [ править ]

Необходимо учитывать определение количества элементов, используемых для обнаружения DIF. Не существует стандарта относительно того, сколько элементов следует использовать для обнаружения DIF, поскольку это меняется от исследования к исследованию. В некоторых случаях может быть целесообразно проверить все элементы на DIF, тогда как в других это может быть необязательно. Если только определенные элементы подозреваются в DIF при адекватном обосновании, тогда может быть более целесообразным тестировать эти элементы, а не весь набор. Однако часто бывает трудно просто предположить, какие элементы могут быть проблематичными. По этой причине часто рекомендуется одновременно проверять все тестовые задания на предмет DIF. Это предоставит информацию обо всех элементах, пролив свет на проблемные элементы, а также на те, которые действуют одинаково как для справочной, так и для целевой группы. Что касается статистических тестов,некоторые процедуры, такие как тестирование IRT-отношения правдоподобия, требуют использования элементов привязки. Некоторые элементы должны быть одинаковыми в группах, в то время как элементы, подозреваемые в DIF, могут свободно меняться. В этом случае только подмножество будет идентифицировано как элементы DIF, а остальные будут служить группой сравнения для обнаружения DIF. Как только элементы DIF идентифицированы, элементы привязки также можно анализировать, ограничивая исходные элементы DIF и позволяя исходным элементам привязки свободно варьироваться. Таким образом, кажется, что тестирование всех элементов одновременно может быть более эффективной процедурой. Однако, как уже отмечалось, в зависимости от реализованной процедуры используются разные методы выбора элементов DIF. Помимо определения количества элементов, используемых при обнаружении DIF,Дополнительное значение имеет определение количества элементов во всем тесте или самом измерении. Типичная рекомендация, как отмечает Zumbo (1999), - иметь минимум 20 элементов. Обоснование минимум 20 пунктов напрямую связано с формированием критериев соответствия. Как отмечалось в предыдущих разделах, общий тестовый балл обычно используется как метод подбора людей по способностям. Общий результат теста обычно делится на 3–5 уровней способностей (k), которые затем используются для сопоставления индивидуумов по способностям до процедур анализа DIF. Использование минимум 20 заданий позволяет добиться большего разброса в распределении баллов, что приводит к более значимым группам уровней способностей. Хотя психометрические свойства инструмента должны быть оценены перед использованием, важно, чтобыТипичная рекомендация, как отмечает Zumbo (1999), - иметь минимум 20 элементов. Обоснование минимум 20 пунктов напрямую связано с формированием критериев соответствия. Как отмечалось в предыдущих разделах, общий тестовый балл обычно используется как метод подбора людей по способностям. Общий результат теста обычно делится на 3–5 уровней способностей (k), которые затем используются для сопоставления индивидуумов по способностям до процедур анализа DIF. Использование минимум 20 заданий позволяет добиться большего разброса в распределении баллов, что приводит к более значимым группам уровней способностей. Хотя психометрические свойства инструмента должны быть оценены перед использованием, важно, чтобыТипичная рекомендация, как отмечает Zumbo (1999), - иметь минимум 20 элементов. Обоснование минимум 20 пунктов напрямую связано с формированием критериев соответствия. Как отмечалось в предыдущих разделах, общий тестовый балл обычно используется как метод подбора людей по способностям. Общий результат теста обычно делится на 3–5 уровней способностей (k), которые затем используются для сопоставления индивидуумов по способностям до процедур анализа DIF. Использование минимум 20 заданий позволяет добиться большего разброса в распределении баллов, что приводит к более значимым группам уровней способностей. Хотя психометрические свойства инструмента должны быть оценены перед использованием, важно, чтобыОбоснование минимум 20 пунктов напрямую связано с формированием критериев соответствия. Как отмечалось в предыдущих разделах, общий тестовый балл обычно используется как метод подбора людей по способностям. Общий результат теста обычно делится на 3–5 уровней способностей (k), которые затем используются для сопоставления индивидуумов по способностям до процедур анализа DIF. Использование минимум 20 заданий позволяет добиться большего разброса в распределении баллов, что приводит к более значимым группам уровней способностей. Хотя психометрические свойства инструмента должны быть оценены перед использованием, важно, чтобыОбоснование минимум 20 пунктов напрямую связано с формированием критериев соответствия. Как отмечалось в предыдущих разделах, общий тестовый балл обычно используется как метод подбора людей по способностям. Общий результат теста обычно делится на 3–5 уровней способностей (k), которые затем используются для сопоставления индивидуумов по способностям до процедур анализа DIF. Использование минимум 20 заданий позволяет добиться большего разброса в распределении баллов, что приводит к более значимым группам уровней способностей. Хотя психометрические свойства инструмента должны быть оценены перед использованием, важно, чтобыОбщий результат теста обычно делится на 3–5 уровней способностей (k), которые затем используются для сопоставления индивидуумов по способностям до процедур анализа DIF. Использование минимум 20 заданий позволяет добиться большего разброса в распределении баллов, что приводит к более значимым группам уровней способностей. Хотя психометрические свойства инструмента должны быть оценены перед использованием, важно, чтобыОбщий результат теста обычно делится на 3–5 уровней способностей (k), которые затем используются для сопоставления индивидуумов по способностям до процедур анализа DIF. Использование минимум 20 заданий позволяет добиться большего разброса в распределении баллов, что приводит к более значимым группам уровней способностей. Хотя психометрические свойства инструмента должны быть оценены перед использованием, важно, чтобывалидность и надежность инструмента должны быть адекватными. Тестовые задания должны точно соответствовать интересующей конструкции, чтобы вывести значимые группы уровней способностей. Конечно, не стоит завышать коэффициенты надежности, просто добавляя лишние элементы. Ключевым моментом является наличие действительной и надежной меры с достаточным количеством пунктов для создания значимых групп соответствия. Гадерманн и др. (2012), [29] Ревел и Зинбарг (2009), [30] и Джон и Сото (2007) [31] предлагают больше информации о современных подходах к структурной проверке и более точных и подходящих методах оценки надежности.

Статистика против рассуждений [ править ]

Как и во всех психологических исследованиях и психометрических оценках, статистикаиграют жизненно важную роль, но ни в коем случае не должны быть единственной основой для принятых решений и выводов. Обоснованное суждение имеет решающее значение при оценке элементов для DIF. Например, в зависимости от статистической процедуры, используемой для обнаружения DIF, могут быть получены разные результаты. Некоторые процедуры более точны, а другие менее точны. Например, процедура Mantel-Haenszel требует, чтобы исследователь построил уровни способностей на основе общих результатов тестов, тогда как IRT более эффективно помещает людей в континуум скрытых черт или способностей. Таким образом, одна процедура может указывать DIF для определенных элементов, а другие - нет. Другая проблема заключается в том, что иногда может отображаться DIF, но нет четкой причины, по которой существует DIF. Здесь в игру вступает аргументированное суждение. Исследователь должен руководствоваться здравым смыслом, чтобы извлечь смысл из анализа DIF.Недостаточно сообщить, что элементы функционируют по-разному для групп, должна быть теоретическая причина, почему это происходит. Более того, свидетельство DIF не означает, что тест прямо несправедлив. В исследованиях DIF часто выявляются некоторые элементы, предполагающие DIF. Это может быть указанием на проблемные элементы, которые необходимо пересмотреть или опустить, и не обязательно указанием на несправедливый тест. Следовательно, DIF-анализ можно считать полезным инструментом для анализа заданий, но он более эффективен в сочетании с теоретическими рассуждениями.Это может быть указанием на проблемные элементы, которые необходимо пересмотреть или опустить, и не обязательно указанием на несправедливый тест. Следовательно, DIF-анализ можно считать полезным инструментом для анализа заданий, но он более эффективен в сочетании с теоретическими рассуждениями.Это может быть указанием на проблемные элементы, которые необходимо пересмотреть или опустить, и не обязательно указанием на несправедливый тест. Следовательно, DIF-анализ можно считать полезным инструментом для анализа заданий, но он более эффективен в сочетании с теоретическими рассуждениями.

Статистическое программное обеспечение [ править ]

Ниже приведены общие статистические программы, способные выполнять описанные здесь процедуры. Нажав на список статистических пакетов , вы будете перенаправлены к исчерпывающему списку программного обеспечения с открытым исходным кодом, общедоступного, бесплатного и проприетарного статистического программного обеспечения.Процедура Мантеля-Хензеля

  • SPSS
  • SAS
  • Stata
  • R (например, пакет 'difR' [32] )
  • Systat
  • Лертап 5

Процедуры на основе IRT

  • БИЛОГ-МГ
  • МУЛЬТИЛОГ
  • ПАРСКАЛЬ
  • ТЕСТФАКТ
  • EQSIRT
  • R (например, пакет 'difR' [32] или 'mirt' [33] )
  • ИРТПРО

Логистическая регрессия

  • SPSS
  • SAS
  • Stata
  • R (например, пакет 'difR' [32] )
  • Systat

См. Также [ править ]

  • Инвариантность измерения

Ссылки [ править ]

  1. ^ Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorD Архивировано 07.07.2017 -22 у Wayback Machine
  2. ^ Зумбо, BD (2007). Три поколения анализа дифференциального функционирования предметов (DIF): рассмотрение того, где он был, где он сейчас и куда он движется. Ежеквартальная оценка языка, 4, 223–233.
  3. ^ Camilli, G. (2006). Справедливость теста: в RL (ред.), Образовательные измерения (4-е изд., Стр. 220–256). Вестпорт, Коннектикут: Американский совет по образованию.
  4. ^ Holland, PW, и Вайнер, H. (1993). Функционирование дифференциального элемента. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
  5. ^ Osterlind, SJ & Эверсон, HT (2009). Функционирование дифференциального элемента. Таузенд-Оукс, Калифорния: Sage Publishing.
  6. Перейти ↑ Ackerman, T. (1992). Дидактическое объяснение предвзятости, влияния и валидности задания с многомерной точки зрения. Журнал педагогических измерений, 29, 674–691.
  7. ^ Лорд, FM (1980). Применение теории отклика элемента к практическим задачам тестирования. Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
  8. ^ Millsap, RE, и Everson, HT (1993). Методологический обзор: статистические подходы к оценке систематической ошибки измерения. Прикладное психологическое измерение, 17 (4), 297–334.
  9. Перейти ↑ Walker, C. (2011). Что такое DIF? Почему дифференциальный анализ функционирования элементов является важной частью разработки и проверки инструмента. Журнал психообразовательной оценки, 29, 364–376.
  10. ^ Mellenbergh, GJ (1982). Модели таблиц непредвиденных обстоятельств для оценки систематической ошибки элемента. Журнал статистики образования, 7, 105–118.
  11. ^ Walker, CM, Beretvas С.Н., Аккерман, TA (2001). Исследование переменных условий, используемых в компьютерном адаптивном тестировании для DIF. Прикладное измерение в образовании, 14, 3–16.
  12. ^ Мантеля, Н., & Хензеля, В. (1959). Статистические аспекты анализа данных ретроспективных исследований болезни. Журнал Национального института рака, 22, 719–748.
  13. ^ Marasculio, LA, & Slaughter, RE (1981). Статистические процедуры для определения возможных источников систематической ошибки, основанной на статистике 2 x 2. Журнал педагогических измерений, 18, 229–248.
  14. Перейти ↑ Holland, PW, & Thayer, DT (1988). Дифференциальные характеристики изделий и процедура Мантеля-Хензеля. В H. Wainer & HI Braun (Eds.), Test validity (стр. 129–145). Хиллсдейл, Нью-Джерси: Эрлбаум.
  15. ^ Dorans, НьюДжерси, и Голландия, PW (1993). Обнаружение и описание DIF: Mantel-Haenszel и стандартизация. В PW Holland & H. Wainer (Eds.), « Функционирование дифференциальных элементов» (стр. 35–66). Хиллсдейл, Нью-Джерси: Эрлбаум.
  16. ^ Steinberg, L., и Тиссен, D. (2006). Использование размеров эффекта для отчетов об исследованиях: примеры использования теории ответа элемента для анализа различного функционирования элемента. Психологические методы, 11 (4), 402–415.
  17. ^ Camilli, Г., & Шепард, Л. (1994). Методы выявления предвзятых тестовых заданий . Таузенд-Оукс, Калифорния: Сейдж.
  18. Перейти ↑ Reise, SP, & Ainsworth, AT, & Haviland, MG (2005). Теория ответа на предмет: основы, приложения и перспективы в психологических исследованиях. Текущие направления в психологической науке, 14, 95–101.
  19. ^ Edelen, MO, Рив, BB (2007). Применение теории ответов на вопросы (IRT) для разработки, оценки и уточнения анкет. Исследование качества жизни, 16, 5–18.
  20. ^ Демарс, C. (2010). Теория отклика предмета. Нью-Йорк: Oxford Press.
  21. Перейти ↑ Harris, D. (1989). Сравнение 1-, 2-, 3-параметрических моделей IRT. Образовательные измерения: проблемы и практика , 8, 35–41.
  22. Перейти ↑ Baker, FB (2001). Основы теории ответов на вопросы . Информационный центр ERIC по оценке и оценке.
  23. Перейти ↑ Birnbaum, A. (1968). Некоторые модели скрытых черт и их использование для определения способностей испытуемого. Часть 5 в FM Lord и MR Novick. Статистические теории результатов тестов на умственные способности . Ридинг, Массачусетс: Эддисон-Уэсли
  24. ^ Thissen Д., Steinberg, Л., Джеррард, М. (1986). Помимо групповых различий: концепция предвзятости. Психологический бюллетень, 99, 118–128.
  25. ^ IRTPRO: Руководство пользователя . (2011). Линкольнвуд, Иллинойс: Scientific Software International, Inc.
  26. ^ Thissen Д., Steinberg, Л., & Wainer, H. (1993). Обнаружение дифференциального функционирования объекта по параметрам моделей реакции объекта. В PW Holland and & H. Wainer (Eds.), « Функционирование дифференциальных элементов» (стр. 67–113). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
  27. Перейти ↑ Bock, RD (1975). Многомерные статистические методы . Нью-Йорк: Макгроу-Хилл.
  28. ^ Сваминатана H., & Роджерс, HJ (1990). Обнаружение дифференциального функционирования элемента с помощью процедур логистической регрессии. Журнал педагогических измерений, 27, 361–370.
  29. ^ Gadermann, А. М., Guhn, М., & Зумбо, BD (2012). Оценка порядковой надежности для данных ответов типа Лайкерта и порядковых элементов: концептуальное, эмпирическое и практическое руководство. Практическая оценка, исследования и оценка, 17 (3), 1–13.
  30. ^ Revelle, W., и Zinbarg, RE (2009). Коэффициенты альфа, бета, омега и GLB: комментарии к Sijtsma. Психометрика, 74 (1), 145–154.
  31. Перейти ↑ John, OP, & Soto, CJ (2007). Важность валидности: надежность и процесс построения валидации. В RW Robins, RC Fraley, & RF Krueger (Eds.), Справочник по методам исследования в психологии личности (стр. 461–494). Нью-Йорк, Нью-Йорк: Издательство Кембриджского университета.
  32. ^ a b c Магис, Давид; Беланд, Себастьян; Туэрлинкс, Фрэнсис; Де Бок, Пол (2010). «Общая структура и пакет R для обнаружения функционирования дихотомических дифференциальных элементов» . Методы исследования поведения . 42 (3): 847–862. DOI : 10,3758 / BRM.42.3.847 .
  33. Перейти ↑ Chalmers, RP (2012). "mirt: Пакет теории многомерного ответа для среды R". Журнал статистического программного обеспечения . 48 (6): 1-29.