Компьютеризированный классификационный тест

Компьютеризированный тест классификации ( ССТ ) относится к, так как его имя было бы предположить, а тест , который находится в ведении компьютера с целью классификации экзаменуемых. Наиболее распространенным CCT является зачетный тест, в котором экзаменуемые классифицируются как «сдал» или «не прошел», но этот термин также включает тесты, которые классифицируют экзаменуемых более чем на две категории. Хотя этот термин обычно может рассматриваться как относящийся ко всем компьютерным тестам для классификации, он обычно используется для обозначения тестов, которые вводятся в интерактивном режиме или имеют переменную длину, аналогично компьютеризированному адаптивному тестированию.(КОТ). Подобно CAT, CCT переменной длины могут достичь цели теста (точная классификация) с помощью части количества элементов, используемых в обычном тесте фиксированной формы.

CCT требует нескольких компонентов:

Пункт банк откалиброван с психометрической выбранной моделью тестовым дизайнером
Отправная точка
Алгоритм выбора предмета
Критерий прекращения и порядок выставления баллов

Отправная точка не является предметом споров; Исследование CCT в первую очередь изучает применение различных методов для трех других компонентов. Примечание. Критерий завершения и процедура подсчета баллов в CAT раздельны, но одинаковы в CCT, потому что тест завершается при выполнении классификации. Следовательно, для разработки CAT необходимо указать пять компонентов.

Введение в CCT можно найти в Thompson (2007) ^[1] и в книге Parshall, Spray, Kalohn and Davey (2006). ^[2] Библиография опубликованных исследований CCT приведена ниже.

Как это работает

CCT очень похож на CAT. Задания сдаются экзаменующемуся по одному. После того, как испытуемый ответит на вопрос, компьютер оценивает его и определяет, может ли испытуемый еще быть классифицирован. Если да, тест прекращается и экзаменуемый классифицируется. В противном случае вводится другой элемент. Этот процесс повторяется до тех пор, пока экзаменующийся не будет классифицирован или не будет удовлетворен другой конечный пункт (все задания в банке будут обработаны или не будет достигнута максимальная длина теста).

Психометрическая модель

Для психометрической модели CCT доступны два подхода: классическая теория тестирования (CTT) и теория ответов на вопросы (IRT). Классическая теория тестирования предполагает наличие модели состояния, поскольку она применяется путем определения параметров заданий для выборки испытуемых, отнесенных к каждой категории. Например, несколько сотен «мастеров» и несколько сотен «не-мастеров» могут быть отобраны для определения сложности и различения каждого из них, но для этого требуется, чтобы вы могли легко идентифицировать отдельный набор людей, входящих в каждую группу. IRT, с другой стороны, предполагает модель черт; знания или способности, измеряемые тестом, являются континуумом. Классификационные группы должны быть более или менее произвольно определены вдоль континуума, например, с помощью шкалы сокращения для разграничения мастеров и не мастеров, но спецификация параметров элемента предполагает модель черт.

У каждого есть свои преимущества и недостатки. CTT предлагает большую концептуальную простоту. Что еще более важно, CTT требует меньшего количества испытуемых в выборке для калибровки параметров задания, которые в конечном итоге будут использоваться при разработке CCT, что делает его полезным для небольших программ тестирования. См. Frick (1992) ^[3] для описания CCT на основе CTT. Однако в большинстве ОДТ используется IRT. IRT предлагает большую специфичность, но наиболее важной причиной может быть то, что проектирование CCT (и CAT) является дорогостоящим и, следовательно, с большей вероятностью выполняется большой программой тестирования с обширными ресурсами. Такая программа, скорее всего, будет использовать IRT.

Отправная точка

CCT должен иметь указанную начальную точку для включения определенных алгоритмов. Если в качестве критерия завершения используется критерий последовательного отношения вероятностей , он неявно предполагает, что начальный коэффициент равен 1,0 (равная вероятность того, что испытуемый является мастером или не мастером). Если критерием завершения является подход с доверительным интервалом , должна быть указана указанная начальная точка на тета. Обычно это 0,0, центр распределения , но он также может быть случайным образом взят из определенного распределения, если известны параметры распределения испытуемых. Кроме того, может быть использована предыдущая информация об отдельном экзаменуемом, например, его оценка при последнем прохождении теста (при повторной сдаче).

Выбор предмета

В CCT элементы выбираются для проведения на протяжении всего теста, в отличие от традиционного метода предоставления фиксированного набора элементов всем испытуемым. Хотя обычно это делается по отдельности, это также может быть сделано в группах заданий, известных как тестлеты (Leucht & Nungester, 1996; ^[4] Vos & Glas, 2000 ^[5] ).

Методы выбора позиций делятся на две категории: на основе оценок и оценочных показателей. Методы, основанные на отсечке (также известные как последовательный выбор), максимизируют информацию, предоставляемую заданием, на отсечках или отсечках, если их несколько, независимо от способностей экзаменуемого. Методы, основанные на оценках (также известные как адаптивный отбор), позволяют максимизировать информацию при текущей оценке способностей испытуемого, независимо от местоположения оценки. Оба работают эффективно, но эффективность частично зависит от используемого критерия завершения. Поскольку тест последовательного отношения вероятностей оценивает только вероятности, близкие к результату сокращения, выбор элементов на основе оценки более уместен. Поскольку критерий завершения доверительного интервала основан на оценке способностей испытуемого, выбор заданий на основе оценки более уместен. Это связано с тем, что тест будет производить классификацию, когда доверительный интервал достаточно мал, чтобы быть полностью выше или ниже оценки сокращения (см. Ниже). Доверительный интервал будет меньше, когда стандартная ошибка измерения меньше, и стандартная ошибка измерения будет меньше, когда на тета-уровне экзаменуемого больше информации.

Критерий прекращения

Для CCT обычно используются три критерия прекращения. Методы теории байесовских решений предлагают большую гибкость, представляя бесконечный выбор структур потерь / полезности и соображений оценки, но также вносят больший произвол. Подход с использованием доверительного интервала вычисляет доверительный интервал вокруг текущей тета-оценки экзаменуемого в каждой точке теста и классифицирует экзаменуемого, когда интервал полностью попадает в область тэты, которая определяет классификацию. Первоначально это было известно как адаптивное тестирование мастерства (Kingsbury & Weiss, 1983), но оно не обязательно требует адаптивного выбора заданий и не ограничивается ситуацией тестирования мастерства с двумя классификациями. Тест на последовательное соотношение вероятностей (Reckase, 1983) определяет проблему классификации как проверку гипотезы о том, что тэта экзаменуемого равна определенной точке над оценкой или определенной точке ниже оценки.

Библиография исследований CCT

Армитаж, П. (1950). Последовательный анализ с более чем двумя альтернативными гипотезами и его связь с анализом дискриминантной функции. Журнал Королевского статистического общества , 12, 137–144.
Браун, Х., Бежар, II, и Уильямсон, Д.М. (2006). Методы автоматической оценки на основе правил: приложение в контексте лицензирования. В Williamson, DM, Mislevy, RJ, и Bejar, II (Eds.) Автоматическая оценка сложных задач в компьютерном тестировании. Махва, Нью-Джерси: Эрлбаум.
Додд, Б.Г., Де Аяла, Р.Дж., и Кох, В.Р. (1995). Компьютеризированное адаптивное тестирование с политомическими заданиями. Прикладное психологическое измерение, 19, 5-22.
Эгген, TJHM (1999). Выбор элементов в адаптивном тестировании с использованием последовательного теста отношения вероятностей. Прикладное психологическое измерение, 23, 249-261.
Эгген, TJH M, и Straetmans, GJJM (2000). Компьютеризированное адаптивное тестирование для классификации испытуемых по трем категориям. Образовательные и психологические измерения, 60, 713-734.
Эпштейн, К.И., и Кнерр, К.С. (1977). Применение процедур последовательного тестирования к тестированию производительности. Документ, представленный на конференции по компьютеризированному адаптивному тестированию 1977 г., Миннеаполис, Миннесота.
Фергюсон, Р.Л. (1969). Разработка, внедрение и оценка компьютерного разветвленного теста по программе индивидуально предписанного обучения. Неопубликованная докторская диссертация, Питтсбургский университет.
Фрик, TW (1989). Байесовская адаптация во время компьютерных тестов и компьютерных упражнений. Журнал образовательных компьютерных исследований, 5, 89-114.
Фрик, TW (1990). Сравнение трех моделей решений для адаптации длины компьютерных зачетных тестов. Журнал образовательных компьютерных исследований, 6, 479-513.
Фрик, TW (1992). Компьютеризированные адаптивные зачетные тесты как экспертные системы. Журнал образовательных компьютерных исследований, 8, 187-213.
Хуанг, К.-Й., Калон, Дж. К., Лин, К.-Дж., и Спрей, Дж. (2000). Оценка параметров предмета из классических индексов для разработки пула предметов с помощью компьютеризированного классификационного теста. (Отчет об исследовании 2000-4). Айова-Сити, штат Айова: ACT, Inc.
Джейкобс-Кассуто, MS (2005). Сравнение адаптивного зачетного тестирования с использованием тестов

С 3-параметрической логистической моделью. Неопубликованная докторская диссертация, Миннесотский университет, Миннеаполис, Миннесота.

Цзяо, Х., и Лау, AC (2003). Эффекты несоответствия модели в компьютерном классификационном тесте. Документ, представленный на ежегодном собрании Национального совета по измерениям в образовании, Чикаго, штат Иллинойс, апрель 2003 г.
Цзяо, Х., Ван, С., и Лау, Калифорния (2004). Исследование двух комбинированных процедур SPRT для трех категорий классификационных решений в компьютеризированном классификационном тесте. Документ, представленный на ежегодном собрании Американской ассоциации исследований в области образования, Сан-Антонио, апрель 2004 г.
Калон, Дж. К., и Спрей, Дж. А. (1999). Влияние неправильной спецификации модели на классификационные решения, принятые с помощью компьютеризированного теста. Журнал педагогических измерений, 36, 47-59.
Кингсбери, Г. Г., и Вайс, Д. Д. (1979). Стратегия адаптивного тестирования для принятия решений о мастерстве. Отчет об исследовании 79-05. Миннеаполис: Университет Миннесоты, лаборатория психометрических методов.
Кингсбери, Г. Г., и Вайс, Д. Д. (1983). Сравнение адаптивного зачетного тестирования на основе IRT и процедуры последовательного зачетного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237–254). Нью-Йорк: Academic Press.
Лау, Калифорния (1996). Устойчивость процедуры овладения одномерным компьютеризированным тестированием с многомерными данными тестирования. Неопубликованная докторская диссертация, Университет Айовы, Айова-Сити, Айова.
Лау, Калифорния, и Ван, Т. (1998). Сравнение и объединение дихотомических и политомических элементов с процедурой SPRT в компьютеризированном тестировании классификации. Документ, представленный на ежегодном собрании Американской ассоциации исследований в области образования, Сан-Диего.
Лау, Калифорния, и Ван, Т. (1999). Компьютеризированное тестирование классификации при практических ограничениях с помощью политомической модели. Документ, представленный на ежегодном собрании Американской ассоциации исследований в области образования, Монреаль, Канада.
Лау, Калифорния, и Ван, Т. (2000). Новая процедура выбора элементов для смешанных типов элементов в компьютеризированной классификации. Документ, представленный на ежегодном собрании Американской ассоциации исследований в области образования, Новый Орлеан, Луизиана.
Льюис, К., и Шихан, К. (1990). Использование байесовской теории принятия решений для разработки компьютерного зачетного теста. Прикладное психологическое измерение, 14, 367-386.
Лин, К.-Дж. И Спрей, JA (2000). Влияние критериев выбора элементов на классификационное тестирование с помощью теста последовательного отношения вероятностей. (Отчет об исследовании 2000-8). Айова-Сити, штат Айова: ACT, Inc.
Линн, Р.Л., Рок, Д.А., и Клири, Т.А. (1972). Последовательное тестирование дихотомических решений. Образовательные и психологические измерения, 32, 85-95.
Люхт, Р.М. (1996). Многомерное компьютеризированное адаптивное тестирование в контексте сертификации или лицензирования. Прикладное психологическое измерение, 20, 389-404.
Reckase, MD (1983). Процедура принятия решения с использованием специализированного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237–254). Нью-Йорк: Academic Press.
Руднер, LM (2002). Изучение процедур адаптивного тестирования теории принятия решений. Доклад, представленный на ежегодном собрании Американской ассоциации исследований в области образования, 1–5 апреля 2002 г., Новый Орлеан, штат Луизиана.
Шихан К. и Льюис К. (1992). Компьютеризированное зачетное тестирование с использованием неэквивалентных тестов. Прикладное психологическое измерение, 16, 65-76.
Спрей, JA (1993). Классификация по нескольким категориям с использованием последовательного теста отношения вероятностей (Отчет об исследовании 93-7). Айова-Сити, Айова: ACT, Inc.
Спрей, Дж. А., Абдель-Фаттах, А. А., Хуанг, К., и Лау, Калифорния (1997). Одномерные приближения для компьютеризированного теста, когда пул элементов и скрытое пространство многомерны (Отчет об исследовании 97-5). Айова-Сити, Айова: ACT, Inc.
Спрей, JA, & Reckase, MD (1987). Влияние ошибки оценки параметра элемента на решения, принятые с использованием теста последовательного отношения вероятностей (Отчет об исследовании 87-17). Айова-Сити, штат Айова: ACT, Inc.
Спрей, JA, & Reckase, MD (1994). Выбор тестовых заданий для принятия решений с помощью компьютеризированного адаптивного теста. Документ, представленный на Ежегодном собрании Национального совета по измерениям в образовании (Новый Орлеан, Лос-Анджелес, 5–7 апреля 1994 г.).
Спрей, JA, & Reckase, MD (1996). Сравнение SPRT и последовательных байесовских процедур для классификации испытуемых на две категории с использованием компьютеризированного теста. Журнал образовательной и поведенческой статистики, 21, 405-414.
Томпсон, Н. А. (2006). Компьютеризированное классификационное тестирование переменной длины с теорией отклика элемента. CLEAR Exam Review, 17 (2).
Вос, HJ (1998). Оптимальные последовательные правила для компьютерного обучения. Журнал образовательных компьютерных исследований, 19, 133-154.
Вос, HJ (1999). Применение байесовской теории принятия решений к последовательному тестированию зачетных знаний. Журнал образовательной и поведенческой статистики, 24, 271-292.
Вальд, А. (1947). Последовательный анализ. Нью-Йорк: Вили.
Вайс, ди-джей, и Кингсбери, Г. Г. (1984). Применение компьютерного адаптивного тестирования к учебным задачам. Журнал педагогических измерений, 21, 361-375.
Вайсман, А. (2004). Выбор взаимного информационного элемента в классификации CAT по нескольким категориям. Документ, представленный на Ежегодном собрании Национального совета по измерениям в образовании, Сан-Диего, Калифорния.
Вайцман, Р.А. (1982a). Последовательное тестирование на выбор. Прикладное психологическое измерение, 6, 337-351.
Weitzman, RA (1982b). Использование последовательного тестирования для предварительного отбора кандидатов на военную службу. В DJ Weiss (Ed.), Proceedings of the 1982 Computerized Adaptive Testing Conference. Миннеаполис, Миннесота: Университет Миннесоты, факультет психологии, программа психометрических методов, 1982.

Внешние ссылки

Теория принятия решения об измерениях Лоуренса Руднера
CAT Central Дэвида Дж. Вайса

[1] Перейти ↑ Thompson, NA (2007). Практическое руководство по компьютерному классификационному тестированию переменной длины. Практические оценочные исследования и оценка, 12 (1). [1]

[2] Парсхолл, CG, спрей, JA, Kalohn, JC, и Дэви, Т. (2006). Практические соображения при компьютерном тестировании. Нью-Йорк: Спрингер.

[3] Перейти ↑ Frick, T. (1992). Компьютеризированные адаптивные зачетные тесты как экспертные системы. Журнал образовательных компьютерных исследований, 8 (2), 187-213.

[4] Luecht, RM, и Nungester, RJ (1998). Некоторые практические примеры компьютерно-адаптивного последовательного тестирования. Журнал педагогических измерений, 35, 229-249.

[5] Перейти ↑ Vos, HJ & Glas, CAW (2000). Адаптивное зачетное тестирование на основе тестлетов. Ван дер Линден, У. Дж., И Глас, CAW (ред.) Компьютеризированное адаптивное тестирование: теория и практика.

[1]