Компьютеризированное адаптивное тестирование

Компьютеризированное адаптивное тестирование ( CAT ) - это разновидность компьютерного теста, который адаптируется к уровню способностей испытуемого. По этой причине его также называют специализированным тестированием . Другими словами, это форма компьютерного тестирования, в котором следующий элемент или набор элементов, выбранных для проведения, зависит от правильности ответов тестируемого на самые последние выполненные задания. ^[1]

Как это работает [ править ]

CAT последовательно выбирает вопросы с целью максимальной точности экзамена на основе того, что известно об экзаменуемом из предыдущих вопросов. ^[2] С точки зрения испытуемого, сложность экзамена, кажется, зависит от уровня его способностей. Например, если экзаменуемый хорошо справляется с заданием средней сложности, ему будет предложен более сложный вопрос. Или, если они работали плохо, им задавали более простой вопрос. По сравнению со статическими тестами с множественным выбором, которые прошли почти все, с фиксированным набором заданий, назначаемых всем испытуемым, компьютерно-адаптивные тесты требуют меньшего количества тестовых заданий для получения одинаково точных результатов. ^[2] (Конечно, в методологии CAT нет ничего, что требовало бы, чтобы пункты были с множественным выбором; но так же, как большинство экзаменов являются множественным выбором, ^{[ необходима ссылка ]} большинство экзаменов CAT также используют этот формат.)

Основным методом компьютерно-адаптивного тестирования является итерационный алгоритм со следующими этапами: ^[3]

В пуле доступных предметов ищется оптимальный предмет на основе текущей оценки способностей испытуемого.
Выбранный вопрос предъявляется экзаменующемуся, который затем отвечает на него правильно или неправильно.
Оценка способности обновляется на основе всех предыдущих ответов.
Шаги 1–3 повторяются до тех пор, пока не будет выполнен критерий завершения.

Ничего не известно о обследуемоге до введения первого пункта, поэтому алгоритм , как правило , запускаются SELEC ^{[ править ]} тины элемент среды, или среднюю легко, трудность в качестве первого пункта.

В результате адаптивного администрирования разные испытуемые проходят совершенно разные тесты. ^[4] Психометрическая технология, позволяющая вычислять справедливые оценки по разным наборам заданий, - это теория ответа по заданию (IRT). IRT также является предпочтительной методологией для выбора оптимальных элементов, которые обычно выбираются на основе информации, а не сложности как таковой. ^[3]

В Соединенных Штатах вступительный экзамен по программе Graduate Management Admission Test в настоящее время проводится в основном как компьютерно-адаптивный тест. Список активных программ CAT можно найти в Международной ассоциации компьютерного адаптивного тестирования , наряду со списком текущих программ исследований CAT и почти исчерпывающей библиографией всех опубликованных исследований CAT.

Соответствующая методология, называемая многоступенчатым тестированием (MST) или CAST , используется в едином экзамене сертифицированного государственного бухгалтера . MST устраняет или уменьшает некоторые недостатки CAT, как описано ниже. См. Специальный выпуск журнала Applied Measurement in Education за 2006 г. ^{[ постоянная мертвая ссылка ]} для получения дополнительной информации о MST.

Преимущества [ править ]

Адаптивные тесты могут дать одинаково точные результаты для большинства тестируемых. ^[3] Напротив, стандартные фиксированные тесты почти всегда обеспечивают лучшую точность для испытуемых со средними способностями и все более низкую точность для испытуемых с более высокими оценками.

Адаптивный тест, как правило, можно сократить на 50% и при этом поддерживать более высокий уровень точности, чем фиксированная версия. ^[2] Это означает экономию времени тестируемого. Тестируемые не тратят свое время на выполнение слишком сложных или тривиально легких заданий. Кроме того, испытательная организация получает выгоду от экономии времени; существенно снижается стоимость сидения экзаменуемого. Однако, поскольку разработка CAT требует гораздо больших затрат, чем стандартный тест с фиксированной формой, для того, чтобы программа тестирования CAT была финансово плодотворной, необходимо большое количество людей.

Большие целевые группы обычно могут быть представлены в научных и исследовательских областях. CAT-тестирование в этих аспектах может использоваться для выявления раннего начала инвалидности или заболеваний. Рост тестирования CAT в этих областях значительно увеличился за последние 10 лет. Когда-то не принятые в медицинских учреждениях и лабораториях, тестирование CAT теперь поощряется в рамках диагностики.

Как и любой компьютерный тест , адаптивные тесты могут показывать результаты сразу после тестирования.

Адаптивное тестирование, в зависимости от алгоритма выбора заданий, может уменьшить раскрытие некоторых заданий, потому что испытуемые обычно получают разные наборы заданий, а не все население, которому вводят один набор. Тем не менее, это может усилить воздействие на другие предметы (а именно на средние или средние / легкие задания, представленные большинству испытуемых в начале теста). ^[3]

Недостатки [ править ]

Первая проблема, с которой сталкивается в CAT, - это калибровка пула элементов. Чтобы смоделировать характеристики элементов (например, чтобы выбрать оптимальный элемент), все элементы теста должны быть предварительно применены к большой выборке, а затем проанализированы. Для этого новые задания должны быть смешаны с рабочими заданиями экзамена (ответы записываются, но не влияют на баллы тестируемых), называемых «пилотное тестирование», «предварительное тестирование» или «рассев» . ^[3] Здесь возникают вопросы логистики, этики и безопасности. Например, невозможно провести оперативный адаптивный тест с совершенно новыми, невидимыми элементами; ^[5] все предметы должны быть предварительно протестированы на достаточно большой выборке, чтобы получить стабильную статистику по предметам. Этот образец может потребоваться размером до 1,000 испытуемых. ^[5] Каждая программа должна решить, какой процент теста может состоять из элементов пилотного теста без оценок.

Хотя в адаптивных тестах есть алгоритмы управления экспозицией для предотвращения чрезмерного использования некоторых элементов ^[3], экспозиция, обусловленная способностями, часто не контролируется и может легко приближаться к 1. То есть некоторые элементы часто становятся очень распространенными в тестах. для людей с такими же способностями. Это серьезная проблема безопасности, потому что группы, совместно использующие элементы, вполне могут иметь аналогичный уровень функциональных возможностей. Фактически, полностью рандомизированный экзамен является наиболее безопасным (но и наименее эффективным).

Обзор прошлых материалов обычно запрещен. Адаптивные тесты, как правило, позволяют выполнять более простые задания после неправильного ответа человека. Предположительно, проницательный тестируемый мог бы использовать такие подсказки, чтобы обнаружить неправильные ответы и исправить их. Или же можно научить тестируемых сознательно выбирать неправильные ответы, что приведет к тому, что тест будет становиться все проще. Обманув адаптивный тест для создания максимально простого экзамена, они могли затем просмотреть вопросы и правильно ответить на них - возможно, получив очень высокий балл. Тестируемые часто жалуются на невозможность рецензирования. ^[6]

Из-за сложности разработка CAT имеет ряд предпосылок. ^[7] Должны присутствовать большие размеры выборки (обычно сотни испытуемых), необходимые для калибровки IRT. Элементы должны оцениваться в реальном времени, если новый элемент должен быть выбран мгновенно. Психометры, имеющие опыт калибровки IRT и исследований с помощью компьютерной симуляции, необходимы для предоставления валидной документации. Наконец, должна быть доступна программная система, способная к настоящему CAT на основе IRT.

В CAT с ограничением по времени испытуемый не может точно спланировать время, которое он может потратить на каждый элемент теста, и определить, успевают ли они пройти заданный по времени раздел теста. Таким образом, тестируемые могут быть оштрафованы за то, что они потратили слишком много времени на сложный вопрос, который задается в начале раздела, а затем не смогли ответить на достаточное количество вопросов, чтобы точно оценить их знания в областях, которые остаются непроверенными по истечении времени. ^[8] В то время как CATs без привязки к сроку являются отличным инструментом для формирующих оценок, которыми руководствуются последующие инструкции, CATs с определенным временем не подходят для итоговых оценок с высокими ставками, используемых для измерения способности к работе и образовательным программам.

Компоненты [ править ]

В создании CAT есть пять технических компонентов (нижеследующее адаптировано из Weiss & Kingsbury, 1984 ^[2] ). В этот список не входят практические вопросы, такие как предварительное тестирование элемента или выпуск в реальном времени.

Пул калиброванных предметов
Отправная точка или начальный уровень
Алгоритм выбора предмета
Процедура подсчета очков
Критерий прекращения

Пул калиброванных предметов [ править ]

Пул предметов должен быть доступен для CAT на выбор. ^[2] Такие элементы можно создавать традиционным способом (т. Е. Вручную) или с помощью автоматического создания элементов . Пул должен быть откалиброван с помощью психометрической модели, которая используется в качестве основы для остальных четырех компонентов. Обычно в качестве психометрической модели используется теория ответов на вопросы. ^[2] Одна из причин, по которой теория ответов на вопросы является популярной, заключается в том, что она помещает людей и предметы в одну и ту же метрику (обозначается греческой буквой тета), что помогает решать проблемы при выборе предметов (см. Ниже).

Отправная точка [ править ]

В CAT элементы выбираются на основе результатов экзаменуемого до определенного момента в тесте. Тем не менее, очевидно, что CAT не в состоянии сделать какую-либо конкретную оценку способностей экзаменуемого, если не заданы какие-либо задания. Поэтому необходима другая первоначальная оценка способностей испытуемого. Если известна некоторая предыдущая информация об испытуемом, ее можно использовать ^[2], но часто CAT просто предполагает, что испытуемый имеет средние способности - следовательно, первый пункт часто бывает средней сложности.

Алгоритм выбора предмета [ править ]

Как упоминалось ранее, теория ответов по заданию ставит экзаменуемых и заданий на одну и ту же метрику. Следовательно, если CAT имеет оценку способностей экзаменуемого, он может выбрать элемент, наиболее подходящий для этой оценки. ^[5] Технически это делается путем выбора элемента с наибольшей информацией на данный момент. ^[2] Информация является функцией параметра распознавания элемента, а также параметра условной дисперсии и параметра псевдодогадания (если используется).

Процедура подсчета очков [ править ]

После того, как предмет введен, CAT обновляет свою оценку уровня способностей испытуемого. Если испытуемый правильно ответил на вопрос, CAT, вероятно, оценит его способности несколько выше, и наоборот. Это делается с помощью функции ответа по заданию из теории ответов по заданию для получения функции правдоподобия способностей экзаменуемого. Для этого используются два метода: оценка максимального правдоподобия и байесовская оценка . Последний предполагает априорное распределение способностей испытуемых и имеет две обычно используемые оценки: апостериорное ожидание и максимальное апостериорное . Максимальная вероятностьэквивалентна апостериорной оценке байесовского максимума, если предполагается равномерная (f (x) = 1) апостериорная оценка. ^[5] Максимальное правдоподобие асимптотически несмещено, но не может обеспечить тета-оценку для несмешанного (полностью правильного или неправильного) вектора ответа, и в этом случае может потребоваться временно использовать байесовский метод. ^[2]

Критерий прекращения [ править ]

Алгоритм CAT разработан для многократного выполнения заданий и обновления оценки способностей испытуемых. Это будет продолжаться до тех пор, пока пул элементов не будет исчерпан, если в CAT не будет включен критерий завершения. Часто тест завершается, когда стандартная ошибка измерения экзаменуемого падает ниже определенного значения, указанного пользователем, отсюда вышеупомянутое утверждение о том, что преимущество состоит в том, что оценки экзаменуемого будут одинаково точными или «одинаково точными». ^[2] Для разных целей теста существуют другие критерии завершения, например, если тест предназначен только для определения того, должен ли экзаменуемый «сдать» или «не сдать» тест, а не для получения точной оценки своих способностей. ^[2]^[9]

Другие проблемы [ править ]

Успешно [ править ]

Во многих ситуациях цель теста - разделить испытуемых на две или более взаимоисключающих и исчерпывающих категорий. Это включает в себя общий «зачетный тест», где две классификации - «прошел» и «не прошел», но также включает ситуации, когда существует три или более классификации, например, «Недостаточный», «Базовый» и «Продвинутый» уровни знаний. или компетентность. Тип "адаптивного" CAT на уровне элементов, описанный в этой статье, наиболее подходит для тестов, которые не являются тестами типа "прошел / не прошел", или для тестов типа "прошел / не прошел", где очень важно обеспечить хорошую обратную связь. Некоторые модификации необходимы для теста CAT, также известного как компьютеризированный классификационный тест (CCT) .^[9] Для экзаменуемых с истинными оценками, очень близкими к проходному баллу, компьютеризированные классификационные тесты приведут к длинным тестам, тогда как те, у кого истинные баллы намного выше или ниже проходного балла, будут иметь самые короткие экзамены.

Например, необходимо применить новый критерий исключения и алгоритм оценки, который классифицирует экзаменуемого по категории, а не дает балльную оценку способностей. Для этого доступны две основные методологии. Более заметным из двух является тест отношения последовательных вероятностей (SPRT). ^[10]^[11] Это формулирует проблему классификации экзаменуемого как проверку гипотезы о том, что способности экзаменуемого равны либо некоторой указанной точке выше контрольной оценки, либо другой указанной точке ниже контрольной оценки. Обратите внимание, что это формулировка точечной гипотезы, а не составная формулировка гипотезы ^[12]это более уместно с концептуальной точки зрения. Сложная формулировка гипотезы будет заключаться в том, что способности экзаменуемого находятся в области выше оценки или в области ниже оценки.

Доверительный интервал также используется подход, при котором после того, как каждый элемент вводят, алгоритм определяет вероятность того, что истинно оценка испытуемый находится выше или ниже проходной балл. ^[13]^[14] Например, алгоритм может продолжаться до тех пор, пока 95% доверительный интервал для истинного результата не перестанет содержать проходной балл. На этом этапе никаких дополнительных заданий не требуется, поскольку решение «сдать-не сдать» уже имеет точность 95% при условии, что психометрические модели, лежащие в основе адаптивного тестирования, подходят испытуемому и тесту. Первоначально этот подход назывался «адаптивным тестированием мастерства» ^[13].но его можно применить к ситуациям неадаптивного выбора заданий и классификации с двумя или более оценками (типичный тест на зачетность имеет единственную оценку). ^[14]

На практике алгоритм обычно программируется так, чтобы иметь минимальную и максимальную длину теста (или минимальное и максимальное время администрирования). В противном случае для экзаменуемого со способностями, очень близкими к оценкам, было бы возможно управлять каждым элементом в банке без принятия решения алгоритмом.

Используемый алгоритм выбора позиции зависит от критерия завершения. Максимизация информации по результатам сокращения более подходит для SPRT, поскольку он максимизирует разницу в вероятностях, используемых в отношении правдоподобия . ^[15] Максимизация информации при оценке способности более подходит для подхода с использованием доверительного интервала, поскольку он минимизирует условную стандартную ошибку измерения, которая уменьшает ширину доверительного интервала, необходимого для выполнения классификации. ^[14]

Практические ограничения адаптивности [ править ]

Исследователь ETS Марта Стокинг пошутила, что большинство адаптивных тестов на самом деле едва ли являются адаптивными тестами (BAT), потому что на практике на выбор элементов накладывается множество ограничений. Например, экзамены CAT обычно должны соответствовать требованиям к содержанию; ^[3] устный экзамен может состоять из равного количества аналогий, типов заданий с заполнением пробелов и синонимов. CATs обычно имеют некоторую форму ограничений экспонирования элементов ^[3], чтобы предотвратить чрезмерное раскрытие наиболее информативных элементов. Кроме того, в некоторых тестах делается попытка сбалансировать поверхностные характеристики предметов, такие как пол.людей в предметах или этнической принадлежности, подразумеваемой их именами. Таким образом, экзамены CAT часто ограничены тем, какие элементы он может выбирать, а для некоторых экзаменов ограничения могут быть существенными и требовать сложных стратегий поиска (например, линейного программирования ) для поиска подходящих элементов.

Простым методом управления экспонированием предметов является "случайный" или стратный метод. Вместо того, чтобы выбирать наиболее информативный элемент в каждой точке теста, алгоритм случайным образом выбирает следующий элемент из следующих пяти или десяти наиболее информативных элементов. Это можно использовать на протяжении всего теста или только в начале. ^[3] Другой метод - это метод Симпсона-Хеттера ^[16], в котором случайное число извлекается из U (0,1) и сравнивается с параметром k _i, определенным для каждого элемента тестовым пользователем. Если случайное число больше k _i , рассматривается следующий по информативности элемент. ^[3]

Вим ван дер Линден и его коллеги ^[17] разработали альтернативный подход, называемый теневым тестированием, который включает создание целых теневых тестов как часть выбора элементов. Выбор элементов из теневых тестов помогает адаптивным тестам соответствовать критериям выбора, фокусируясь на глобально оптимальных вариантах (в отличие от вариантов, оптимальных для данного элемента ).

Многомерный [ править ]

Учитывая набор элементов, многомерный компьютерный адаптивный тест (MCAT) выбирает эти элементы из банка в соответствии с предполагаемыми способностями учащегося, что приводит к индивидуализированному тесту. MCAT стремятся максимизировать точность теста, основанную на нескольких способностях одновременного экзамена (в отличие от компьютерного адаптивного теста - CAT - который оценивает одну способность) с использованием последовательности заданий, на которые ранее были даны ответы (Piton-Gonçalves and Aluisio, 2012).

См. Также [ править ]

Электронная оценка , также известная как компьютерный тест - Использование информационных технологий в оценке
Компьютеризированный классификационный тест
Образовательные технологии - Использование технологий в образовании для улучшения обучения и преподавания
Набор инструментов NIH

Ссылки [ править ]

^ Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA Архивировано 07.07.2017 -22 у Wayback Machine
^ a b c d e f g h i j k Weiss, DJ; Кингсбери, Г.Г. (1984). «Применение компьютерного адаптивного тестирования к учебным задачам». Журнал педагогических измерений . 21 (4): 361–375. DOI : 10.1111 / j.1745-3984.1984.tb01040.x .
^ a b c d e f g h i j Thissen, D., & Mislevy, RJ (2000). Алгоритмы тестирования. В Wainer, H. (Ed.) Computerized Adaptive Testing: A Primer. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
Перейти ↑ Green, BF (2000). Устройство и работа системы. В Wainer, H. (Ed.) Computerized Adaptive Testing: A Primer. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
^ a b c d Wainer, H .; Mislevy, RJ (2000). Вайнер, Х. (ред.). Теория отклика на предмет, калибровка и оценка . Компьютеризированное адаптивное тестирование: учебник . Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.
^ Лоуренс М. Руднер. «Он-лайн интерактивный компьютерный учебник по адаптивному тестированию» . EdRes.org/scripts/cat .
^ «Требования компьютеризированного адаптивного тестирования» (PDF) . FastTEST Web . Архивировано из оригинального (PDF) 25 апреля 2012 года.
^ «Совет GMAT: Адаптация к компьютерному адаптивному тесту» . Блумберг . 3 апреля 2013 г.
^ a b Lin, C.-J. И Спрей, JA (2000). Влияние критериев выбора элементов на классификационное тестирование с помощью теста последовательного отношения вероятностей. (Отчет об исследовании 2000-8). Айова-Сити, штат Айова: ACT, Inc.
Перейти ↑ Wald, A. (1947). Последовательный анализ. Нью-Йорк: Вили.
^ Reckase, MD (1983). Процедура принятия решения с использованием специализированного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
^ Вайцман, Р. (1982). «Последовательное тестирование на выбор». Прикладное психологическое измерение . 6 (3): 337–351. CiteSeerX 10.1.1.1030.6828 . DOI : 10.1177 / 014662168200600310 .
^ a b Кингсбери, GG, & Weiss, DJ (1983). Сравнение адаптивного зачетного тестирования на основе IRT и процедуры последовательного зачетного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.
^ a b c Eggen, TJH M; Straetmans, GJJM (2000). «Компьютеризированное адаптивное тестирование для классификации испытуемых по трем категориям». Образовательные и психологические измерения . 60 (5): 713–734. DOI : 10.1177 / 00131640021970862 .
^ Spray, JA, и Reckase, MD (1994). Выбор тестовых заданий для принятия решений с помощью компьютеризированного адаптивного теста. Документ, представленный на Ежегодном собрании Национального совета по измерениям в образовании (Новый Орлеан, Лос-Анджелес, 5–7 апреля 1994 г.).
^ Sympson, BJ, и Hetter, RD (1985). Контроль уровня экспонирования предметов в компьютеризированном адаптивном тестировании. Документ, представленный на ежегодной конференции Ассоциации военных испытаний в Сан-Диего.
^ ван дер Линден, WJ; Велдкамп, ВР (2004). «Ограничение экспонирования элементов в компьютерном адаптивном тестировании с теневыми тестами» . Журнал образовательной и поведенческой статистики . 29 (3): 273–291. DOI : 10.3102 / 10769986029003273 .

Дополнительные источники [ править ]

Drasgow, F., & Olson-Buchanan, JB (Eds.). (1999). Инновации в компьютеризованном оценивании . Хиллсдейл, Нью-Джерси: Эрлбаум.
Piton-Gonçalves, J .; Алуизио, С.М. (2015). "Teste Adaptativo Computadorizado Multidimensional com propósitos education: princípios e métodos" . Ensaio: Avaliação e Políticas Públicas Em Educação . 23 (87): 389–414. DOI : 10.1590 / S0104-40362015000100016 .
Питон-Гонсалвес, Дж. И Алуизио, С.М. (2012). Архитектура многомерного компьютерного адаптивного теста с образовательными целями. ACM, Нью-Йорк, Нью-Йорк, США, 17-24. DOI : 10,1145 / 2382636,2382644
Питон-Гонсалвес, Дж. (2020). Testes adaptativos para o Enade: uma aplicação metodológica. Мета: Avaliação 12 (36): 665-688 doi : 10.22347 / 2175-2753v12i36.2735
Ван дер Линден, WJ, & Glas, CAW (ред.). (2000). Компьютеризированное адаптивное тестирование: теория и практика . Бостон, Массачусетс: Клувер.
Вайнер, Х. (Ред.). (2000). Компьютеризированное адаптивное тестирование: учебник (2-е издание). Махва, Нью-Джерси: ELawrence Erlbaum Associates.
Вайс, диджей (ред.). (1983). Новые горизонты в тестировании: теория скрытых черт и компьютерное адаптивное тестирование (стр. 237–254). Нью-Йорк: Academic Press.

Дальнейшее чтение [ править ]

«Первый адаптивный тест: тест IQ Бине» , Международная ассоциация компьютерного адаптивного тестирования (IACAT)
«Адаптивное тестирование и анализ производительности» , Процедурные компьютерные науки, Международная конференция по передовым вычислительным технологиям и приложениям (ICACTA)
Сэндс, Уильям А. (Эд); Уотерс, Брайан К. (Эд); Макбрайд, Джеймс Р. (Эд), Компьютеризированное адаптивное тестирование: От исследования к операции , Вашингтон, округ Колумбия, США: Американская психологическая ассоциация. (1997). xvii 292 с. doi : 10.1037 / 10244-000
Зара, Энтони Р. (1999). «Использование компьютеризированного адаптивного тестирования для оценки компетентности медсестер для получения лицензий: немного истории и перспективы». Достижения в области медицинского образования . 4 (1): 39–48. DOI : 10,1023 / A: 1009866321381 . PMID 12386434 .

Внешние ссылки [ править ]

Международная ассоциация компьютерного адаптивного тестирования
Концерт: платформа CAT с открытым исходным кодом
CAT Central Дэвида Дж. Вайса
Часто задаваемые вопросы о компьютерно-адаптивном тестировании (CAT) . Проверено 15 апреля 2005 года.
Онлайновый интерактивный компьютерный учебник по адаптивному тестированию Лоуренса Л. Руднера. Ноябрь 1998. Проверено 15 апреля 2005 г.
Спецвыпуск: Введение в многоступенчатое тестирование. ^{[ постоянная мертвая ссылка ]} Прикладные измерения в образовании, 19 (3).
Компьютеризированные адаптивные тесты - от Информационного центра информационных ресурсов по измерению и оценке тестов, Вашингтон, округ Колумбия

[1] Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorA Архивировано 07.07.2017 -22 у Wayback Machine

[WeissKingsbury-2] ^ a b c d e f g h i j k Weiss, DJ; Кингсбери, Г.Г. (1984). «Применение компьютерного адаптивного тестирования к учебным задачам». Журнал педагогических измерений . 21 (4): 361–375. DOI : 10.1111 / j.1745-3984.1984.tb01040.x .

[ThissenMislevy-3] ^ a b c d e f g h i j Thissen, D., & Mislevy, RJ (2000). Алгоритмы тестирования. В Wainer, H. (Ed.) Computerized Adaptive Testing: A Primer. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.

[Green-4] Перейти ↑ Green, BF (2000). Устройство и работа системы. В Wainer, H. (Ed.) Computerized Adaptive Testing: A Primer. Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.

[WainerMislevy-5] Wainer, H .; Mislevy, RJ (2000). Вайнер, Х. (ред.). Теория отклика на предмет, калибровка и оценка . Компьютеризированное адаптивное тестирование: учебник . Махва, Нью-Джерси: Лоуренс Эрлбаум Ассошиэйтс.

[6] Лоуренс М. Руднер. «Он-лайн интерактивный компьютерный учебник по адаптивному тестированию» . EdRes.org/scripts/cat .

[7] «Требования компьютеризированного адаптивного тестирования» (PDF) . FastTEST Web . Архивировано из оригинального (PDF) 25 апреля 2012 года.

[8] «Совет GMAT: Адаптация к компьютерному адаптивному тесту» . Блумберг . 3 апреля 2013 г.

[LinSpray2000-9] Lin, C.-J. И Спрей, JA (2000). Влияние критериев выбора элементов на классификационное тестирование с помощью теста последовательного отношения вероятностей. (Отчет об исследовании 2000-8). Айова-Сити, штат Айова: ACT, Inc.

[Wald-10] Перейти ↑ Wald, A. (1947). Последовательный анализ. Нью-Йорк: Вили.

[Reckase-11] Reckase, MD (1983). Процедура принятия решения с использованием специализированного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.

[Weitzman-12] Вайцман, Р. (1982). «Последовательное тестирование на выбор». Прикладное психологическое измерение . 6 (3): 337–351. CiteSeerX 10.1.1.1030.6828 . DOI : 10.1177 / 014662168200600310 .

[KingsburyWeiss-13] Кингсбери, GG, & Weiss, DJ (1983). Сравнение адаптивного зачетного тестирования на основе IRT и процедуры последовательного зачетного тестирования. В DJ Weiss (ред.), Новые горизонты в тестировании: теория скрытых черт и компьютеризированное адаптивное тестирование (стр. 237-254). Нью-Йорк: Academic Press.

[EggenStraetmans-14] Eggen, TJH M; Straetmans, GJJM (2000). «Компьютеризированное адаптивное тестирование для классификации испытуемых по трем категориям». Образовательные и психологические измерения . 60 (5): 713–734. DOI : 10.1177 / 00131640021970862 .

[SprayReckase-15] Spray, JA, и Reckase, MD (1994). Выбор тестовых заданий для принятия решений с помощью компьютеризированного адаптивного теста. Документ, представленный на Ежегодном собрании Национального совета по измерениям в образовании (Новый Орлеан, Лос-Анджелес, 5–7 апреля 1994 г.).

[SympsonHetter-16] Sympson, BJ, и Hetter, RD (1985). Контроль уровня экспонирования предметов в компьютеризированном адаптивном тестировании. Документ, представленный на ежегодной конференции Ассоциации военных испытаний в Сан-Диего.

[vanderLinden-17] ван дер Линден, WJ; Велдкамп, ВР (2004). «Ограничение экспонирования элементов в компьютерном адаптивном тестировании с теневыми тестами» . Журнал образовательной и поведенческой статистики . 29 (3): 273–291. DOI : 10.3102 / 10769986029003273 .

[1]