Тестовое приравнивание традиционно относится к статистическому процессу определения сопоставимых баллов по разным формам экзамена . [1] Это может быть выполнено с использованием классической теории тестирования или теории ответов заданий .
В теории ответов по заданным критериям приравнивание [2] - это процесс выставления оценок из двух или более параллельных форм тестирования на общую шкалу оценок. В результате результаты двух разных форм тестирования можно сравнивать напрямую или обрабатывать так, как если бы они были получены из одной и той же формы. Когда тесты не параллельны, общий процесс называется компоновкой. Это процесс приравнивания единиц и происхождения двух шкал, по которым способности учащихся оцениваются по результатам различных тестов. Этот процесс аналогичен приравниванию градусов Фаренгейта к градусам Цельсия путем преобразования измерений из одной шкалы в другую. Определение сопоставимых баллов является побочным продуктом приравнивания результатов приравнивания шкал, полученных по результатам тестирования.
Зачем нужно приравнивать?
Предположим, что Дик и Джейн сдают тест на получение лицензии по определенной профессии. Поскольку высокие ставки (вы получите возможность практиковать профессию, если сдадите тест) могут создать соблазн обмануть, организация, которая наблюдает за тестированием, создает две формы. Если мы знаем, что Дик набрал 60% в форме A, а Джейн набрала 70% в форме B, знаем ли мы наверняка, кто из них лучше разбирается в материале? Что, если форма A состоит из очень сложных элементов, а форма B относительно проста? Для решения этой самой проблемы проводится сравнительный анализ, чтобы оценки были как можно более справедливыми.
Приравнивание в теории ответов на вопросы
В теории ответов на вопросы «местоположения» людей (показатели некоторого качества, оцениваемые с помощью теста) оцениваются по интервальной шкале ; т. е. местоположения оцениваются по отношению к единице и происхождению. В образовательной оценке широко распространено использование тестов для оценки различных групп учащихся с намерением установить общую шкалу путем уравнивания происхождения, а при необходимости и единиц шкал, полученных на основе данных ответов из различных тестов. Этот процесс называется приравниванием или тестовым приравниванием.
В теории ответов заданий существует два разных типа приравнивания - горизонтальное и вертикальное приравнивание. [3] Вертикальное приравнивание относится к процессу приравнивания тестов, проводимых для групп учащихся с разными способностями, например, учащихся разных классов (количество лет обучения). [4] Горизонтальное приравнивание относится к приравниванию тестов, проводимых к группам со схожими способностями; например, два теста, проводимые для учащихся одного класса в течение двух календарных лет подряд. Чтобы избежать практических эффектов, используются разные тесты.
С точки зрения теории отклика элементов, приравнивание - это просто частный случай более общего процесса масштабирования , применимого, когда используется более одного теста. Однако на практике масштабирование часто реализуется отдельно для разных тестов, а затем шкалы впоследствии приравниваются.
Часто проводится различие между двумя методами приравнивания; уравнивание обычного человека и обычного предмета . Приравнивание обычного человека подразумевает проведение двух тестов общей группе людей. Среднее и стандартное отклонение расположения групп на шкале в двух тестах приравниваются с использованием линейного преобразования. Приравнивание общих элементов включает использование набора общих элементов, называемых тестом привязки, встроенным в два разных теста. Среднее расположение обычных предметов приравнивается.
Классические подходы к приравниванию
В классической теории тестирования приравнивание среднего просто регулирует распределение баллов так, чтобы среднее значение одной формы было сопоставимо со средним значением другой формы. Хотя среднее приравнивание привлекательно своей простотой, ему не хватает гибкости, а именно учета возможности того, что стандартные отклонения форм различаются. [1]
Линейное уравнение настраивается так, чтобы две формы имели сопоставимое среднее значение и стандартное отклонение . Существует несколько типов линейного уравнивания, которые различаются допущениями и математическими расчетами, используемыми для оценки параметров. Методы Tucker и Levine Observed Score оценивают взаимосвязь между наблюдаемыми баллами по двум формам, в то время как метод Levine True Score оценивает взаимосвязь между истинными баллами по двум формам. [1]
Эквиперцентильное уравнивание определяет отношение уравнивания как такое, при котором балл может иметь эквивалентный процентиль в любой форме. Эта связь может быть нелинейной.
В отличие от теории ответов на вопросы, приравнивание, основанное на классической теории тестирования, несколько отличается от масштабирования. Приравнивание - это преобразование из исходных данных в исходные, поскольку оно оценивает исходную оценку в форме B, которая эквивалентна каждой исходной оценке в базовой форме A. Любое используемое преобразование масштабирования затем применяется поверх уравнения или вместе с ним.
Смотрите также
Рекомендации
- ^ a b c Колен, MJ, & Brennan, RL (1995). Тестовое уравнение. Нью-Йорк: Весна.
- ^ Национальный совет по измерениям в образовании http://www.ncme.org/ncme/NCME/Resource_Center/Glossary/NCME/Resource_Center/Glossary1.aspx?hkey=4bb87415-44dc-4088-9ed9-e8515326a061#anchorE Архивировано 07.07.2017 -22 у Wayback Machine
- ^ Бейкер, Ф. (1983). Сравнение показателей способностей, полученных с помощью двух процедур теории скрытых черт. Прикладное психологическое измерение, 7, 97-110.
- ^ Бейкер, Ф. (1984). Преобразования показателей способностей, участвующие в вертикальном приравнивании согласно теории отклика на предмет Прикладное психологическое измерение, 8 (3), 261-271.