Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Оценка за тест - это информация, обычно число, которая отражает результативность экзаменуемого на тесте . Одно из формальных определений состоит в том, что это «краткое изложение доказательств, содержащихся в ответах экзаменуемого на пункты теста, которые связаны с измеряемой конструкцией или конструктами». [1]

Результаты тестов интерпретируются с помощью интерпретации на основе норм или критериев , а иногда и того и другого. Интерпретация, основанная на нормах, означает, что оценка дает представление об испытуемом с точки зрения его положения среди других испытуемых. Интерпретация, основанная на критериях, означает, что оценка передает информацию об экзаменуемом по конкретному предмету, независимо от оценок других экзаменуемых. [2]

Типы результатов тестов [ править ]

Есть два типа оценок за тесты: исходные и масштабированные. Необработанная оценка - это оценка без каких-либо корректировок или преобразований, таких как простое количество правильных ответов. Масштабированная оценка - это результат некоторых преобразований, примененных к исходной оценке.

Цель шкалы оценок - показать оценки всех экзаменуемых по единой шкале. Предположим, что у теста есть две формы, одна из которых сложнее другой. Было определено, приравняв, что оценка в 65% в форме 1 эквивалентна оценке в 68% по форме 2. Оценки по обеим формам можно преобразовать в шкалу, чтобы эти две эквивалентные оценки имели одинаковые зарегистрированные оценки. Например, они оба могут иметь оценку 350 по шкале от 100 до 500.

Два хорошо известных теста в Соединенных Штатах со шкалой оценок - это ACT и SAT. Шкала ACT варьируется от 0 до 36, а SAT - от 200 до 800 (на раздел). Якобы эти две шкалы были выбраны для представления среднего и стандартного отклонения 18 и 6 (ACT), а также 500 и 100. Верхняя и нижняя границы были выбраны, потому что интервал плюс или минус три стандартных отклонения содержит более 99% население. Баллы за пределами этого диапазона трудно измерить, и они не имеют практической ценности.

Обратите внимание, что масштабирование не влияет на психометрические свойства теста; это то, что происходит после завершения процесса оценки (и приравнивания, если таковое имеется). Следовательно, это вопрос не психометрии как таковой, а вопрос интерпретируемости.

Оценка потери информации [ править ]

Контрольный вопрос может потребовать от учащегося вычислить площадь треугольника . Сравните информацию, предоставленную в этих двух ответах.
Идентичный простой треугольник с обозначенной высотой
База = 5 см; Высота = 3 см
Площадь = 1 / 2 (основание × высота)
= 1 / 2 (5 см × 3 см)
= 7,5 см 2
Первый показывает потерю информации. Учитель знает, получил ли ученик правильный ответ, но не знает, как ученик пришел к ответу. Если ответ неверен, учитель не знает, угадал ли ученик, допустил простую ошибку или принципиально неправильно понял предмет.

Когда тесты оцениваются правильно или неправильно , делается важное предположение об обучении. Предполагается, что количество правильных ответов или сумма баллов по заданию (если дается частичный зачет) является подходящей и достаточной мерой текущего статуса выполнения. Кроме того, делается вторичное предположение, что неправильные ответы не содержат значимой информации .

Во-первых, правильный ответ можно получить с помощью запоминания без глубокого понимания основного содержания или концептуальной структуры поставленной задачи. Во-вторых, когда для решения требуется более одного шага, часто существует множество подходов к ответу, которые приведут к правильному результату. Тот факт, что ответ правильный, не означает, какая из нескольких возможных процедур использовалась. Когда студент дает ответ (или показывает работу), эту информацию легко получить из оригинальных документов.

Во-вторых, если бы неправильные ответы были слепыми догадками, среди этих ответов не было бы никакой информации. С другой стороны, если неправильные ответы отражают отклонения интерпретации от ожидаемого, эти ответы должны показывать упорядоченную связь с тем, что измеряет общий тест. Это отклонение должно зависеть от уровня психолингвистической зрелости учащегося, который выбирает или дает ответ на том языке, на котором написан тест.

Во втором случае следует выделить этот порядок из ответов на тестовые задания. [3] Такие процессы извлечения, например, модель Раша , являются стандартной практикой для разработки предметов среди профессионалов. Однако, поскольку неправильные ответы отбрасываются в процессе выставления оценок, анализ этих ответов на предмет информации, которую они могут содержать, проводится редко.

В-третьих, хотя иногда выставляются баллы за субтесты по темам, более распространенной практикой является сообщение общего балла или его масштабированной версии. Это изменение масштаба предназначено для сравнения этих оценок с каким-либо стандартом. Это дальнейшее сворачивание результатов тестирования систематически удаляет всю информацию о том, какие именно элементы были пропущены.

Таким образом, оценка правильности или неправильности теста проигрывает: 1) как учащиеся достигли своих правильных ответов, 2) что привело их к неправильным ответам и 3) где в тексте теста произошло это отклонение от ожиданий.

Этот комментарий предполагает, что текущая процедура выставления оценок скрывает динамику процесса сдачи экзамена и затемняет способности оцениваемых студентов. Текущая практика выставления оценок упрощает эти данные на начальном этапе подсчета очков. Результатом этой процедурной ошибки является скрытие диагностической информации, которая могла бы помочь учителям лучше обслуживать своих учеников. Кроме того, это не позволяет тем, кто старательно готовит эти тесты, получить информацию, которая в противном случае предупредила бы их о наличии этой ошибки.

В настоящее время разрабатывается решение этой проблемы, известное как оценка спектра отклика (RSE) [4] , которое, по всей видимости, способно восстановить все три формы потери информации, при этом обеспечивая числовую шкалу для определения текущего состояния производительности и для отслеживания изменения производительности.

Этот подход RSE обеспечивает интерпретацию каждого ответа, правильного или неправильного, что указывает на вероятные мыслительные процессы, используемые тестируемым. [5] Помимо прочего, в этой главе сообщается, что извлекаемая информация объясняет от двух до трех раз больше вариабельности теста, чем рассмотрение только правильных ответов. Такую массовую потерю информации можно объяснить тем фактом, что «неправильные» ответы удаляются из информации, собираемой в процессе подсчета баллов, и больше не доступны для выявления процедурной ошибки, присущей подсчету правильно-неправильно. Процедура обходит ограничения, вызванные линейными зависимостями, присущими тестовым данным.

Ссылки [ править ]

  1. ^ Thissen Д., и Вайнер, H. (2001). Подсчет очков. Махва, Нью-Джерси: Эрлбаум. Страница 1, предложение 1.
  2. ^ Руководство по программам тестирования штата Айова для интерпретации результатов тестов. Архивировано 12 февраля 2008 г. в Wayback Machine.
  3. ^ Пауэлл, Дж. К. и Шклов, Н. (1992) Журнал педагогических и психологических измерений , 52, 847–865
  4. ^ "Добро пожаловать на главную страницу" . Архивировано 30 апреля 2015 года . Дата обращения 2 мая 2015 .
  5. ^ Пауэлл, Джей С. (2010) Тестирование как обратная связь для информирования преподавателей. Глава 3 в; Обучение и обучение в цифровую эпоху, Часть 1. Когнитивные подходы к обучению и обучению. ( Дж. Майкл Спектор , Дирк Ифенталер, Педро Исайас, Киншук и Деметриос Сэмпсон, ред.), Нью-Йорк: Springer. ISBN 978-1-4419-1551-1 , DOI : 10.1007 / 978-1-4419-1551-1