Адаптивное сравнительное суждение

Адаптивное сравнительное суждение - это метод, заимствованный из психофизики, который способен генерировать надежные результаты для образовательной оценки - как таковой он является альтернативой традиционному выставлению оценок экзаменационного сценария. В рамках этого подхода судьям представлены пары работ учащихся, а затем их просят выбрать, что лучше, одно или другое. Затем с помощью итеративного и адаптивного алгоритма можно получить масштабированное распределение работ студентов без ссылки на критерии.

Введение [ править ]

Традиционная маркировка экзаменационных экзаменов началась в Кембридже 1792 года, когда с ростом числа студентов возрастала важность правильного ранжирования студентов. Поэтому в 1792 году новый экзаменатор Уильям Фариш ввел выставление оценок - процесс, в котором каждый экзаменатор выставляет числовую оценку каждому ответу каждого студента, а общая общая оценка ставит студентов в окончательный порядок ранжирования. Фрэнсис Гальтон (1869) отметил, что в неустановленном году, примерно в 1863 году, Senior Wrangler набрал 7634 балла из максимальных 17000, в то время как Second Wrangler набрал 4123 балла. («Деревянная ложка» набрала всего 237 баллов.)

До 1792 года группа экзаменаторов Кембриджа собиралась в 17:00 в последний день экзамена, рассматривала 19 работ, которые сдал каждый студент, и публиковала свой рейтинг в полночь. Маркировка решила проблемы с числами и предотвратила несправедливую личную предвзятость, а ее введение стало шагом к современному объективному тестированию, формату, для которого она лучше всего подходит. Но последовавшая за этим технология тестирования с упором на надежность и автоматизацию выставления оценок оказалась неудобным партнером для некоторых областей образовательных достижений: для оценки письменной или устной речи, а также для других видов успеваемости требуется что-то более качественное и субъективное.

Техника адаптивного сравнительного суждения - альтернатива разметке. Он возвращает к идее сортировки бумаг по качеству, существовавшей до 1792 года, но сохраняет гарантию надежности и честности. Это, безусловно, самый надежный из известных способов оценки эссе или более сложных выступлений ^{[ необходима ссылка ]} . Это намного проще, чем выставление оценок, и его предпочитают почти все экзаменаторы, которые пробовали его. Настоящая привлекательность адаптивного сравнительного суждения заключается в том, как с его помощью можно перепрофессионализировать деятельность по оцениванию и как можно реинтегрировать оценивание с обучением.

История [ править ]

Закон сравнительного суждения Терстона [ править ]

«Абсолютного суждения не существует»
- Ламинг (2004) ^[1]

Наука сравнительного суждения началась с Луи Леона Терстона из Чикагского университета . Пионер психофизики , он предложил несколько способов построения шкал для измерения ощущений и других психологических свойств. Одним из них был закон сравнительного суждения (Thurstone, 1927a, 1927b), ^[2]^[3], который определил математический способ моделирования вероятности того, что один объект «превзойдет» другой в сравнении, при заданных значениях для «качества». ' каждого. Это все, что нужно для построения полноценной системы измерения.

Вариант его модели (см. Парное сравнение и модель BTL) утверждает, что разница между их значениями качества равна логарифму шансов, что объект-A превзойдет объект-B:

{\ displaystyle \ mathrm {log \; odds} (A \ {\ text {beats}} \ B \ mid v_ {a}, v_ {b}) = v_ {a} -v_ {b}}

До появления современных компьютеров математика, необходимая для вычисления «значений» качества каждого объекта, означала, что метод можно было использовать только с небольшими наборами объектов, а его применение было ограничено. Для Терстона объектами обычно были ощущения, такие как интенсивность, или отношения, такие как серьезность преступлений, или высказывания мнений. Социальные исследователи продолжали использовать этот метод, так же как и исследователи рынка, для которых объекты могли быть разными планировками гостиничных номеров или вариациями предлагаемого нового печенья.

В 1970-х и 1980-х годах сравнительное суждение появилось почти впервые в образовательной оценке в качестве теоретической основы или предшественника новых теорий скрытых черт или ответов на вопросы. (Андрич, 1978). Эти модели теперь являются стандартными, особенно в системах хранения предметов и адаптивного тестирования.

Повторное введение в образование [ править ]

Первой опубликованной статьей, использующей сравнительное суждение в образовании, была Pollitt & Murray (1994), по сути исследовательская работа, касающаяся характера шкалы владения английским языком, оцениваемой в устной части экзамена CPE Кембриджа. Объектами были кандидаты, представленные 2-минутными фрагментами видеозаписей их тестовых сессий, а судьями были аспиранты лингвистики, не прошедшие аттестацию. Судьи сравнивали пары фрагментов видео, просто сообщая, какой из них они сочли лучшим учеником, а затем прошли клиническое собеседование, чтобы выяснить причины своего решения.

Затем Поллитт представил органам Великобритании сравнительное суждение как метод сравнения стандартов уровней A от различных советов. Сравнительное суждение заменило их существующий метод, который требовал прямого суждения о сценарии по сравнению с официальным стандартом другой доски. В течение первых двух или трех лет этого Поллитт проводил все анализы для всех плат, используя программу, которую он написал для этой цели. Это сразу же стало единственным экспериментальным методом, используемым для исследования сопоставимости экзаменов в Великобритании; приложения для этой цели с 1996 по 2006 гг. полностью описаны в Bramley (2007). ^[4]

В 2004 году Поллитт представил доклад на конференции Международной ассоциации по оценке образования под названием «Давайте перестанем оценивать экзамены», а другой - на той же конференции в 2009 году под названием «Отмена марксизма». В каждой статье цель заключалась в том, чтобы убедить оценочное сообщество в том, что использование сравнительного суждения дает значительные преимущества вместо выставления оценок для некоторых типов оценивания. В 2010 году он представил доклад в Европейской ассоциации по оценке образования «Как правильно и надежно оценивать письменную речь», в котором представлены доказательства чрезвычайно высокой надежности, достигнутой с помощью сравнительного суждения при оценке навыков учеников начальной школы в знании английского языка на первом языке. письмо.

Адаптивное сравнительное суждение [ править ]

Сравнительное суждение становится жизнеспособной альтернативой выставлению оценок, когда оно реализовано в виде адаптивной сетевой системы оценивания. При этом «баллы» (параметр модели для каждого объекта) переоцениваются после каждого «раунда» суждений, в котором, в среднем, каждый объект оценивался еще раз. В следующем раунде каждый сценарий сравнивается только с другим, текущая оценочная оценка которого аналогична, что увеличивает количество статистической информации, содержащейся в каждом решении. В результате процедура оценки более эффективна, чем случайное спаривание или любая другая заранее заданная система спаривания, подобная тем, которые используются в классических приложениях сравнительного суждения. (Pollitt, 2012). ^[5]

Как и в случае компьютерно-адаптивного тестирования, эта адаптивность максимизирует эффективность процедуры оценки, увеличивая разделение оценок и уменьшая стандартные ошибки. Наиболее очевидным преимуществом является то, что это обеспечивает значительно более высокую надежность по сравнению с оценкой путем маркировки без потери достоверности.

Неизвестно, действительно ли адаптивное сравнительное суждение повышает надежность. (Брамли, Вителло, 2016). ^[6]

Текущие проекты сравнительного суждения [ править ]

RM Compare [ править ]

RM Compare - это оригинальная система адаптивного сравнительного суждения. ^[7] Система, первоначально разработанная как CompareAssess компанией Digital Assess, предназначена для масштабного развертывания адаптивных сравнительных суждений и используется во всем мире в широком диапазоне контекстов.

Проекты сравнительного суждения с открытым исходным кодом [ править ]

Цифровая платформа для оценки компетенций (D-PAC) - это консорциум с Антверпенским университетом, iMinds и Гентским университетом для создания приложения для сравнительного суждения с открытым исходным кодом. Компания D-PAC в сотрудничестве с No More Marking Ltd выпустила алгоритмы, обеспечивающие работу сайта www.nomoremarking.com в рамках лицензии GNU GENERAL PUBLIC LICENSE Version 3, 29 июня 2007 г.

Сравнительное суждение [ править ]

Компания No More Marking создала онлайн-приложение для сравнительного суждения, а также хранилище полезной информации.

e-scape [ править ]

Первое применение сравнительного суждения к прямой оценке студентов было в проекте под названием e-scape , возглавляемом профессором Ричардом Кимбеллом из Goldsmiths College Лондонского университета (Kimbell & Pollitt, 2008). ^[8] Разработка проводилась в сотрудничестве с рядом награжденных органов в рамках курса «Дизайн и технологии». Команда Кимбелла разработала сложный и аутентичный проект, в котором учащиеся должны были разработать в качестве прототипа такой объект, как детский диспенсер для таблеток, за два трехчасовых занятия под наблюдением.

Интернет-система оценки была разработана Каримом Дерриком и Декланом Линчем из TAG Developments, которая теперь является частью Digital Assess, и основана на исходной портфельной системе оценки MAPS (программное обеспечение) , теперь известной как Manage. Goldsmiths, TAG Developments и Pollitt провели три испытания, увеличив размер выборки с 20 до 249 студентов и разработав как систему судейства, так и систему оценивания. Есть три пилотных проекта, связанных с географией и наукой, а также оригинальный проект по дизайну и технологиям.

Письмо в начальной школе [ править ]

В конце 2009 года TAG Developments и Pollitt опробовали новую версию системы оценки письма. В общей сложности 1000 сценариев начальной школы были оценены командой из 54 судей в смоделированном национальном контексте оценивания. Достоверность полученных баллов после того, как каждый сценарий был оценен 16 раз, составила 0,96, что значительно выше, чем в любом другом опубликованном исследовании аналогичной письменной оценки. Дальнейшее развитие системы показало, что надежность 0,93 может быть достигнута примерно после 9 оценок каждого скрипта, когда система не дороже, чем разовая маркировка, но все же намного более надежна. ^[5]

Дальнейшие проекты [ править ]

В настоящее время реализуются несколько проектов в Англии, Шотландии, Ирландии, Израиле, Сингапуре и Австралии. Они варьируются от начальной школы до университета в зависимости от контекста и включают как формирующее, так и итоговое оценивание, от письма до математики. Базовая веб-система теперь доступна на коммерческой основе от TAG Assessment ( http://www.tagassessment.com ) и может быть изменена в соответствии с конкретными потребностями.

ACJ использовался Seery, Canty, Gordon and Lane в Университете Лимерика, Ирландия, для оценки работы студентов бакалавриата по программам начального педагогического образования с 2009 года. ACJ также использовался доктором Бартоломью из Университета Пердью для оценки портфолио дизайнеров в середине. , старшеклассники и студенты. Варфоломей также использовал ACJ в качестве инструмента для формирующего оценивания и обучения решению открытых проблем.

Ссылки [ править ]

^ * Laming, DRJ (2004) Человеческое суждение: взгляд смотрящего. Лондон, Томсон.
^ Терстон, LL (1927a). Психофизический анализ . Американский журнал психологии, 38, 368-389. Глава 2 в Thurstone, LL (1959). Измерение ценностей. Издательство Чикагского университета, Чикаго, Иллинойс.
^ Терстон, LL (1927b). Метод парных сравнений по социальным ценностям . Журнал аномальной и социальной психологии, 21, 384-400. Глава 7 в Thurstone, LL (1959). Измерение ценностей. University of Chicago Press, Чикаго, Иллинойс
^ Bramley, T (2007) Парные методы сравнения . В Newton, P, Baird, J, Patrick, H, Goldstein, H, Timms, P и Wood, A (ред.). Методики контроля сопоставимости экзаменационных стандартов. Лондон , QCA.
^ a b Pollitt, A (2012) Метод адаптивного сравнительного суждения. Оценка в образовании: принципы, политика и практика. 19: 3, 1-20. DOI: 10.1080 / 0969594X.2012.665354
^ Bramley, T и Vitello, S (2016) Влияние адаптивности на коэффициент надежности в адаптивном сравнительном суждении. Оценка в образовании: принципы, политика и практика. 26: 1, 43-58. DOI: 10.1080 / 0969594X.2017.1418734
^ RM Сравнить
^ Kimbell R, A и Pollitt A (2008) Оценка курсовой работы на экзаменах с высокими ставками: подлинность, креативность, надежность Третья международная конференция по измерениям Раша . Перт: Западная Австралия: январь.

Поллитт, А (2015) О смещении надежности в ACJ: достоверное моделирование адаптивного сравнительного суждения. Исследование Кембриджского экзамена: Кембридж, Великобритания Доступно по адресу https://www.researchgate.net/publication/283318012_On_%27Reliability%27_bias_in_ACJ
Стандарты APA, AERA и NCME (1999) для образовательного и психологического тестирования.
Гальтон, F (1855) Наследственный гений: исследование его законов и последствий. Лондон: Макмиллан.
Кимбелл, Р. А., Уиллер А., Миллер С. и Поллитт А. (2007). Отчет об оценке портфолио электронного сценария (электронные решения для творческой оценки в среде портфолио), фаза 2 . TERU Goldsmiths, ISBN Лондонского университета 978-1-904158-79-0
Pollitt, A (2004) Давайте прекратим выставлять оценки на экзаменах. Ежегодная конференция Международной ассоциации по оценке образования, Филадельфия, июнь . Доступно на http://www.camexam.co.uk публикациях.
Поллитт, А. (2009) Отмена марксизма и спасение действительности . Ежегодная конференция Международной ассоциации по оценке образования, Брисбен, сентябрь. Доступно на http://www.camexam.co.uk публикациях.
Pollitt, A, & Murray, N (1993) На что действительно обращают внимание рейтеры . Коллоквиум по изучению языкового тестирования, Кембридж. Переиздано в Milanovic, M & Saville, N (Eds), Studies in Language Testing 3: Performance Testing, Cognition and Assessment, Cambridge University Press, Cambridge.

Внешние ссылки [ править ]

RM Сравнить
No More Marking Ltd.
Побег
Вознаграждение за риск
Оценка TAG ACJ
D-PAC

[1] * Laming, DRJ (2004) Человеческое суждение: взгляд смотрящего. Лондон, Томсон.

[2] Терстон, LL (1927a). Психофизический анализ . Американский журнал психологии, 38, 368-389. Глава 2 в Thurstone, LL (1959). Измерение ценностей. Издательство Чикагского университета, Чикаго, Иллинойс.

[3] Терстон, LL (1927b). Метод парных сравнений по социальным ценностям . Журнал аномальной и социальной психологии, 21, 384-400. Глава 7 в Thurstone, LL (1959). Измерение ценностей. University of Chicago Press, Чикаго, Иллинойс

[4] Bramley, T (2007) Парные методы сравнения . В Newton, P, Baird, J, Patrick, H, Goldstein, H, Timms, P и Wood, A (ред.). Методики контроля сопоставимости экзаменационных стандартов. Лондон , QCA.

[p2012-5] Pollitt, A (2012) Метод адаптивного сравнительного суждения. Оценка в образовании: принципы, политика и практика. 19: 3, 1-20. DOI: 10.1080 / 0969594X.2012.665354

[p2016-6] Bramley, T и Vitello, S (2016) Влияние адаптивности на коэффициент надежности в адаптивном сравнительном суждении. Оценка в образовании: принципы, политика и практика. 26: 1, 43-58. DOI: 10.1080 / 0969594X.2017.1418734

[7] RM Сравнить

[8] Kimbell R, A и Pollitt A (2008) Оценка курсовой работы на экзаменах с высокими ставками: подлинность, креативность, надежность Третья международная конференция по измерениям Раша . Перт: Западная Австралия: январь.

[1]