Автоматическая генерация статей (AIG) или автоматическая генерация статей - это процесс, связывающий психометрию с компьютерным программированием. Он использует компьютерный алгоритм для автоматического создания тестовых заданий, которые являются основными строительными блоками психологического теста . Метод был впервые описан Джоном Р. Бормутом [1] в 1960-х годах, но не был разработан до недавнего времени. AIG использует двухэтапный процесс: сначала специалист по тестированию создает шаблон, называемый моделью элемента; затем разрабатывается компьютерный алгоритм для создания тестовых заданий. [2] Таким образом, вместо того, чтобы специалист по тестированию писал каждый отдельный элемент, компьютерные алгоритмы генерируют семейства элементов из меньшего набора моделей родительских элементов. [3] [4][5]
Контекст
При психологическом тестировании ответы испытуемого на тестовые задания предоставляют объективные данные измерения различных характеристик человека. [6] Некоторые характеристики, измеряемые психологическими и образовательными тестами, включают академические способности, успеваемость в школе, интеллект , мотивацию и т. Д., И эти тесты часто используются для принятия решений, которые имеют значительные последствия для отдельных лиц или групп лиц. Достижение стандартов качества измерений, таких как достоверность тестов , является одной из важнейших задач психологов и преподавателей. [7] AIG - это подход к разработке тестов, который можно использовать для поддержания и повышения экономичного качества тестирования в современной среде, где компьютеризированное тестирование увеличило потребность в большом количестве элементов тестирования. [5]
Преимущества
AIG , снижает затраты на производство стандартизированных тестов , [8] , как алгоритмы могут генерировать гораздо больше элементов в заданный промежуток времени , чем специалиста тест человека. Он может быстро и легко создавать параллельные тестовые формы, которые позволяют различным участникам тестирования знакомиться с разными группами тестовых заданий с одинаковым уровнем сложности или сложности, тем самым повышая безопасность тестирования. [3] В сочетании с компьютеризированным адаптивным тестированием , AIG может генерировать новые элементы или выбирать, какие из уже сгенерированных элементов следует выполнять дальше, в зависимости от способностей тестируемого во время проведения теста. Также ожидается, что AIG будет производить элементы с широким диапазоном сложности, с меньшим количеством ошибок в конструкции и, как ожидается, позволит более высокую сопоставимость элементов из-за более систематического определения модели прототипа элемента. [3] [9] [10]
Радикалы, побочные эффекты и изоморфы
Разработка тестов (включая AIG) может быть улучшена, если она основана на какой-либо когнитивной теории. Когнитивные процессы, взятые из данной теории, часто сопоставляются с характеристиками предметов во время их построения. Цель этого - предопределить данный психометрический параметр, например сложность задания (с этого момента: β ). Пусть радикалами [9] будут те структурные элементы, которые существенно влияют на параметры предмета и обеспечивают предмету определенные когнитивные требования. Одним или несколькими радикалами модели элемента можно управлять для создания моделей родительского элемента с различными параметрами (например, β ) уровни. Затем каждый родитель может вырастить свою семью, манипулируя другими элементами, которые Ирвин [9] назвал случайными . Случайные элементы - это поверхностные элементы, которые случайным образом меняются от предмета к предмету в пределах одного семейства. Элементы, которые имеют одинаковую структуру радикалов и отличаются только случайными элементами, обычно обозначаются как изоморфы [11] или клоны . [12] [13] Может быть два типа клонирования элементов: с одной стороны, модель элемента может состоять из элемента с одним или несколькими открытыми местами, а клонирование выполняется путем заполнения каждого места элементом, выбранным из списка. возможностей. С другой стороны, модель предмета может быть неповрежденным предметом, который клонируется путем внесения преобразований, например изменения угла объекта тестов пространственных способностей. [14] Изменение характеристик поверхности этих предметов не должно существенно влиять на ответы испытуемого. Это причина, по которой считается, что побочные эффекты вызывают лишь незначительные различия в параметрах предметов изоморфов. [3]
Текущие события
Ряд генераторов элементов был подвергнут объективному валидационному тестированию.
MathGen - это программа, которая генерирует элементы для проверки математических достижений. В статье 2018 года для Journal of Educational Measurement авторы Эмбретсон и Кингстон провели обширный качественный обзор и эмпирические испытания для оценки качественных и психометрических свойств сгенерированных заданий, заключив, что эти задания были успешными и что задания были созданы из одного и того же элемента. структура имела предсказуемые психометрические свойства. [15] [16]
Тест на мелодическую дискриминацию, разработанный с помощью вычислительной модели Rachman-Jun 2015 [17], был применен к участникам испытания 2017 года. Согласно данным, собранным PM Harrison et al., Результаты демонстрируют сильную валидность и надежность. [18]
Феррейра и Бакхофф-Эскудеро [19] создали две параллельные версии экзамена на базовые компетенции (Excoba), общего теста образовательных навыков, используя разработанную ими программу под названием GenerEx. Затем они изучили внутреннюю структуру, а также психометрическую эквивалентность созданных тестов. Эмпирические результаты психометрического качества в целом благоприятны, а тесты и задания согласованы, что измеряется несколькими психометрическими показателями.
Гирл и его коллеги [20] [21] [22] [23] использовали программу AIG под названием «Генератор заданий» (IGOR [24] ) для создания заданий с множественным выбором, которые проверяют медицинские знания. Предметы, созданные IGOR, даже по сравнению с предметами, созданными вручную, показали хорошие психометрические свойства.
Арендаси, Соммер и Майр [25] использовали AIG для создания устных заданий для проверки вербальной беглости немецкого и английского языков, давая их участникам, говорящим по-немецки и по-английски соответственно. Компьютерные задания показали приемлемые психометрические свойства. Наборы заданий для этих двух групп были основаны на общем наборе межъязыковых якорных заданий, что облегчало межъязыковые сравнения результатов.
Холлинг, Бертлинг и Цойх [26] использовали теорию вероятностей для автоматического создания математических текстовых задач с ожидаемыми трудностями. Они достигли соответствия модели Раша [27], и трудности с заданиями могут быть объяснены с помощью модели линейного логистического теста (LLTM [28] ), а также LLTM со случайными эффектами. Холлинг, Бланк, Кученбекер и Кун [29] провели аналогичное исследование со статистическими задачами слов, но без использования AIG. Арендаси и его коллеги [30] [31] представили исследования по автоматически сгенерированным задачам алгебры слов и изучили, как структура контроля качества AIG может повлиять на качество измерения элементов.
Автоматическое создание фигурных предметов
Item Maker (IMak) - это программа, написанная на языке программирования R для построения графических объектов аналогий. Психометрические свойства 23 заданий, созданных IMak, были признаны удовлетворительными, а сложность задания на основе генерации правил можно было предсказать с помощью модели линейного логистического теста (LLTM). [3]
MazeGen - еще одна программа, написанная на R, которая автоматически создает лабиринты. Психометрические свойства 18 таких лабиринтов были признаны оптимальными, включая соответствие модели Раша и прогноз сложности лабиринта с помощью LLTM. [32]
GeomGen - это программа, которая генерирует фигурные матрицы. [33] Исследование, которое выявило источники систематической ошибки измерения, связанной со стратегиями исключения ответов для элементов фигуральной матрицы, пришло к выводу, что значимость отвлекающих факторов способствует реализации стратегий исключения ответов и что это знание может быть включено в AIG для повышения конструктивной валидности таких элементов. [34] Та же группа использовала AIG для изучения дифференциального функционирования предметов (DIF) и гендерных различий, связанных с умственным вращением . Они манипулировали особенностями дизайна предметов, которые демонстрировали гендерный DIF в предыдущих исследованиях, и показали, что оценки величины эффекта гендерных различий были скомпрометированы наличием разных видов гендерного DIF, которые могли быть связаны с конкретными особенностями дизайна предмета. [35] [36]
Арендаси также изучала возможные нарушения психометрического качества, выявленные с помощью теории ответа на вопросы (IRT) для автоматически генерируемых пунктов визуально-пространственного мышления. Для этого он представил две программы, а именно: уже упомянутую GeomGen [33] и Генератор бесконечных циклов (EsGen). Он пришел к выводу, что GeomGen больше подходит для AIG, потому что принципы IRT могут быть включены во время генерации элементов. [37] В параллельном исследовательском проекте с использованием GeomGen, Arendasy и Sommer [38] обнаружили, что изменение перцептивной организации предметов может влиять на производительность респондентов в зависимости от их уровней способностей и что это влияет на несколько психометрических показателей качества. Получив эти результаты, они поставили под сомнение предположение об одномерности элементов фигуральной матрицы в целом.
MatrixDeveloper [39] использовался для автоматического создания двадцати пяти элементов квадратной матрицы 4x4. Эти предметы были переданы 169 лицам. Согласно результатам исследования, предметы хорошо подходят для модели Раша , а генерация на основе правил может объяснить сложность предмета. [40]
Первый известный генератор матрицы элементов был разработан Эмбретсоном [41] [12], и ее автоматически сгенерированные элементы продемонстрировали хорошие психометрические свойства, как это показали Эмбретсон и Райз. [42] Она также предложила модель для создания адекватных онлайн-элементов.
Рекомендации
- ^ Bormuth, J. (1969). По теории достижений тестовых заданий . Чикаго, Иллинойс: Издательство Чикагского университета.
- ^ Gierl, MJ, и Haladyna, TM (2012). Автоматическая генерация предметов, теория и практика . Нью-Йорк, штат Нью-Йорк: Routledge Chapman & Hall.
- ^ a b c d e Блюм, Диего; Холлинг, Хайнц (6 августа 2018 г.). «Автоматическое создание образных аналогий с пакетом IMak» . Границы в психологии . 9 : 1286. DOI : 10.3389 / fpsyg.2018.01286 . PMC 6087760 . PMID 30127757 . Материал был скопирован из этого источника, доступного по международной лицензии Creative Commons Attribution 4.0 .
- ^ Glas, CAW, ван дер Линден, WJ, и Geerlings, H. (2010). Оценка параметров модели клонирования элементов для адаптивного тестирования. В WJ van der Linden и CAW Glas (Eds.). Элементы адаптивного тестирования (стр. 289-314). DOI: 10.1007 / 978-0-387-85461-8_15.
- ^ a b Gierl, MJ, & Lai, H. (2012). Роль моделей предметов в автоматическом создании предметов. Международный журнал тестирования, 12 (3), 273-298. DOI: 10.1080 / 15305058.2011.635830.
- Перейти ↑ Van der Linden, WJ, & Hambleton, RK (1997). Теория отклика предмета: краткая история, общие модели и расширения. В RK Hambleton и WJ van der Linden (ред.). Справочник по современной теории отклика на предмет (стр. 1-31). Нью-Йорк: Спрингер.
- ^ Embretson, SE (1999). Проблемы измерения когнитивных способностей. В SE Embretson и SL Hershberger (Eds.). Новые правила измерения (стр. 1-15). Махвах: Лоуренс Эрлбаум Ассошиэйтс.
- ^ Rudner, L. (2010). Внедрение компьютерного адаптивного теста для поступления в магистратуру. В WJ van der Linden и CAW Glas (Eds.). Элементы адаптивного тестирования (стр. 151-165). DOI: 10.1007 / 978-0-387-85461-8_15.
- ^ а б в Ирвин, С. (2002). Основы генерации предметов для массового тестирования. В SH Irvine и PC Kyllonen (Eds.). Генерация заданий для разработки тестов (стр. 3-34). Махвах: Лоуренс Эрлбаум Ассошиэйтс.
- ^ Lai, H., Алвес, К., и Gierl, MJ (2009). Использование автоматического создания элементов для удовлетворения потребностей в элементах CAT В DJ Weiss (Ed.), Proceedings of the 2009 GMAC Conference on Computerized Adaptive Testing . Веб: www.psych.umn.edu/psylabs/CATCentral.
- Перейти ↑ Bejar, II (2002). Генеративное тестирование: от концепции до реализации в « Генерация элементов для разработки тестов» , под ред. С.Х. Ирвин и П.С. Киллонен (Махва, Нью-Джерси: Lawrence Erlbaum Associates), 199–217.
- ^ a b Embretson, SE (1999). Создание элементов во время тестирования: психометрические проблемы и модели. Психометрика, 64 (4), 407-433.
- ^ Arendasy, ME и Sommer, M. (2012). Использование автоматической генерации заданий для удовлетворения растущих требований заданий высокоуровневой образовательной и профессиональной оценки. Обучение и индивидуальные различия, 22 , 112–117. DOI: 10.1016 / j.lindif.2011.11.005.
- ^ Glas, CAW и вандерЛинден, WJ (2003). Компьютеризированное адаптивное тестирование с клонированием элементов. Прикладное психологическое измерение, 27 , 247–261. DOI: 10.1177 / 0146621603027004001.
- ^ Embretson, SE, и Kingston, NM (2018). Автоматическая генерация заданий: более эффективный процесс разработки заданий по математике? Журнал образовательных измерений, 55 (1), 112-131. DOI: 10.1111 / jedm.12166
- ^ Виллсон J., Моррисон, К., & Embretson, SE (2014). Автоматический генератор предметов для математических достижений: MathGen3.0 . Технический отчет IES1005A-2014 по гранту Института педагогических наук R305A100234. Атланта, Джорджия: Лаборатория когнитивных измерений, Джорджия, Технологический институт.
- ^ Коллинз, Т., Лэйни, Р., Уиллис, А., и Garthwaite, PH (2016). Разработка и оценка компьютерных моделей музыкального стиля. Искусственный интеллект для инженерного проектирования, анализа и производства, 30 , 16-43. DOI: 10.1017 / S0890060414000687.
- ^ Harrison, PM, Collins, T., и Müllensiefen, D. (2017). Применение современных психометрических методов к тестированию мелодической дискриминации: теория ответа на вопросы, компьютеризированное адаптивное тестирование и автоматическая генерация элементов. Научные отчеты, 7 (3618), 1-18.
- ^ Феррейра, МФ, & Backhoff-Эскудеро, Е. (2016). Validez del Generador Automático de Ítems del Examen de Competencias Básicas (Excoba). Рельефная, 22 (1), ст. 2, 1-16. DOI: 10.7203 / relieve.22.1.8048.
- ^ Gierl, MJ, Лай, H., Pugh, Д., Touchie С., Boulais, AP, & De Champlain, A. (2016). Оценка психометрических характеристик сгенерированных тестовых заданий с множественным выбором. Прикладные измерения в образовании, 29 (3), 196-210. DOI: 10.1080 / 08957347.2016.1171768.
- ^ Lai H., Gierl, МДж, Бирн, BE, Шпильман, А. И., & Вальдшмидт, DM (2016). Три приложения для моделирования для автоматического создания заданий для стоматологических обследований. Журнал стоматологического образования, 80 (3), 339-347.
- ^ Gierl, MJ, и Лай, H. (2013). Оценка качества медицинских изделий с множественным выбором, созданных с помощью автоматизированных процессов. Медицинское образование, 47 , 726-733. DOI: 10.1111 / medu.12202.
- ^ Gierl, MJ, Лай, H., & Turner, SR (2012). Использование автоматического создания элементов для создания тестовых заданий с множественным выбором. Медицинское образование, 46 (8), 757-765. DOI: 10.1111 / j.1365-2923.2012.04289.x.
- ^ Gierl, МДж, Чжоу, J., & Алвес, С. (2008). Разработка таксономии типов режимов задания для продвижения инженерной оценки. J technol Learn Assessment, 7 (2), 1-51.
- ^ Arendasy, ME, Sommer, М., & Mayr, Ф. (2011). Использование автоматического создания элементов для одновременного создания немецкой и английской версий теста на беглость слов. Журнал кросс-культурной психологии, 43 (3), 464-479. DOI: 10.1177 / 0022022110397360.
- ^ Холлинг H., Bertling, JP, & Zeuch, Н. (2009). Автоматическая генерация элементов вероятностных проблем со словом. Исследования по оценке образования, 35 (2-3), 71-76.
- ^ Раш, Г. (1960). Вероятностные модели для некоторых тестов интеллекта и достижений . Чикаго: Издательство Чикагского университета.
- Перейти ↑ Fischer, GH (1973). Модель линейного логистического теста как инструмент педагогического исследования. Acta Psychological, 37 , 359–374. DOI: 10.1016 / 0001-6918 (73) 90003-6.
- ^ Holling, H., Blank, H., Kuchenbäcker, К., и Kuhn, JT (2008). Дизайн статистических текстовых задач на основе правил: обзор и первая реализация. Psychology science ежеквартально, 50 (3), 363-378.
- ^ Arendasy, ME, Sommer, М., Gittler Г., и Hergovich, A. (2006). Автоматическая генерация количественных аргументов. Пилотное исследование. Журнал индивидуальных различий, 27 (1), 2-14. DOI: 10.1027 / 1614-0001.27.1.2.
- ^ Arendasy, ME, & Sommer, M. (2007). Использование психометрической технологии в образовательной оценке: пример изоморфного подхода на основе схем к автоматической генерации количественных аргументов. Обучение и индивидуальные различия, 17 (4), 366-383. DOI: 10.1016 / j.lindif.2007.03.005.
- ^ Ло, BS & Руст, J. (2017). Пересмотр теста перцептивного лабиринта: оценка сложности автоматически сгенерированных лабиринтов. Оценка , 1-16. DOI: 10.1177 / 1073191117746501.
- ^ a b Арендасы, М. (2002). Geom-Gen-Ein Itemgenerator für Matrizentestaufgaben . Вена: Айгенверлаг.
- ^ Arendasy, ME, & Sommer, М. (2013). Уменьшение количества стратегий исключения ответов повышает конструктивную достоверность фигуральных матриц. Разведка, 41 , 234–243. DOI: 10.1016 / j.intell.2013.03.006.
- ^ Arendasy, ME, & Sommer, M. (2010). Оценка вклада различных характеристик предметов в размер эффекта гендерных различий в трехмерном мысленном вращении с использованием автоматической генерации предметов. Интеллект, 38 (6), 574-581. DOI: 10.1016 / j.intell.2010.06.004.
- ^ Arendasy, ME, Sommer, М., & Gittler, Г. (2010). Сочетание автоматической генерации заданий и экспериментального дизайна для исследования вклада когнитивных компонентов в гендерные различия в умственном вращении. Интеллект, 38 (5), 506-512. DOI: 10.1016 / j.intell.2010.06.006.
- ^ Arendasy, М. (2005). Автоматическая генерация откалиброванных по Рашу элементов: тест фигурных матриц GEOM и Endless-Loops Test EC. Международный журнал тестирования, 5 (3), 197-224.
- ^ Arendasy, ME, & Sommer, М. (2005). Влияние различных типов перцептивных манипуляций на размерность автоматически генерируемых фигуральных матриц. Интеллект, 33 (3), 307-324. DOI: 10.1016 / j.intell.2005.02.002.
- Перейти ↑ Hofer, S. (2004). MatrixDeveloper. Мюнстер, Германия: Психологический институт IV. Westfälische Wilhelms-Universität.
- Перейти ↑ Freund, PA, Hofer, S., & Holling, H. (2008). Объяснение и контроль психометрических свойств сгенерированных компьютером элементов фигуральной матрицы. Прикладное психологическое измерение, 32 (3), 195-210. DOI: 10.1177 / 0146621607306972.
- ^ Embretson, SE (1998). Системный подход когнитивного проектирования к созданию валидных тестов: приложение к абстрактному мышлению. Психологические методы, 3 (3), 380-396.
- ^ Embretson, SE, и Reise, SP (2000). Пункт Теория отклика для психологов . Махвах: Лоуренс Эрлбаум Ассошиэйтс.