Достоверность теста - это степень, в которой тест (например, химический , физический или учебный ) точно измеряет то, что он должен измерять. В области психологического тестирования и образовательного тестирования «валидность означает степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов, вытекающую из предлагаемого использования тестов». [1] Несмотря на то, классические модели разделить эту концепцию в различные «сроки действия» (например, действия контента , критерий достоверности и валидности ), [2]в настоящее время преобладает точка зрения, согласно которой действительность - это единственная унитарная конструкция. [3]
Валидность обычно считается наиболее важным вопросом в психологическом и образовательном тестировании [4], потому что это касается значения результатов тестирования. [3] Хотя во многих учебниках валидность представлена как статическая конструкция, [5] со времени первых опубликованных рекомендаций по построению психологических и образовательных тестов возникли различные модели валидности. [6] Эти модели можно разделить на две основные группы: классические модели, которые включают несколько типов валидности, и современные модели, которые представляют валидность как единую конструкцию. Современные модели реорганизуют классические «валидности» либо в «аспекты» валидности [3], либо в «типы» свидетельств, подтверждающих валидность [1]
Тест действительность сама по себе может быть проверен / подтверждено с помощью тестов надежности между показателями , надежностью внутри оценщик , повторяемостью (повторного тестирования надежности), а также других признаков, как правило , через несколько прогонов теста, результаты которого сравниваются. Статистический анализ помогает определить, являются ли различия между различными результатами достаточно большими, чтобы создать проблему, или приемлемо малыми.
Историческая справка [ править ]
Хотя психологи и преподаватели до Второй мировой войны знали о нескольких аспектах валидности, их методы определения валидности обычно ограничивались корреляцией результатов тестов с некоторыми известными критериями. [7] Под руководством Ли Кронбаха в Технических рекомендациях по психологическим тестам и диагностическим методам 1954 г. [6] предпринята попытка прояснить и расширить сферу действия, разделив ее на четыре части: (а) одновременная валидность , (б) прогностическая валидность. , (c) достоверность содержания и (d) достоверность конструкции . Последующая публикация Кронбаха и Мила [8]сгруппировали предсказательную и параллельную валидность в «критериальную ориентацию», которая в конечном итоге стала критериальной валидностью .
В течение следующих четырех десятилетий многие теоретики, включая самого Кронбаха [9], выражали свое недовольство этой моделью достоверности «три в одном». [10] [11] [12] Кульминацией их аргументов стала статья Сэмюэля Мессика 1995 года, в которой обоснованность описывалась как единственная конструкция, состоящая из шести «аспектов». [3] По его мнению, для различных выводов, сделанных на основании результатов тестов, могут потребоваться разные типы доказательств, но не разная достоверность.
Стандарты образовательного и психологического тестирования 1999 г. [1] в значительной степени систематизировали модель Мессика. Они описывают пять типов подтверждающих валидность свидетельств, которые включают каждый из аспектов Мессика, и не упоминают содержание классических моделей, критерии и конструктивные валидности.
Процесс проверки [ править ]
Согласно Стандартам 1999 г. [1] валидация - это процесс сбора доказательств, обеспечивающих «прочную научную основу» для интерпретации оценок, предложенных разработчиком теста и / или пользователем теста. Таким образом, валидация начинается с структуры, которая определяет объем и аспекты (в случае многомерных шкал) предлагаемой интерпретации. Структура также включает рациональное обоснование, связывающее интерпретацию с рассматриваемым тестом.
Затем исследователи валидности перечисляют ряд утверждений, которые должны быть выполнены, чтобы интерпретация была валидной. Или, наоборот, они могут составить список вопросов, которые могут поставить под угрозу обоснованность интерпретаций. В любом случае исследователи продолжают сбор доказательств - будь то оригинальное эмпирическое исследование, метаанализ или обзор существующей литературы, или логический анализ проблем - чтобы поддержать или подвергнуть сомнению предложения интерпретации (или угрозы валидности интерпретации). . Упор делается на качество, а не количество доказательств.
Для единственной интерпретации любого результата теста может потребоваться, чтобы несколько утверждений были верными (или может быть поставлено под сомнение любой из множества угроз его достоверности). Веские доказательства в поддержку одного утверждения не отменяют требования в поддержку других утверждений.
Доказательства, подтверждающие (или ставящие под сомнение) обоснованность интерпретации, можно разделить на одну из пяти категорий:
- Доказательства, основанные на содержании теста
- Доказательства, основанные на процессах реагирования
- Доказательства, основанные на внутренней структуре
- Доказательства, основанные на отношениях с другими переменными
- Доказательства, основанные на последствиях тестирования
Методы сбора доказательств каждого типа следует использовать только тогда, когда они дают информацию, которая поддерживает или ставит под сомнение утверждения, необходимые для рассматриваемой интерпретации.
В конце концов, каждое свидетельство объединяется в аргумент о достоверности. Аргумент может потребовать пересмотра теста, протокола его администрирования или теоретических построений, лежащих в основе интерпретаций. Если тест и / или интерпретация результатов каким-либо образом пересматриваются, новый процесс проверки должен собрать доказательства для поддержки новой версии.
См. Также [ править ]
Ссылки [ править ]
- ^ a b c d Американская ассоциация исследований в области образования, Американская психологическая ассоциация и Национальный совет по измерениям в образовании. (1999) Стандарты образовательного и психологического тестирования . Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
- ^ Guion, RM (1980). О тринитарных доктринах действительности. Профессиональная психология, 11 , 385-398.
- ^ a b c d Мессик, С. (1995). Достоверность психологической оценки: Подтверждение выводов, сделанных на основе ответов и действий людей, в качестве научного исследования значения баллов. Американский психолог, 50 , 741-749.
- ^ Popham, WJ (2008). Все об оценке / Непонятый Грааль. Образовательное лидерство, 66 (1), 82-83.
- ^ См. Отличный текст: Nitko, JJ, Brookhart, SM (2004). Образовательная оценка студентов . Река Аппер Сэдл, штат Нью-Джерси: Зал Меррилл-Прентис.
- ^ a b Американская психологическая ассоциация, Американская ассоциация исследований в области образования и Национальный совет по измерениям в образовании. (1954). Технические рекомендации по психологическим тестам и диагностическим методикам . Вашингтон, округ Колумбия: Ассоциация.
- ^ Angoff, WH (1988). Действительность: развивающаяся концепция. В H. Wainer & H. Braun (Eds.), Test Validity (стр. 19-32). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
- ^ Кронбах, LJ, & Meehl, ПЭ (1955). Постройте валидность в психологических тестах. Психологический бюллетень, 52 , 281-302.
- ^ Cronbach, LJ (1969). Утверждение воспитательных мероприятий. Труды Приглашающей конференции 1969 г. по задачам тестирования. Принстон , штат Нью-Джерси: Служба образовательного тестирования, 35-52.
- ^ Левинджер, J. (1957). Объективные тесты как инструменты психологической теории. Психологические отчеты, 3 , 634-694.
- ^ Tenopyr, ML (1977). Путаница при построении содержания. Психология персонала, 30 , 47-54.
- ^ Guion, RM (1977). Достоверность содержания - источник моего недовольства. Прикладное психологическое измерение, 1 , 1-10.