Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Достоверность теста - это степень, в которой тест (например, химический , физический или учебный ) точно измеряет то, что он должен измерять. В области психологического тестирования и образовательного тестирования «валидность означает степень, в которой доказательства и теория поддерживают интерпретацию результатов тестов, вытекающую из предлагаемого использования тестов». [1] Несмотря на то, классические модели разделить эту концепцию в различные «сроки действия» (например, действия контента , критерий достоверности и валидности ), [2]в настоящее время преобладает точка зрения, согласно которой действительность - это единственная унитарная конструкция. [3]

Валидность обычно считается наиболее важным вопросом в психологическом и образовательном тестировании [4], потому что это касается значения результатов тестирования. [3] Хотя во многих учебниках валидность представлена ​​как статическая конструкция, [5] со времени первых опубликованных рекомендаций по построению психологических и образовательных тестов возникли различные модели валидности. [6] Эти модели можно разделить на две основные группы: классические модели, которые включают несколько типов валидности, и современные модели, которые представляют валидность как единую конструкцию. Современные модели реорганизуют классические «валидности» либо в «аспекты» валидности [3], либо в «типы» свидетельств, подтверждающих валидность [1]

Тест действительность сама по себе может быть проверен / подтверждено с помощью тестов надежности между показателями , надежностью внутри оценщик , повторяемостью (повторного тестирования надежности), а также других признаков, как правило , через несколько прогонов теста, результаты которого сравниваются. Статистический анализ помогает определить, являются ли различия между различными результатами достаточно большими, чтобы создать проблему, или приемлемо малыми.

Историческая справка [ править ]

Хотя психологи и преподаватели до Второй мировой войны знали о нескольких аспектах валидности, их методы определения валидности обычно ограничивались корреляцией результатов тестов с некоторыми известными критериями. [7] Под руководством Ли Кронбаха в Технических рекомендациях по психологическим тестам и диагностическим методам 1954 г. [6] предпринята попытка прояснить и расширить сферу действия, разделив ее на четыре части: (а) одновременная валидность , (б) прогностическая валидность. , (c) достоверность содержания и (d) достоверность конструкции . Последующая публикация Кронбаха и Мила [8]сгруппировали предсказательную и параллельную валидность в «критериальную ориентацию», которая в конечном итоге стала критериальной валидностью .

В течение следующих четырех десятилетий многие теоретики, включая самого Кронбаха [9], выражали свое недовольство этой моделью достоверности «три в одном». [10] [11] [12] Кульминацией их аргументов стала статья Сэмюэля Мессика 1995 года, в которой обоснованность описывалась как единственная конструкция, состоящая из шести «аспектов». [3] По его мнению, для различных выводов, сделанных на основании результатов тестов, могут потребоваться разные типы доказательств, но не разная достоверность.

Стандарты образовательного и психологического тестирования 1999 г. [1] в значительной степени систематизировали модель Мессика. Они описывают пять типов подтверждающих валидность свидетельств, которые включают каждый из аспектов Мессика, и не упоминают содержание классических моделей, критерии и конструктивные валидности.

Процесс проверки [ править ]

Согласно Стандартам 1999 г. [1] валидация - это процесс сбора доказательств, обеспечивающих «прочную научную основу» для интерпретации оценок, предложенных разработчиком теста и / или пользователем теста. Таким образом, валидация начинается с структуры, которая определяет объем и аспекты (в случае многомерных шкал) предлагаемой интерпретации. Структура также включает рациональное обоснование, связывающее интерпретацию с рассматриваемым тестом.

Затем исследователи валидности перечисляют ряд утверждений, которые должны быть выполнены, чтобы интерпретация была валидной. Или, наоборот, они могут составить список вопросов, которые могут поставить под угрозу обоснованность интерпретаций. В любом случае исследователи продолжают сбор доказательств - будь то оригинальное эмпирическое исследование, метаанализ или обзор существующей литературы, или логический анализ проблем - чтобы поддержать или подвергнуть сомнению предложения интерпретации (или угрозы валидности интерпретации). . Упор делается на качество, а не количество доказательств.

Для единственной интерпретации любого результата теста может потребоваться, чтобы несколько утверждений были верными (или может быть поставлено под сомнение любой из множества угроз его достоверности). Веские доказательства в поддержку одного утверждения не отменяют требования в поддержку других утверждений.

Доказательства, подтверждающие (или ставящие под сомнение) обоснованность интерпретации, можно разделить на одну из пяти категорий:

  1. Доказательства, основанные на содержании теста
  2. Доказательства, основанные на процессах реагирования
  3. Доказательства, основанные на внутренней структуре
  4. Доказательства, основанные на отношениях с другими переменными
  5. Доказательства, основанные на последствиях тестирования

Методы сбора доказательств каждого типа следует использовать только тогда, когда они дают информацию, которая поддерживает или ставит под сомнение утверждения, необходимые для рассматриваемой интерпретации.

В конце концов, каждое свидетельство объединяется в аргумент о достоверности. Аргумент может потребовать пересмотра теста, протокола его администрирования или теоретических построений, лежащих в основе интерпретаций. Если тест и / или интерпретация результатов каким-либо образом пересматриваются, новый процесс проверки должен собрать доказательства для поддержки новой версии.

См. Также [ править ]

Ссылки [ править ]

  1. ^ a b c d Американская ассоциация исследований в области образования, Американская психологическая ассоциация и Национальный совет по измерениям в образовании. (1999) Стандарты образовательного и психологического тестирования . Вашингтон, округ Колумбия: Американская ассоциация исследований в области образования.
  2. ^ Guion, RM (1980). О тринитарных доктринах действительности. Профессиональная психология, 11 , 385-398.
  3. ^ a b c d Мессик, С. (1995). Достоверность психологической оценки: Подтверждение выводов, сделанных на основе ответов и действий людей, в качестве научного исследования значения баллов. Американский психолог, 50 , 741-749.
  4. ^ Popham, WJ (2008). Все об оценке / Непонятый Грааль. Образовательное лидерство, 66 (1), 82-83.
  5. ^ См. Отличный текст: Nitko, JJ, Brookhart, SM (2004). Образовательная оценка студентов . Река Аппер Сэдл, штат Нью-Джерси: Зал Меррилл-Прентис.
  6. ^ a b Американская психологическая ассоциация, Американская ассоциация исследований в области образования и Национальный совет по измерениям в образовании. (1954). Технические рекомендации по психологическим тестам и диагностическим методикам . Вашингтон, округ Колумбия: Ассоциация.
  7. ^ Angoff, WH (1988). Действительность: развивающаяся концепция. В H. Wainer & H. Braun (Eds.), Test Validity (стр. 19-32). Хиллсдейл, Нью-Джерси: Лоуренс Эрлбаум.
  8. ^ Кронбах, LJ, & Meehl, ПЭ (1955). Постройте валидность в психологических тестах. Психологический бюллетень, 52 , 281-302.
  9. ^ Cronbach, LJ (1969). Утверждение воспитательных мероприятий. Труды Приглашающей конференции 1969 г. по задачам тестирования. Принстон , штат Нью-Джерси: Служба образовательного тестирования, 35-52.
  10. ^ Левинджер, J. (1957). Объективные тесты как инструменты психологической теории. Психологические отчеты, 3 , 634-694.
  11. ^ Tenopyr, ML (1977). Путаница при построении содержания. Психология персонала, 30 , 47-54.
  12. ^ Guion, RM (1977). Достоверность содержания - источник моего недовольства. Прикладное психологическое измерение, 1 , 1-10.