Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Конструктивная валидность - это «степень, в которой тест измеряет то, что он утверждает или претендует на измерение». [1] [2] [3] [4] В классической модели тестовой действительности , конструкция действие является одним из трех основных типов доказательств действия, наряду с содержанием действия и критерием достоверности . [5] [6] Современная теория валидности определяет конструктную валидность как всеобъемлющую задачу исследования валидности, включая все другие типы свидетельств валидности. [7] [8]

Валидность конструкции - это уместность выводов, сделанных на основе наблюдений или измерений (часто результатов тестов), в частности, измеряет ли тест предполагаемый конструкт . Конструкции - это абстракции, которые намеренно создаются исследователями для концептуализации скрытой переменной , которая коррелирует с оценками по заданному показателю (хотя напрямую не наблюдается). Валидность конструкции исследует вопрос: ведет ли мера так, как согласно теории, мера этой конструкции должна вести себя?

Конструктивная валидность важна для воспринимаемой общей валидности теста. Конструктивная валидность особенно важна в социальных науках , психологии , психометрии и языковых исследованиях.

Психологи, такие как Сэмюэл Мессик (1998), настаивают на едином взгляде на конструктную валидность «... как интегрированное оценочное суждение о степени, в которой эмпирические данные и теоретические обоснования подтверждают адекватность и уместность выводов и действий, основанных на результатах тестов. .. » [9] Ключом к построению достоверности являются теоретические идеи, лежащие в основе рассматриваемой характеристики, то есть концепции, которые организуют рассмотрение аспектов личности , интеллекта и т.д. [10] Пол Мил утверждает, что «Лучшая конструкция - это та, вокруг которой мы можем построить наибольшее количество умозаключений самым непосредственным образом». [3]

Очистка шкалы, то есть «процесс исключения элементов из многопозиционных шкал» (Wieland et al., 2017), может повлиять на валидность конструкции. Фреймворк, представленный Wieland et al. (2017) подчеркивает, что при принятии решений по очистке от шкалы необходимо учитывать как статистические, так и оценочные критерии. [11]

История [ править ]

На протяжении 1940-х годов ученые пытались придумать способы подтверждения экспериментов до их публикации. Результатом этого стало множество различных значений ( внутренняя достоверность , внешняя достоверность , логическая достоверность , эмпирическая достоверность)., так далее.). Из-за этого было трудно сказать, какие из них были на самом деле одинаковыми, а какие вообще бесполезны. До середины 1950-х годов существовало очень мало общепринятых методов подтверждения психологических экспериментов. Основная причина этого заключалась в том, что никто не выяснил, какие именно качества экспериментов следует учитывать перед публикацией. Между 1950 и 1954 годами комитет АПА по психологическим тестам встречался и обсуждал вопросы, связанные с подтверждением психологических экспериментов. [3]

Примерно в это же время термин конструктивная валидность был впервые введен в употребление Полом Милом и Ли Кронбахом в их основополагающей статье «Конструирование валидности в психологических тестах». Они отметили идею о том, что конструктная валидность не была новой в тот момент; скорее, это была комбинация множества различных типов достоверности теоретических концепций. Они предложили следующие три шага для оценки валидности конструкции:

  1. формулирование набора теоретических концепций и их взаимосвязей
  2. разработка способов измерения гипотетических конструкций, предложенных теорией
  3. эмпирическая проверка предполагаемых соотношений [3]

Многие психологи отметили, что важная роль проверки конструктов в психометрии заключалась в том, что она уделяла больше внимания теории, а не проверке. Основная проблема с валидацией заключалась в том, что тест можно было валидировать, но это не обязательно показывало, что он измеряет теоретическую конструкцию, которую он должен измерять. Конструктивная валидность имеет три аспекта или компонента: существенный компонент, структурный компонент и внешний компонент. [12] Они тесно связаны с тремя этапами в процессе построения теста: составление пула заданий, анализ и выбор внутренней структуры пула заданий и корреляция результатов теста с критериями и другими переменными.

В 1970-х годах росли споры между теоретиками, которые начали рассматривать конструктную валидность как доминирующую модель, стремящуюся к более единой теории валидности, и теми, кто продолжал работать в рамках множественной валидности. [13] Многие психологи и исследователи образования видели «прогнозирующие, одновременно, и содержание сроков действия , как по существу , специальными , конструкт действительность была всей действительность , с научной точки зрения» [12] В версии 1974 года The стандартов для образовательного и психологического Тестирование была признана взаимосвязь трех различных аспектов действительности: «Эти аспекты действительности могут обсуждаться независимо, но только для удобства. Они взаимосвязаны оперативно и логически; лишь в редких случаях один из них сам по себе важен в конкретной ситуации».

В 1989 году Мессик представил новую концепцию конструктной валидности как единой и многогранной концепции. [14] В соответствии с этой структурой все формы достоверности связаны с качеством конструкции и зависят от нее. Он отметил, что единая теория была не его собственной идеей, а, скорее, кульминацией дебатов и дискуссий в научном сообществе на протяжении предшествующих десятилетий. В единой теории конструктной валидности Мессика есть шесть аспектов конструктной валидности: [15]

  1. Как следствие - каковы потенциальные риски, если оценки недействительны или неправильно интерпретированы? Стоит ли тест с учетом рисков?
  2. Контент. Похоже, что тестовые задания измеряют интересующую конструкцию?
  3. Существенный - является ли теоретическая основа, лежащая в основе интересующей конструкции, надежной?
  4. Структурный - коррелируют ли взаимосвязи измерений, измеряемых в тесте, с интересующей конструкцией и результатами теста?
  5. Внешний - обладает ли тест конвергентными, дискриминантными и предсказательными качествами?
  6. Обобщаемость - обобщается ли тест по различным группам, настройкам и задачам?

Как правильно рассматривать конструктную валидность, все еще остается предметом споров для теоретиков валидности. Суть различия заключается в эпистемологической разнице между позитивистскими и постпозитивистскими теоретиками.

Оценка [ править ]

Оценка валидности конструкта требует, чтобы корреляции меры были исследованы в отношении переменных, которые, как известно, связаны с конструктом (предположительно измеряются оцениваемым инструментом или для которых есть теоретические основания ожидать, что они связаны). Это согласуется с матрицей мультитрейт-мультиметодов (MTMM) проверки валидности конструкции, описанной в знаменательной статье Кэмпбелла и Фиске (1959). [16] Помимо MTMM, существуют и другие методы оценки достоверности конструкции. Его можно оценить с помощью различных форм факторного анализа , моделирования структурных уравнений (SEM) и других статистических оценок. [17] [18]Важно отметить, что одно исследование не доказывает конструктную валидность. Скорее, это непрерывный процесс оценки, переоценки, уточнения и развития. Корреляции, которые соответствуют ожидаемому шаблону, являются свидетельством валидности конструкции. Конструктивная валидность - это суждение, основанное на накоплении корреляций из многочисленных исследований с использованием оцениваемого инструмента. [19]

Большинство исследователей пытаются проверить валидность конструкции перед основным исследованием. Для этого могут быть использованы пилотные исследования . Пилотные исследования - это небольшие предварительные исследования, направленные на проверку возможности проведения полномасштабных испытаний. Эти пилотные исследования подтверждают эффективность их исследований и позволяют им вносить любые необходимые коррективы. Другой метод - это метод известных групп, который включает в себя назначение измерительного прибора группам, которые, как ожидается, будут различаться из-за известных характеристик. Проверка гипотетических отношений включает логический анализ, основанный на теории или предшествующих исследованиях. [4] Интервенционные исследования- еще один метод оценки достоверности конструкции. Исследования интервенций, в которых группа с низкими баллами в конструкции тестируется, обучается этой конструкции и затем повторно измеряется, могут продемонстрировать валидность конструкции теста. Если есть существенные различия до и после тестирования, которые анализируются с помощью статистических тестов, то это может продемонстрировать хорошую валидность конструкции. [20]

Конвергентная и дискриминантная достоверность [ править ]

Конвергентная и дискриминантная валидность - это два подтипа валидности, которые составляют валидность конструкции. Конвергентная валидность относится к степени, в которой две меры конструктов, которые теоретически должны быть связаны, на самом деле связаны. Напротив, дискриминантная валидность проверяет, действительно ли понятия или измерения, которые, как предполагается, не связаны между собой, не связаны. [16]Возьмем, к примеру, конструкцию всеобщего счастья. Если мера общего счастья имеет конвергентную значимость, то конструкции, подобные счастью (удовлетворение, довольство, жизнерадостность и т. Д.), Должны положительно относиться к мере общего счастья. Если эта мера имеет дискриминантную валидность, то конструкции, которые не должны иметь положительного отношения к общему счастью (печаль, депрессия, отчаяние и т. Д.), Не должны относиться к мерам общего счастья. Меры могут иметь один из подтипов конструктной валидности, но не другой. Используя пример общего счастья, исследователь может создать инвентарь, в котором существует очень высокая положительная корреляция между общим счастьем и удовлетворенностью, но если есть также значимая положительная корреляция между счастьем и депрессией, тогда мера ' Под сомнением ставится конструктивная валидность. Тест имеет сходящуюся достоверность, но не дискриминантную достоверность.

Номологическая сеть [ править ]

Ли Кронбах и Пол Мил (1955) [3] предположили, что разработка номологической сети была важна для измерения валидности конструкции теста. Номологическая сеть определяет конструкцию, иллюстрируя его отношение к другим конструкциям и поведению. Это представление концепций (конструкций), представляющих интерес в исследовании, их наблюдаемых проявлений и взаимосвязи между ними. Он проверяет, рассматриваются ли отношения между подобными конструкциями и отношения между наблюдаемыми показателями конструктов. Тщательное наблюдение за отношениями конструкций друг к другу может порождать новые конструкции. Например, интеллект и рабочая память.считаются тесно связанными конструкциями. Наблюдая за лежащими в их основе компонентами, психологи разработали новые теоретические конструкции, такие как контролируемое внимание [21] и краткосрочная нагрузка. [22] Создание номологической сети может также сделать наблюдение и измерение существующих конструкций более эффективным путем выявления ошибок. [3] Исследователи обнаружили, что при изучении шишек на черепе человека ( френология) являются показателями не интеллекта, а объема мозга. Удаление теории френологии из номологической сети интеллекта и добавление теории эволюции массы мозга делают конструкции интеллекта более эффективными и мощными. Сплетение всех этих взаимосвязанных концепций и их наблюдаемых черт создает «сеть», которая поддерживает их теоретическую концепцию. Например, в номологической сети академических достижений мы ожидаем, что наблюдаемые черты академической успеваемости (например, баллы GPA, SAT и ACT) будут связаны с наблюдаемыми чертами прилежания (часы, потраченные на обучение, внимательность в классе, детализация заметок). . В противном случае возникает проблема с измерением ( академической успеваемости).или прилежание), или с предполагаемой теорией достижений. Если они являются индикаторами друг друга, то номологическая сеть и, следовательно, построенная теория академических достижений усиливается. Хотя номологическая сеть предложила теорию усиления конструктов, она не говорит нам, как мы можем оценить валидность конструктов в исследовании.

Матрица мультитрейт-мультиметод [ править ]

Multitrait-мультиметод матрица (MTMM) является подход к изучению конструктивной валидности разработанной Кэмпбелл и Фиск (1959). [16] Эта модель исследует конвергенцию (свидетельство того, что разные методы измерения конструкции дают аналогичные результаты) и различимость (способность отличать конструкцию от других связанных конструкций). Он измеряет шесть признаков: оценку конвергентной валидности, оценку дискриминантной (дивергентной) валидности, единицы метода признака, мультитрейт-мультиметоды, действительно разные методологии и характеристики признаков. Такой план позволяет исследователям проверять: «сходимость различных мер ... одной и той же« вещи »... и расхождения между показателями ... связанных, но концептуально различных« вещей ». [23] [24]

Угрозы конструирования действительности [ править ]

Очевидная валидность конструкции может вводить в заблуждение из-за ряда проблем при формулировании гипотез и дизайне экспериментов.

  • Угадывание гипотезы : если участник знает или угадывает желаемый конечный результат, действия участника могут измениться. [25] Примером может служить эффект Хоторна : в 1925 году в исследовании промышленной эргономики, проведенном на заводе в Хоторн Воркс за пределами Чикаго, экспериментаторы отметили, что как снижение, так и повышение яркости окружающего света повышают производительность труда. В конце концов они определили основу для этого парадоксального результата: работники, которые знали, что за ними наблюдают, работали усерднее, несмотря на изменения в окружающей среде.
  • Предвзятость в дизайне эксперимента (преднамеренная или непреднамеренная). Пример этого можно найти в книге Стивена Джея Гулда 1981 года « Неправильное измерение человека ». [26] Среди вопросов, которые использовались во время Первой мировой войны в батарее для измерения интеллекта, был: «В каком городе играют Доджеры?» (тогда они базировались в Бруклине). Недавние иммигранты в США из Восточной Европы, незнакомые с бейсбольным спортом, получили неправильный ответ, и это было использовано для вывода, что у восточноевропейцев был более низкий интеллект. Этот вопрос не измерял интеллект: он только измерял, сколько времени человек прожил в США и приобщился к популярному времяпрепровождению.
  • Ожидания исследователя могут непреднамеренно сообщаться участникам невербально, вызывая желаемый эффект. Чтобы исключить эту возможность, по возможности следует использовать схемы двойного слепого эксперимента. То есть оценщик конкретного участника не должен знать, какое вмешательство было выполнено на этом конкретном участнике, или должен быть независимым от экспериментатора.
  • Слишком узкое определение прогнозируемого результата . [27] Например, использование только удовлетворенности работой для измерения счастья исключает релевантную информацию извне.
  • Смешивающие переменные (ковариаты): основная причина наблюдаемых эффектов может быть связана с переменными, которые не были учтены или измерены. [28]

Подробное исследование угроз для построения обоснованности представлено в Trochim. [29]

См. Также [ править ]

  • Достоверность статистического заключения
  • Внутренняя валидность
  • Экологическая ценность
  • Содержание действия
  • Внешняя валидность
  • Надежность (психометрия)
  • Действительность лица
  • Логическая обоснованность
  • Заблуждения о джинглах
  • Ли Дж. Кронбах
  • Пол Э. Мил

Ссылки [ править ]

  1. ^ Келли, Трумэн Ли (1927). Интерпретация образовательных измерений . Нью-Йорк: Мировая книга.
  2. ^ Браун, JD (1996). Тестирование по языковым программам . Река Аппер Сэдл, Нью-Джерси: Регенты Prentice Hall.
  3. ^ Б с д е е Кронбахами, LJ; Meehl, PE (1955). «Конструировать валидность в психологических тестах» . Психологический бюллетень . 52 (4): 281–302. DOI : 10.1037 / h0040957 . ЛВП : 11299/184279 . PMID 13245896 . 
  4. ^ a b Полит DF Beck CT (2012). Медсестринское исследование: создание и оценка доказательств для сестринской практики, 9-е изд. Филадельфия, США: Wolters Klower Health, Lippincott Williams & Wilkins
  5. ^ Guion, RM (1980). «О тринитарных учениях справедливости». Профессиональная психология . 11 (3): 385–398. DOI : 10.1037 / 0735-7028.11.3.385 .
  6. ^ Браун, JD (1996). Тестирование по языковым программам . Река Аппер Сэдл, Нью-Джерси: Регенты Prentice Hall.
  7. ^ Мессик, S. (1995). «Достоверность психологической оценки: подтверждение выводов из ответов и действий людей в качестве научного исследования значения баллов». Американский психолог . 50 (9): 741–749. DOI : 10.1037 / 0003-066x.50.9.741 .
  8. ^ Schotte, CKW; Maes, M .; Cluydts, R .; De Doncker, D .; Cosyns, P. (1997). «Построить достоверность инвентаризации депрессии Бека в депрессивном населении». Журнал аффективных расстройств . 46 (2): 115–125. DOI : 10.1016 / s0165-0327 (97) 00094-3 .
  9. ^ Мессик, Сэмюэл (1998). «Срок действия теста: вопрос последствий». Исследование социальных показателей . 45 (1–3): 35–44. DOI : 10.1023 / а: 1006964925094 .
  10. ^ Пеннингтон, Дональд (2003). Существенная личность . Арнольд. ISBN 978-0-340-76118-2.
  11. ^ Виланд, А., Дурач, С.Ф., Кембро, Дж. И Трейблмайер, Х. (2017), Статистические и оценочные критерии для очистки от накипи, Управление цепочкой поставок, Vol. 22, № 4, https://doi.org/10.1108/SCM-07-2016-0230
  12. ^ a b Loevinger J (1957). «Объективные тесты как инструменты психологической теории: приложение 9 к монографии». Психологические отчеты . 3 (3): 635–694. DOI : 10,2466 / pr0.1957.3.3.635 .
  13. Перейти ↑ Kane, MT (2006). "Проверка". Образовательные измерения . 4 : 17–64.
  14. ^ Мессик, S. (1989). "Срок действия.". В RL Linn (ред.). Образовательные измерения (3-е изд.). Нью-Йорк: Американский совет по образованию / Macmillan. С. 13–103.
  15. ^ Мессик, S. (1995). «Стандарты действительности и валидности стандартов при оценке эффективности». Образовательные измерения: проблемы и практика . 14 (4): 5–8. DOI : 10.1111 / j.1745-3992.1995.tb00881.x .
  16. ^ a b c Кэмпбелл Д. Т. (1959). «Конвергентная и дискриминантная проверка с помощью матрицы мультитрейт-мультиметод». Психологический бюллетень . 56 (2): 81–105. DOI : 10.1037 / h0046016 .
  17. Перейти ↑ Hammond, KR, Hamm, RM, & Grassia, J. (1986). Обобщение условий путем комбинирования многопроходной многометодной матрицы и репрезентативного плана экспериментов (№ CRJP-255A). Университет Колорадо в Центре исследований суждений и политики в Боулдере.
  18. ^ Вестен Дрю; Розенталь Роберт (2003). «Количественная оценка достоверности конструкции: две простые меры» . Журнал личности и социальной психологии . 84 (3): 608–618. DOI : 10.1037 / 0022-3514.84.3.608 .
  19. Перейти ↑ Peter, JP (1981). Construct validity: обзор основных вопросов и методов маркетинга. Журнал маркетинговых исследований, 133–145.
  20. ^ Димитров Д.М.; Rumrill Jr PD (2003). «Претест-посттестовые планы и измерение изменений». Работа: журнал профилактики, оценки и реабилитации . 20 (2): 159–165.
  21. ^ Энгл, RW, Кейн, МДж, & Tuholski, SW (1999). Индивидуальные различия в объеме рабочей памяти и в том, что они говорят нам о контролируемом внимании, общем жидком интеллекте и функциях префронтальной коры. В А. Мияке и П. Шах (ред.), Модели рабочей памяти (стр. 102–134). Кембридж: Издательство Кембриджского университета.
  22. ^ Ackerman PL; Beier ME; Бойл МО (2002). «Индивидуальные различия в рабочей памяти в номологической сети когнитивных и скоростных способностей восприятия». Журнал экспериментальной психологии: Общие . 131 (4): 567–589. DOI : 10.1037 / 0096-3445.131.4.567 .
  23. ^ Повар TD; Кэмпбелл Д.Т. (1979). Квази-экспериментирование . Бостон: Хоутон Миффлин.
  24. ^ Эджингтон, Е. С. (1974). «Новая таблица статистических процедур, используемых в журналах APA». Американский психолог . 29 : 61. DOI : 10,1037 / h0035846 .
  25. ^ McCroskey, JC, Richmond, VP, и McCroskey, LL (2006). Введение в общение в классе: роль общения в обучении и обучении. Бостон: Аллин и Бэкон
  26. Перейти ↑ Gould, SJ (1996). Ошибочное измерение человека. 2-е издание. Нью-Йорк: WW Norton & Company.
  27. Перейти ↑ MacKenzie SB (2003). «Опасности плохой концептуализации конструкта». Журнал Академии маркетинговых наук . 31 (3): 323–326. CiteSeerX 10.1.1.417.7311 . DOI : 10.1177 / 0092070303031003011 . 
  28. ^ Белый D .; Халтквист Р.А. (1965). «Построение смешанных планов для смешанных факторных планов» . Летопись математической статистики . 36 (4): 1256–1271. DOI : 10.1214 / АОМ / 1177699997 .
  29. ^ Угрозы для создания достоверности, Trochim, Уильям М. База знаний о методах исследования, 2-е издание.

Внешние ссылки [ править ]

  • Полезный справочник по условиям исследования
  • Обеспечивает визуальное представление номологической сети