Шкала оценок

По поводу рейтинговых шкал как систем образовательных оценок см. Статьи об образовании в разных странах (под названием «Образование в ...»), например, « Образование в Украине» .

По поводу рейтинговых шкал, используемых в практике медицины, см. Статьи о диагнозах, например, Большое депрессивное расстройство .

Рейтинговая шкала представляет собой набор категорий , предназначенных для получения информации о количественном или качественном атрибуте. В социальных науках , особенно в психологии , распространенными примерами являются шкала ответа Лайкерта и шкала оценок от 1 до 10, в которых человек выбирает число, которое, как считается, отражает воспринимаемое качество продукта .

Задний план

Рейтинговая шкала - это метод, при котором оценщик должен присвоить оцениваемому объекту значение, иногда числовое, в качестве меры некоторого рейтингового атрибута.

Типы рейтинговых шкал

Все рейтинговые шкалы можно разделить на один из следующих типов:

Цифровая рейтинговая шкала (NRS)
Шкала вербальной оценки (VRS)
Визуально-аналоговая шкала (ВАШ)
Likert
Графическая шкала оценок
Описательная графическая шкала оценок

Некоторые данные измеряются на порядковом уровне . Цифры указывают на взаимное расположение предметов, но не на величину различия. Шкалы отношения и мнения обычно порядковые; Одним из примеров является шкала ответов Лайкерта :

Заявление

например, «Я не мог жить без компьютера».

Варианты ответа

Категорически не согласен
Не согласен
Нейтральный
Дать согласие
Полностью согласен

Некоторые данные измеряются на интервальном уровне . Цифры указывают на величину разницы между элементами, но абсолютного нуля нет. Хорошим примером является шкала температур по Фаренгейту / Цельсию, где разница между числами имеет значение, а расположение нуля - нет.

Некоторые данные измеряются на уровне отношения . Цифры указывают величину разницы и фиксированную нулевую точку. Коэффициенты можно рассчитать. Примеры включают возраст, доход, цену, затраты, выручку от продаж, объем продаж и долю на рынке.

Для измерения отношения или восприятия требуется более одного вопроса с рейтинговой шкалой в связи с требованием статистических сравнений между категориями политомической модели Раша для упорядоченных категорий. ^[1] С точки зрения классической теории тестирования , требуется более одного вопроса для получения индекса внутренней надежности, такого как альфа Кронбаха , ^[2] который является основным критерием для оценки эффективности рейтинговой шкалы и, в более общем плане, психометрический инструмент.

Рейтинговые шкалы, используемые в Интернете

Рейтинговые шкалы широко используются в Интернете, чтобы показать мнения потребителей о товарах. Примерами сайтов, использующих шкалы оценок, являются IMDb , Epinions.com , Yahoo! Фильмы , Amazon.com , BoardGameGeek и TV.com, которые используют шкалу оценок от 0 до 100 для получения «персонализированных рекомендаций по фильмам».

Практически во всех случаях онлайн-шкалы оценок позволяют оценивать только один продукт для каждого пользователя, хотя есть исключения, такие как Ratings.net , который позволяет пользователям оценивать продукты по нескольким качествам. Большинство онлайн-рейтинговых агентств также предоставляют мало или совсем не предоставляют качественных описаний рейтинговых категорий, хотя, опять же, есть исключения, такие как Yahoo! Фильмы , в которых каждая из категорий помечается от F до A +, а BoardGameGeek дает подробное описание каждой категории от 1 до 10. Часто описываются только верхняя и нижняя категории, например, в онлайн-рейтинге IMDb .

Срок действия

Действительность относится к тому, насколько хорошо инструмент измеряет то, что он намеревается измерять. Когда каждый пользователь оценивает продукт только один раз, например, в категории от 1 до 10, нет средств для оценки внутренней надежности с использованием такого индекса, как альфа Кронбаха . Следовательно, невозможно оценить достоверность рейтингов как меры восприятия зрителей. Установление достоверности потребует установления как надежности, так и точности (т. Е. Того, что рейтинги представляют то, что они должны представлять). Степень достоверности инструмента определяется путем применения логических / или статистических процедур. «Процедура измерения действительна в той степени, в которой если измеряет то, что она предлагает измерить».

Еще одна фундаментальная проблема заключается в том, что онлайн-рейтинги обычно включают удобную выборку , как и телевизионные опросы, то есть они представляют только мнения тех, кто склонен выставлять оценки.

Валидность связана с различными аспектами процесса измерения. Каждый из этих типов использует логику, статистическую проверку или и то, и другое для определения степени достоверности и имеет особое значение при определенных условиях. Типы валидности включают валидность контента, предсказуемую валидность и валидность конструкции.

Отбор проб

Ошибки выборки могут привести к результатам, которые имеют определенную систематическую ошибку или относятся только к определенной подгруппе. Рассмотрим следующий пример: предположим, что фильм нравится только специализированной аудитории - 90% из них являются приверженцами этого жанра, и только 10% - люди, которые в целом интересуются кино. Предположим, что фильм очень популярен среди зрителей, и что только те, кто больше всего относится к нему, склонны оценивать его в Интернете; следовательно, все оценщики набираются из числа преданных. Эта комбинация может привести к очень высоким рейтингам фильма, которые не распространяются на людей, которые действительно смотрят фильм (или, возможно, даже на тех, кто действительно оценивает его).

Качественное описание

Качественное описание категорий повышает полезность рейтинговой шкалы. Например, если даны только пункты 1–10 без описания, некоторые люди могут выбирать 10 редко, тогда как другие могут выбирать категорию часто. Если вместо этого «10» описывается как «почти безупречный», категория, скорее всего, будет означать одно и то же для разных людей. Это касается всех категорий, а не только крайних точек.

Вышеупомянутые проблемы усугубляются, когда для списков и ранжирования продуктов используются агрегированные статистические данные, такие как средние значения. Пользовательские рейтинги представляют собой в лучшем случае порядковые номера . Хотя вычисление средних или средних значений таких данных не является чем-то необычным, это не может быть оправдано, потому что при вычислении средних значений требуются равные интервалы для представления одинаковой разницы между уровнями воспринимаемого качества. Ключевые проблемы с агрегированными данными, основанными на типах рейтинговых шкал, обычно используемых в Интернете, заключаются в следующем:

Средние значения не следует рассчитывать для собранных данных.
Обычно невозможно оценить надежность или обоснованность оценок пользователей.
Продукты не сравниваются по явным, не говоря уже об общих ^{[ требуемых разъяснениях ]} критериях.
Только пользователи, желающие выставить оценку продукту, делают это.
Данные обычно не публикуются в форме, позволяющей оценивать рейтинги продуктов.

Более развитые методологии включают моделирование выбора или методы максимальной разницы , причем последний связан с моделью Раша из-за связи между законом сравнительного суждения Терстона ^{[ требуется пояснение ]} и моделью Раша.

Снижение рейтинговой шкалы

Международное совместное исследование ^[3] представило управляемый данными алгоритм для снижения рейтинговых шкал. Он основан на площади под рабочей характеристикой приемника .

Смотрите также

Внешние ссылки

Семантический дифференциал UEQ для измерения пользовательского опыта

[1] Андрич, Дэвид (декабрь 1978). «Формулировка рейтинга для упорядоченных категорий ответов». Психометрика . 43 (4): 561–573. DOI : 10.1007 / BF02293814 . S2CID 120687848 .

[2] Кронбах, Ли Дж. (Сентябрь 1951 г.). "Коэффициент альфа и внутренняя структура тестов". Психометрика . 16 (3): 297–334. CiteSeerX 10.1.1.452.6417 . DOI : 10.1007 / BF02310555 . S2CID 13820448 .

[3] Koczkodaj, Waldemar W; Какиашвили, Т .; Szymańska, A .; Montero-Marin, J .; Araya, R .; Гарсиа-Кампайо, Дж .; Rutkowski, K .; Стшалка, Д. "Как уменьшить количество пунктов рейтинговой шкалы без потери предсказуемости?" . 111 : 581–593 (2017). DOI : 10.1007 / s11192-017-2283-4 . Цитировать журнал требует |journal=( помощь )

[1]