Чрезмерная категоризация, чрезмерная категоризация или беспорядок в категориях - это процесс присвоения слишком большого количества категорий, классов или терминов индекса для данного документа . Это связано с концепциями классификации документов и предметной индексации в библиотеке и информатике (LIS) .
В LIS идеальное количество терминов, которые должны быть назначены для классификации элемента, измеряется точностью и полнотой переменных . Назначение нескольких меток категорий, наиболее тесно связанных с содержимым классифицируемого элемента, приведет к поиску с высокой точностью, то есть, когда большая часть результатов тесно связана с запросом. Назначение большего количества ярлыков категорий для каждого элемента снизит точность каждого поиска, но увеличит запоминание, получая более релевантные результаты. Связанные концепции LIS включают исчерпывающую индексацию и информационную перегрузку .
Основные принципы
Если данному документу присвоено слишком много категорий, последствия для пользователей зависят от того, насколько информативны ссылки. Если пользователь может различать полезные и бесполезные ссылки, ущерб ограничен: пользователь тратит время только на выбор ссылок. Однако во многих случаях пользователь не может судить, окажется ли данная ссылка полезной. В этом случае он или она должны перейти по ссылке и прочитать или просмотреть другой документ. В худшем случае, конечно, даже после прочтения нового документа пользователь не может решить, может ли он быть полезным, если его предмет не будет тщательно исследован.
Избыточная категоризация также имеет еще одно неприятное значение: это затрудняет последовательное поддержание системы (например, в Википедии ) . Если система несовместима, это означает, что, когда пользователь рассматривает ссылки в данной категории, он или она не найдет все документы, относящиеся к этой категории.
По сути, проблему чрезмерной категоризации следует понимать с точки зрения актуальности и традиционных мер вспоминания и точности . Если документу присвоено слишком мало релевантных категорий, отзыв может уменьшиться. Если присвоено слишком много нерелевантных категорий, точность снижается. Сложная задача - сказать, какие категории будут полезны или актуальны для будущего использования документа.