Термин дискриминация


Этот метод похож на tf-idf, но он связан с поиском ключевых слов, подходящих для поиска информации , и тех, которые не подходят. Сначала обратитесь к векторной космической модели .

В этом методе используется концепция плотности векторного пространства , заключающаяся в том, что чем менее плотна матрица вхождений , тем лучше будет запрос на поиск информации.

Оптимальный индексный термин — это термин, который может отличить два разных документа друг от друга и связать два похожих документа. С другой стороны, неоптимальный термин индекса не может отличить два разных документа от двух похожих документов.

Значение различения — это разница в плотности векторного пространства матрицы вхождения по сравнению с плотностью векторного пространства той же матрицы без плотности члена индекса.

Учитывая матрицу вхождения : и одно ключевое слово:

Редкие ключевые слова должны быть плохими дискриминаторами, потому что они плохо запоминаются , тогда как частые ключевые слова должны быть плохими дискриминаторами, потому что они имеют низкую точность .