Матрица терминов документов

^[1] Матрица терминов документов — это математическая матрица , описывающая частоту терминов, встречающихся в наборе документов. В матрице терминов документов строки соответствуют документам в коллекции, а столбцы — терминам. Эта матрица является частным случаем матрицы характеристик документа, где «характеристики» могут относиться к другим свойствам документа помимо терминов. ^[2] Также часто встречается транспонированная матрица, или матрица термин-документ, где документы представляют собой столбцы, а термины — строки. Они полезны в области обработки естественного языка и компьютерного анализа текста . ^[3]

В то время как значение ячеек обычно представляет собой необработанное количество данного термина, существуют различные схемы взвешивания необработанных значений, такие как нормализация строк (т. е. относительная частота/пропорции) и tf-idf .

Термины обычно представляют собой отдельные слова, разделенные пробелами или знаками препинания с обеих сторон (так называемые униграммы). В таком случае это также называется представлением «мешка слов», поскольку сохраняется количество отдельных слов, но не порядок слов в документе.

При создании набора терминов , которые появляются в корпусе документов , матрица терминов документа содержит строки, соответствующие документам, и столбцы, соответствующие терминам. Таким образом, каждая ячейка ij представляет собой количество раз, когда слово j встречается в документе i . Таким образом, каждая строка представляет собой вектор количества терминов, который представляет содержимое документа, соответствующего этой строке. Например, если у вас есть следующие два (коротких) документа:

который показывает, какие документы содержат какие термины и сколько раз они встречаются. Обратите внимание, что, в отличие от представления документа просто как списка токенов, матрица терминов документа включает все термины в корпусе (т. е. словарь корпуса), поэтому для терминов в корпусе, происходят в конкретном документе.

В результате степенного распределения токенов почти в каждом корпусе (см. Закон Ципфа ) принято взвешивать подсчеты. Это может быть так же просто, как деление счетчиков на общее количество токенов в документе (называемое относительной частотой или пропорциями), деление на максимальную частоту в каждом документе (называемое максимальным значением) или получение журнала частот (называемого логарифмическим счетчиком). . Если кто-то хочет взвесить слова, наиболее уникальные для отдельного документа по сравнению с корпусом в целом, обычно используется tf-idf , который делит частоту термина на частоту термина в документе.