Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Документа Термин матрица представляет собой математическую матрицу , которая описывает частоту терминов , которые происходят в наборе документов. В матрице «документ-термин» строки соответствуют документам в коллекции, а столбцы - терминам. Эта матрица является конкретным экземпляром матрицы характеристик документа, где «характеристики» могут относиться к другим свойствам документа помимо терминов. [1] Также часто встречается транспонирование или матрица терм-документ, где документы - это столбцы, а термины - это строки. Они полезны в области обработки естественного языка и компьютерного анализа текста . [2]Хотя значение ячеек обычно представляет собой необработанное количество заданного члена, существуют различные схемы взвешивания исходных значений, такие как относительная частота / пропорции и tf-idf .

Термины обычно представляют собой отдельные символы, разделенные пробелами или знаками препинания с обеих сторон, или униграммы. В таком случае это также называется представлением «мешок слов», потому что количество отдельных слов сохраняется, но не порядок слов в документе.

Общая концепция [ править ]

При создании набора данных терминов, которые появляются в корпусе документов , матрица документ-термин содержит строки, соответствующие документам, и столбцы, соответствующие терминам. Таким образом, каждая ячейка ij - это количество раз, когда слово j встречается в документе i . Таким образом, каждая строка представляет собой вектор количества терминов, который представляет содержимое документа, соответствующего этой строке. Например, если у вас есть два (коротких) документа:

  • D1 = "Мне нравятся базы данных"
  • D2 = "Мне не нравятся базы данных",

тогда матрица документ-термин будет:

который показывает, какие документы содержат какие термины и сколько раз они встречаются. Обратите внимание, что, в отличие от представления документа в виде просто списка с подсчетом токенов, матрица «документ-термин» включает все термины в корпусе (т. Е. Словарь корпуса), поэтому есть нулевые подсчеты для терминов в корпусе, которые также не учитываются. встречаются в конкретном документе.

В результате степенного распределения токенов почти в каждом корпусе (см. Закон Ципфа ) принято взвешивать счетчики. Это может быть так же просто, как деление количества на общее количество токенов в документе (называемое относительной частотой или пропорциями), деление на максимальную частоту в каждом документе (называемое prop max) или ведение журнала частот (называемое подсчетом журнала). . Если кто-то желает взвесить слова, наиболее уникальные для отдельного документа, по сравнению со всем корпусом в целом, обычно используется tf-idf , который делит частоту термина на частоту термина в документе.

Выбор условий [ править ]

Точка зрения на матрицу состоит в том, что каждая строка представляет документ. В векторной семантической модели , которая обычно используется для вычисления матрицы документ-термин, цель состоит в том, чтобы представить тему документа по частоте семантически значимых терминов. Термины являются смысловыми единицами документов. Для индоевропейских языков часто предполагается, что существительные, глаголы и прилагательные являются более значимыми категориями , и что слова из этих категорий следует сохранять как термины. Добавление словосочетания в качестве терминов улучшает качество векторов, особенно при вычислении сходства между документами.

Приложения [ править ]

Улучшение результатов поиска [ править ]

Скрытый семантический анализ (LSA, выполнение разложения по сингулярным значениям в матрице «документ-термин») может улучшить результаты поиска за счет устранения неоднозначности слов и поиска синонимов запроса. Однако поиск в многомерном непрерывном пространстве намного медленнее, чем поиск в стандартной три- структуре данных поисковых систем.

Поиск тем [ править ]

Многомерный анализ матрицы «документ-термин» может выявить темы / темы корпуса. В частности, можно использовать скрытый семантический анализ и кластеризацию данных , и недавно было обнаружено, что вероятностный скрытый семантический анализ и неотрицательная матричная факторизация хорошо справляются с этой задачей.

См. Также [ править ]

  • Мешок слов модель

Реализации [ править ]

  • Gensim : среда Python с открытым исходным кодом для моделирования векторного пространства. Содержит алгоритмы с эффективным использованием памяти для построения матриц терминов-документов из текста и общих преобразований ( tf-idf , LSA , LDA ).

Ссылки [ править ]

  1. ^ "Матрица характеристик документа :: Учебные пособия для quanteda" . tutorials.quanteda.io . Проверено 2 января 2021 .
  2. ^ «15 способов создать матрицу терминов документа в R» . Дастин С. Штольц . Проверено 2 января 2021 .