Эта статья требует дополнительных ссылок для проверки . ( январь 2021 г. ) ( Узнайте, как и когда удалить это сообщение-шаблон ) |
Документа Термин матрица представляет собой математическую матрицу , которая описывает частоту терминов , которые происходят в наборе документов. В матрице «документ-термин» строки соответствуют документам в коллекции, а столбцы - терминам. Эта матрица является конкретным экземпляром матрицы характеристик документа, где «характеристики» могут относиться к другим свойствам документа помимо терминов. [1] Также часто встречается транспонирование или матрица терм-документ, где документы - это столбцы, а термины - это строки. Они полезны в области обработки естественного языка и компьютерного анализа текста . [2]Хотя значение ячеек обычно представляет собой необработанное количество заданного члена, существуют различные схемы взвешивания исходных значений, такие как относительная частота / пропорции и tf-idf .
Термины обычно представляют собой отдельные символы, разделенные пробелами или знаками препинания с обеих сторон, или униграммы. В таком случае это также называется представлением «мешок слов», потому что количество отдельных слов сохраняется, но не порядок слов в документе.
Общая концепция [ править ]
При создании набора данных терминов, которые появляются в корпусе документов , матрица документ-термин содержит строки, соответствующие документам, и столбцы, соответствующие терминам. Таким образом, каждая ячейка ij - это количество раз, когда слово j встречается в документе i . Таким образом, каждая строка представляет собой вектор количества терминов, который представляет содержимое документа, соответствующего этой строке. Например, если у вас есть два (коротких) документа:
- D1 = "Мне нравятся базы данных"
- D2 = "Мне не нравятся базы данных",
тогда матрица документ-термин будет:
я | подобно | неприязнь | базы данных | |
---|---|---|---|---|
D1 | 1 | 1 | 0 | 1 |
D2 | 1 | 0 | 1 | 1 |
который показывает, какие документы содержат какие термины и сколько раз они встречаются. Обратите внимание, что, в отличие от представления документа в виде просто списка с подсчетом токенов, матрица «документ-термин» включает все термины в корпусе (т. Е. Словарь корпуса), поэтому есть нулевые подсчеты для терминов в корпусе, которые также не учитываются. встречаются в конкретном документе.
В результате степенного распределения токенов почти в каждом корпусе (см. Закон Ципфа ) принято взвешивать счетчики. Это может быть так же просто, как деление количества на общее количество токенов в документе (называемое относительной частотой или пропорциями), деление на максимальную частоту в каждом документе (называемое prop max) или ведение журнала частот (называемое подсчетом журнала). . Если кто-то желает взвесить слова, наиболее уникальные для отдельного документа, по сравнению со всем корпусом в целом, обычно используется tf-idf , который делит частоту термина на частоту термина в документе.
Выбор условий [ править ]
Точка зрения на матрицу состоит в том, что каждая строка представляет документ. В векторной семантической модели , которая обычно используется для вычисления матрицы документ-термин, цель состоит в том, чтобы представить тему документа по частоте семантически значимых терминов. Термины являются смысловыми единицами документов. Для индоевропейских языков часто предполагается, что существительные, глаголы и прилагательные являются более значимыми категориями , и что слова из этих категорий следует сохранять как термины. Добавление словосочетания в качестве терминов улучшает качество векторов, особенно при вычислении сходства между документами.
Приложения [ править ]
Улучшение результатов поиска [ править ]
Скрытый семантический анализ (LSA, выполнение разложения по сингулярным значениям в матрице «документ-термин») может улучшить результаты поиска за счет устранения неоднозначности слов и поиска синонимов запроса. Однако поиск в многомерном непрерывном пространстве намного медленнее, чем поиск в стандартной три- структуре данных поисковых систем.
Поиск тем [ править ]
Многомерный анализ матрицы «документ-термин» может выявить темы / темы корпуса. В частности, можно использовать скрытый семантический анализ и кластеризацию данных , и недавно было обнаружено, что вероятностный скрытый семантический анализ и неотрицательная матричная факторизация хорошо справляются с этой задачей.
См. Также [ править ]
- Мешок слов модель
Реализации [ править ]
- Gensim : среда Python с открытым исходным кодом для моделирования векторного пространства. Содержит алгоритмы с эффективным использованием памяти для построения матриц терминов-документов из текста и общих преобразований ( tf-idf , LSA , LDA ).
Ссылки [ править ]
- ^ "Матрица характеристик документа :: Учебные пособия для quanteda" . tutorials.quanteda.io . Проверено 2 января 2021 .
- ^ «15 способов создать матрицу терминов документа в R» . Дастин С. Штольц . Проверено 2 января 2021 .