Матрица терминов документов


Из Википедии, свободной энциклопедии
  (Перенаправлено из матрицы вхождения )
Перейти к навигации Перейти к поиску

Матрица терминов документов — это математическая матрица , описывающая частоту терминов, встречающихся в наборе документов. В матрице терминов документов строки соответствуют документам в коллекции, а столбцы — терминам. Эта матрица является частным случаем матрицы характеристик документа, где «характеристики» могут относиться к другим свойствам документа помимо терминов. [1] Также часто встречается транспонированная матрица, или матрица термин-документ, где документы представляют собой столбцы, а термины — строки. Они полезны в области обработки естественного языка и компьютерного анализа текста . [2]

В то время как значение ячеек обычно представляет собой необработанное количество заданного термина, существуют различные схемы взвешивания необработанных значений, такие как нормализация строк (т.е. относительная частота/пропорции) и tf-idf .

Термины обычно представляют собой отдельные слова, разделенные пробелами или знаками препинания с обеих сторон (так называемые униграммы). В таком случае это также называется представлением «мешка слов», поскольку сохраняется количество отдельных слов, но не порядок слов в документе.

Общая концепция

При создании набора терминов , которые появляются в корпусе документов , матрица терминов документа содержит строки, соответствующие документам, и столбцы, соответствующие терминам. Таким образом, каждая ячейка ij представляет собой количество раз, когда слово j встречается в документе i . Таким образом, каждая строка представляет собой вектор количества терминов, который представляет содержимое документа, соответствующего этой строке. Например, если у вас есть следующие два (коротких) документа:

  • D1 = "Мне нравятся базы данных"
  • D2 = "Мне не нравятся базы данных",

тогда матрица терминов документа будет следующей:

который показывает, какие документы содержат какие термины и сколько раз они появляются. Обратите внимание, что, в отличие от представления документа просто как списка токенов, матрица терминов документа включает все термины в корпусе (т. е. словарь корпуса), поэтому для терминов в корпусе, происходят в конкретном документе.

В результате степенного распределения токенов почти в каждом корпусе (см . закон Ципфа ) обычно взвешивают подсчеты. Это может быть так же просто, как деление счетчиков на общее количество токенов в документе (называемое относительной частотой или пропорциями), деление на максимальную частоту в каждом документе (называемое максимальным значением) или получение журнала частот (называемого логарифмическим счетчиком). . Если кто-то хочет взвесить слова, наиболее уникальные для отдельного документа по сравнению с корпусом в целом, обычно используется tf-idf , который делит частоту термина на частоту термина в документе.

История концепции

Матрица терминов документов возникла в первые годы компьютеризации текста. Увеличение емкости для хранения документов создало проблему эффективного извлечения данного документа. В то время как раньше работа по классификации и индексации выполнялась вручную, исследователи изучили возможность делать это автоматически, используя информацию о частоте слов.

Одна из первых опубликованных матриц терминов документов была в статье Гарольда Борко 1962 года «Построение эмпирически основанной математически выведенной системы классификации» (стр. 282, см. также его статью 1965 года [3] ). Борко ссылается на две компьютерные программы: «FEAT», что означает «Частота каждого допустимого термина», написанную Джоном К. Олни из System Development Corporation, и Descriptor Word Index Program, написанную Эйлин Стоун , также из System Development Corporation:

После выбора документов, которые должны были составить экспериментальную библиотеку, следующий шаг состоял в наборе всего текста для подготовки к компьютерной обработке. Для этого анализа использовалась программа FEAT (частота каждого допустимого термина). он был написан Джоном К. Олни из System Development Corporation и предназначен для выполнения частотного и суммарного подсчета отдельных слов и пар слов. Результатом работы этой программы является алфавитный список по частоте встречаемости всех типов слов, встречающихся в тексте. Некоторые служебные слова, такие как и, тот, у, а и т. д., помещались в таблицу «список запрещенных слов», а частотность этих слов записывалась в отдельный список... Специальная компьютерная программа, называемая Дескриптор Программа Word Index,был написан, чтобы предоставить эту информацию и подготовить матрицу терминов документа в форме, подходящей для ввода в программу факторного анализа. Программа Descriptor Word Index была подготовлена ​​Эйлин Стоун из System Development Corporation.[4]

Вскоре после этого Джерард Солтон опубликовал «Некоторые иерархические модели автоматического поиска документов» в 1963 году, которые также включали визуальное изображение матрицы терминов документа. [5] Солтон в то время работал в Гарвардском университете, и его работа поддерживалась Кембриджскими исследовательскими лабораториями ВВС и Sylvania Electric Products, Inc. матрица, используемая для измерения сходства между словами:

Если желательно генерировать ассоциации документов или кластеры документов вместо словесных ассоциаций, можно использовать те же процедуры с небольшими изменениями. Вместо того, чтобы начинать с матрицы слов-предложений C ,... теперь удобно построить матрицу слов-документов F, перечисляя частоту появления слова W i в документе D j ... Сходства документов теперь можно вычислять, как и раньше . путем сравнения пар строк и получения коэффициентов сходства на основе частоты совпадения слов содержания, включенных в данный документ. Эта процедура создает матрицу сходства документ-документ, которая, в свою очередь, может использоваться для создания кластеров документов... [5]

Помимо Борко и Солтона, в 1964 году Ф. У. Ланкастер опубликовал всеобъемлющий обзор автоматизированного индексирования и поиска. Хотя работа была опубликована, когда он работал в Herner and Company в Вашингтоне, округ Колумбия, статья была написана, когда он «занимался исследовательской работой в Aslib над проектом Aslib Cranfield». [6] Ланкастер приписывает Борко матрицу терминов документа:

Гарольд Борко из System Development Corporation продвинул эту операцию немного дальше. Значимая группа слов-ключей выбирается из словаря экспериментальной коллекции. Они расположены в матрице документ/термин, чтобы показать частоту появления каждого термина в каждом документе... Затем вычисляется коэффициент корреляции для каждой пары слов на основе их совместного появления в наборе документов. Результирующая матрица термин/термин... затем подвергается факторному анализу и выделяется ряд факторов. Эти факторы при интерпретации и названии на основе терминов с высокими нагрузками, которые появляются в каждом из факторов, становятся классами эмпирической классификации. Термины с высокой нагрузкой в ​​каждом факторе являются ключевыми словами или предикторами категорий.

Выбор условий

Точка зрения на матрицу состоит в том, что каждая строка представляет собой документ. В векторной семантической модели , которая обычно используется для вычисления матрицы терминов документа, цель состоит в том, чтобы представить тему документа частотой семантически значимых терминов. Термины являются смысловыми единицами документов. Часто предполагается, что для индоевропейских языков существительные, глаголы и прилагательные являются более значимыми категориями , и что слова из этих категорий должны быть сохранены в качестве терминов. Добавление словосочетаний в качестве терминов улучшает качество векторов, особенно при вычислении сходства между документами.

Приложения

Улучшение результатов поиска

Скрытый семантический анализ (LSA, выполняющий разложение по сингулярным числам матрицы терминов документа) может улучшить результаты поиска за счет устранения неоднозначности многозначных слов и поиска синонимов запроса. Однако поиск в многомерном непрерывном пространстве выполняется намного медленнее, чем поиск в стандартной треугольной структуре данных поисковых систем.

Поиск тем

Многофакторный анализ матрицы терминов документа может выявить темы/темы корпуса. В частности, можно использовать латентный семантический анализ и кластеризацию данных , а совсем недавно было обнаружено, что вероятностный латентный семантический анализ с его обобщением , скрытым распределением Дирихле и неотрицательной матричной факторизацией хорошо справляется с этой задачей.

Смотрите также

  • Мешок слов модели

Реализации

  • Gensim : среда Python с открытым исходным кодом для моделирования векторного пространства. Содержит алгоритмы эффективного использования памяти для построения матриц терминов-документов из текста, а также общие преобразования ( tf-idf , LSA , LDA ).

использованная литература

  1. ^ «Матрица функций документа :: Учебники для Quanteda» . туториалы.quanteda.io . Проверено 02 января 2021 г. .
  2. ^ «15 способов создать матрицу терминов документа в R» . Дастин С. Штольц . Проверено 02 января 2021 г. .
  3. ^ Борко, Гарольд (1965). «Факторно-аналитическая система классификации психологических отчетов» . Перцептивные и моторные навыки . 20 (2): 393–406. doi : 10.2466/pms.1965.20.2.393 . ISSN 0031-5125 . PMID 14279310 . S2CID 34230652 .   
  4. ^ Борко, Гарольд (1962). «Построение эмпирически основанной математически выведенной системы классификации» . Материалы весенней совместной компьютерной конференции AIEE-IRE '62 (весна) 1–3 мая 1962 г. . AIEE-IRE '62 (весна). Нью-Йорк, Нью-Йорк, США: ACM Press: 279–289. дои : 10.1145/1460833.1460865 . ISBN 9781450378758. S2CID  6483337 .
  5. ^ a b Солтон, Джерард (июль 1963 г.). «Некоторые иерархические модели для автоматического поиска документов» . Американская документация . 14 (3): 213–222. doi : 10.1002/asi.5090140307 . ISSN 0096-946X . 
  6. ^ ЛАНКАСТЕР, FW (1 января 1964 г.). «МЕХАНИЗИРОВАННЫЙ КОНТРОЛЬ ДОКУМЕНТОВ: обзор некоторых последних исследований» . Труды АСЛИБ . 16 (4): 132–152. дои : 10.1108/eb049960 . ISSN 0001-253X . 
Получено с " https://en.wikipedia.org/w/index.php?title=Document-term_matrix&oldid=1042387068 "