Многократная обработка

Соединение перспектива обработка, в информационно-поисковом , является поиск соответствия результатов на основе сложных терминов . Сложные термины создаются путем объединения двух или более простых терминов; например, «тройной» - это однословный термин, а «тройной обход сердца» - составной термин.

Обработка составных терминов - это новый подход к старой проблеме: как повысить релевантность результатов поиска при сохранении простоты использования? Используя эту технику, поиск выживаемости после тройного шунтирования сердца у пожилых людей позволит найти документы по этой теме, даже если эта точная фраза не содержится ни в одном документе. Это может быть выполнено с помощью концептуального поиска , который сам использует обработку составных терминов. Это позволит автоматически выделить ключевые понятия (в данном случае «выживаемость», «тройное шунтирование сердца» и «пожилые люди») и использовать эти понятия для выбора наиболее подходящих документов.

Методы [ править ]

В августе 2003 года компания Concept Searching Limited представила идею использования статистической обработки составных терминов. ^[1]

CLAMOR - это европейский совместный проект, цель которого - найти лучший способ классификации при сборе и распространении промышленной информации и статистических данных. CLAMOR, похоже, использует лингвистический подход, а не метод, основанный на статистическом моделировании . ^[2]

История [ править ]

Методы вероятностного взвешивания терминов, состоящих из одного слова, восходят, по крайней мере, к 1976 году в знаменательной публикации Стивена Э. Робертсона и Карен Спарк Джонс . ^[3] Робертсон заявил, что предположение о независимости слов неоправданно и существует как вопрос математического удобства. Его возражение против термина «независимость» - не новая идея, восходящая, по крайней мере, к 1964 году, когда Г. Х. Уильямс заявил, что «[т] предположение о независимости слов в документе обычно делается из соображений математического удобства». ^[4]

В 2004 году Анна Линн Паттерсон подала патент на «поиск по фразам в информационно-поисковой системе» ^[5], права на который впоследствии приобрела компания Google . ^[6]

Адаптивность [ править ]

Статистическая обработка составных терминов более адаптируема, чем процесс, описанный Паттерсоном. Ее процесс нацелен на поиск во всемирной паутине, где обширные статистические знания обычных поисковых запросов могут быть использованы для определения фраз-кандидатов. Статистическая обработка составных терминов больше подходит для поисковых приложений предприятия, где такие априорные знания недоступны.

Статистическая обработка составных терминов также более адаптируема, чем лингвистический подход, принятый в проекте CLAMOR, который должен учитывать синтаксические свойства терминов (например, часть речи, пол, число и т. Д.) И их комбинации. CLAMOR сильно зависит от языка, тогда как статистический подход не зависит от языка.

Приложения [ править ]

Обработка составных терминов позволяет приложениям для поиска информации, таким как поисковые системы , выполнять их сопоставление на основе концепций, состоящих из нескольких слов, а не на основе отдельных слов, которые могут быть весьма неоднозначными.

Ранние поисковые системы искали документы, содержащие слова, введенные пользователем в поле поиска. Они известны как поисковые системы по ключевым словам . Логические поисковые системы добавляют степень сложности, позволяя пользователю указывать дополнительные требования. Например, в словах «Tiger NEAR Woods AND (гольф ИЛИ гольф) NOT Volkswagen» используются операторы «NEAR», «AND», «OR» и «NOT», чтобы указать, что эти слова должны соответствовать определенным требованиям. Фраза поиска проще в использовании, но требует, чтобы точная фраза указано в результатах.

См. Также [ править ]

Ссылки [ править ]

^ «Боковое мышление в поиске информации» (PDF) . Информационный менеджмент и технологии . 36 ЧАСТЬ 4. Архивировано из оригинала (PDF) 15.11.2017 . Проверено 20 июня 2008 .Запись в каталоге British Library Direct можно найти здесь: [1] Архивировано 10 февраля 2012 г. на Wayback Machine.
^ [2] Национальный статистический проект CLAMOR
^ Робертсон, SE ; Спэрк Джонс, К. (1976). «Взвешивание релевантности поисковых запросов». Журнал Американского общества информационных наук . 27 (3): 129. DOI : 10.1002 / asi.4630270302 . CS1 maint: discouraged parameter (link)
^ УИЛЬЯМС, JH (1965). «Результаты классификации документов с множественными дискриминантными функциями» . Статистическая ассоциация «Методы механизированной документации», Национальное бюро стандартов . Вашингтон: 217–224. Архивировано из оригинала на 2011-07-17 . Проверено 21 мая 2015 .
^ США 20060031195
^ Google получает патентные заявки Cuil

[1] «Боковое мышление в поиске информации» (PDF) . Информационный менеджмент и технологии . 36 ЧАСТЬ 4. Архивировано из оригинала (PDF) 15.11.2017 . Проверено 20 июня 2008 .Запись в каталоге British Library Direct можно найти здесь: [1] Архивировано 10 февраля 2012 г. на Wayback Machine.

[2] [2] Национальный статистический проект CLAMOR

[3] Робертсон, SE ; Спэрк Джонс, К. (1976). «Взвешивание релевантности поисковых запросов». Журнал Американского общества информационных наук . 27 (3): 129. DOI : 10.1002 / asi.4630270302 . CS1 maint: discouraged parameter (link)

[4] УИЛЬЯМС, JH (1965). «Результаты классификации документов с множественными дискриминантными функциями» . Статистическая ассоциация «Методы механизированной документации», Национальное бюро стандартов . Вашингтон: 217–224. Архивировано из оригинала на 2011-07-17 . Проверено 21 мая 2015 .

[5] США 20060031195

[6] Google получает патентные заявки Cuil

[1]

vтеОбработка естественного языка
Общие условия	AI-полный Мешок слов н-грамм Биграмма Триграмма Понимание естественного языка Речевой корпус Stopwords Текстовый корпус
Анализ текста	Извлечение словосочетаний Концепция майнинга Обработка сложных терминов Разрешение Coreference Лемматизация Признание именной организации Изучение онтологий Парсинг Пометка части речи Семантическое сходство Анализ настроений Стемминг Извлечение терминологии Фрагменты текста Сегментация текста Сегментация предложения Сегментация слов Текстовое следствие Truecasing Устранение смысловой неоднозначности
Автоматическое суммирование	Резюме из нескольких документов Извлечение приговора Упрощение текста
Машинный перевод	Компьютерная На основе примера Основанный на правилах Нейронный
Автоматическая идентификация и сбор данных	Распознавание речи Сегментация речи Синтез речи Генерация естественного языка Оптическое распознавание символов
Тематическая модель	Latent Dirichlet allocation Latent semantic analysis Pachinko allocation
Computer-assistedreviewing	Automated essay scoring Concordancer Grammar checker Predictive text Spell checker Syntax guessing
Natural languageuser interface	Chatbot Interactive fiction Question answering Virtual assistant Voice user interface