Из Википедии, бесплатной энциклопедии
  (Перенаправлено из межъязыкового поиска )
Перейти к навигации Перейти к поиску

Поиск информации на нескольких языках ( CLIR ) - это подполе поиска информации, имеющее дело с получением информации, написанной на языке, отличном от языка запроса пользователя. [1] Термин «поиск информации на нескольких языках» имеет много синонимов, из которых, пожалуй, наиболее часто встречаются: поиск информации на нескольких языках, поиск информации на разных языках, поиск информации на нескольких языках . Термин " поиск многоязычной информации""в более общем смысле относится как к технологии поиска многоязычных коллекций, так и к технологии, которая была перемещена для обработки материалов с одного языка на другой. Термин" многоязычный поиск информации "(MLIR) включает изучение систем, которые принимают запросы информации на различных языках и возвращать объекты (текст и другие носители) на разных языках, переведенные на язык пользователя. Поиск информации на нескольких языках более конкретно относится к варианту использования, когда пользователи формулируют свои потребности в информации на одном языке, а система извлекает соответствующие документы на другом. При этом большинство систем CLIR используют различные методы перевода. [2] Методы CLIR можно разделить на разные категории на основе различных ресурсов перевода: [3]

  • Методики CLIR на основе словарей
  • Методы CLIR на основе параллельных корпусов
  • Методы CLIR на основе сопоставимых корпусов
  • Методы CLIR на основе машинного переводчика

Системы CLIR настолько улучшились, что самые точные многоязычные и межъязыковые специализированные системы поиска информации сегодня почти так же эффективны, как и одноязычные системы. [4] Другие связанные задачи доступа к информации, такие как мониторинг медиа , фильтрация и маршрутизация информации, анализ тональности и извлечение информации, требуют более сложных моделей и, как правило, большей обработки и анализа интересующих информационных элементов. Большая часть этой обработки должна учитывать специфику целевых языков, на которых она развернута.

В основном, различные механизмы вариации человеческого языка создают проблемы охвата для информационно-поисковых систем: тексты в коллекции могут относиться к интересующей теме, но использовать термины или выражения, которые не соответствуют выражению потребности в информации, данной пользователем. Это может быть верно даже в одноязычном случае, но это особенно верно в межъязычном поиске информации, когда пользователи могут знать целевой язык лишь в некоторой степени. Было обнаружено, что преимущества технологии CLIR для пользователей с низким или средним уровнем владения целевым языком больше, чем для тех, кто свободно владеет. [5] Специальные технологии, применяемые для служб CLIR, включают морфологический анализ для обработки перегибов., декомпаундирование или составное разбиение для обработки составных терминов и механизмы перевода для перевода запроса с одного языка на другой.

Первый семинар по CLIR прошел в Цюрихе во время конференции SIGIR-96. [6] Семинары проводятся ежегодно с 2000 года на заседаниях Форума межъязыковой оценки (CLEF). Исследователи также собираются на ежегодную конференцию по поиску текста (TREC), чтобы обсудить свои выводы, касающиеся различных систем и методов поиска информации, и конференция послужила точкой отсчета для подполя CLIR. [7]

В Google Search была функция поиска на нескольких языках, которая была удалена в 2013 году [8].

См. Также [ править ]

  • EXCLAIM (расширяемая кросс-лингвистическая автоматическая информационная машина)
  • CLEF (Конференция и лаборатории Форума оценки, ранее известного как Форум межъязыковой оценки)
  • MLIR ( поиск многоязычной информации)

Ссылки [ править ]

  1. ^ Ван Jianqiang, и Дуглас У. Орд. «Соответствие значения для поиска информации на разных языках». Обработка информации и управление 48.4 (2012): 631-53.
  2. ^ " Универсальные системы ответов на вопросы: видение в синтезе ", Миттал и др., IJIIDS, 5 (2), 119-142, 2011.
  3. ^ Тайский, Перишан. "Введение в межъязыковые подходы к поиску информации". Интернет. Web.simmons.edu
  4. ^ Орд, Дуглас. «Многоязычный доступ к информации». Понимание систем поиска информации (2011): 373-80. Интернет.
  5. ^ Airio, Эйя (2008). "Кому выгоден CLIR при поиске в сети?" . Журнал документации . 64 (5): 760–778. DOI : 10.1108 / 00220410810899754 .
  6. ^ Материалы этого семинара можно найти в книге " Межъязыковой поиск информации" (Grefenstette, ed; Kluwer, 1998) ISBN 0-7923-8122-X . 
  7. ^ Ольвера-Лобо, Мария-Долорес. «Межъязыковой поиск информации в Интернете». Справочник по исследованиям социальных аспектов семантических технологий и веб-сервисов (nd): 704-19. Интернет.
  8. ^ "Google Drops" переведенные иностранные страницы "Вариант поиска из-за отсутствия использования" . 20 мая 2013 г.

Внешние ссылки [ править ]

  • Страница ресурсов для CLIR
  • Поисковая система для CLIR