Проект « Лемур» - результат сотрудничества Центра интеллектуального поиска информации при Массачусетском университете в Амхерсте и Института языковых технологий Университета Карнеги-Меллона . Проект Lemur разрабатывает поисковые системы, панели инструментов браузера, инструменты анализа текста и ресурсы данных, которые поддерживают исследования и разработку программного обеспечения для поиска информации и анализа текста. Проект наиболее известен своими поисковыми системами Indri и Galago, наборами данных ClueWeb09 и ClueWeb12, а также библиотекой обучения ранжированию RankLib. Программное обеспечение и наборы данных широко используются в научных и исследовательских приложениях, а также в некоторых коммерческих приложениях.
Философия разработки программного обеспечения Lemur Project подчеркивает современную точность, гибкость и эффективность. Например, поисковая машина Indri обеспечивает точный поиск больших текстовых коллекций «из коробки», а данные хранятся в доступном виде для поддержки разработки новых стратегий поиска. Программное обеспечение от Lemur Project распространяется по лицензиям с открытым исходным кодом, которые обеспечивают гибкость для ученых и разработчиков программного обеспечения.
Языками программирования, используемыми для создания Lemur, являются C , C ++ и Java , и он поставляется вместе с исходными файлами и инструкциями по сборке. Предоставленный исходный код может быть изменен с целью разработки новых библиотек. Он совместим с различными операционными системами, включая Linux и Windows.
Функции
Lemur поддерживает следующие функции:
- Индексирование:
- Текст на английском, китайском и арабском языках
- Слово корнем
- Стоп-слова
- Токенизация
- Переход и инкрементное индексирование
- Получение:
- Специальное извлечение ( TF-IDF и InQuery)
- Проход и кросс-язычный поиск
- Языковое моделирование
- Обновление модели запроса
- Двухступенчатое сглаживание
- Отзыв о релевантности
- Структурированный язык запросов
- Сопоставление подстановочных терминов
- Распределенный IR:
- Выборка на основе запросов
- Рейтинг на основе базы данных (CORI)
- Объединение результатов
- Кластеризация документов
- Обобщение
- Простая обработка текста
Составные части
Lemur Project состоит из следующих компонентов:
- Поисковая система Indri на C ++
- Фреймворк для поисковых систем Galago на Java
- Библиотека обучения ранжированию RankLib
- Приложение для интеллектуального анализа данных Sifaka
- Наборы данных ClueWeb09 и ClueWeb12
- Панель инструментов журнала запросов
Последняя версия
Обновления компонентов Lemur Project производятся дважды в год, в июне и декабре. Последняя версия поисковой системы Indri - 5.17. Последней версией поисковой системы Galago является версия 3.18. Последняя версия библиотеки ранжирования RankLib - 2.14. Последняя версия приложения интеллектуального анализа данных Sifaka - 1.8.
Поисковая система Indri
Поисковая система Indri является одним из компонентов, разработанных Lemur Project. Это открытый исходный код. Язык запросов, используемый в Indri, позволяет исследователям индексировать данные или структурировать документы с помощью простых инструкций командной строки. Indri предлагает гибкость с точки зрения адаптации к различным текущим приложениям. Он также может быть распределен по кластеру узлов для обеспечения высокой производительности. Поисковая система Indri может обрабатывать большие коллекции данных и понимать различные форматы данных, такие как HTML и XML .
Indri API поддерживает различные языки программирования и сценариев, такие как C ++, Java , C # и PHP .
Особенности поисковой системы Indri
- Может использовать несколько представлений документов
- Явное взвешивание терминов
- Надежный язык запросов
- Формально обоснованный
- Высокоэффективный
- Может быть эффективно реализован