Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Apache Lucene является свободным и открытым исходным кодом поисковой библиотеки программного обеспечения , изначально написанная полностью на Java с помощью Doug Cutting . Он поддерживается Apache Software Foundation и выпускается под лицензией на программное обеспечение Apache .

Lucene был перенесен на другие языки программирования, включая Object Pascal , Perl , C # , C ++ , Python , Ruby и PHP . [2]

История [ править ]

Первоначально Дуг Каттинг написал Lucene в 1999 году. [3] Lucene была его пятой поисковой системой, ранее он написал две в Xerox PARC, одну в Apple и четвертую в Excite. [4] Первоначально он был доступен для загрузки на домашней странице SourceForge . В сентябре 2001 года он присоединился к семейству Java-продуктов с открытым исходным кодом Apache Software Foundation в Джакарте, а в феврале 2005 года стал собственным проектом Apache верхнего уровня. Имя Lucene - это второе имя жены Дуга Каттинга и имя ее бабушки по материнской линии. [5]

Lucene ранее включала ряд подпроектов, таких как Lucene.NET, Mahout , Tika и Nutch . Эти три теперь являются независимыми проектами верхнего уровня.

В марте 2010 года поисковый сервер Apache Solr присоединился к подпроекту Lucene, объединив сообщества разработчиков.

Версия 4.0 была выпущена 12 октября 2012 г. [6]

Особенности и общее использование [ править ]

Хотя Lucene подходит для любого приложения, требующего возможности полнотекстового индексирования и поиска, он известен своей полезностью при реализации поисковых систем в Интернете и локального поиска по одному сайту. [7] [8]

Lucene включает функцию нечеткого поиска на основе расстояния редактирования . [9]

Lucene также использовался для реализации рекомендательных систем. [10] Например, класс MoreLikeThis в Lucene может генерировать рекомендации для аналогичных документов. При сравнении подхода «MoreLikeThis» на основе термина на основе вектора схожести с мерами сходства документов на основе цитирования, такими как анализ близости совместного цитирования и совместного цитирования, подход Lucene преуспел в рекомендации документов с очень похожими структурными характеристиками и более узкой взаимосвязью. . [11] Напротив, меры схожести документов на основе цитирования, как правило, более подходят для рекомендации более общих документов, [11] что означает, что подходы, основанные на цитировании, могут быть более подходящими для создания случайных рекомендации, если рекомендуемые документы содержат цитаты в тексте.

Проекты на основе Lucene [ править ]

Сама Lucene представляет собой просто библиотеку для индексации и поиска и не содержит функций сканирования и анализа HTML . Однако несколько проектов расширяют возможности Lucene:

  • Apache Nutch - обеспечивает сканирование веб-страниц и анализ HTML [ необходима ссылка ]
  • Apache Solr - поисковый сервер предприятия
  • Компас - предшественник Elasticsearch [12]
  • CrateDB - распределенная база данных SQL с открытым исходным кодом, построенная на Lucene [13]
  • DocFetcher - многоплатформенное настольное приложение для поиска [ необходима ссылка ]
  • Elasticsearch - поисковый сервер предприятия, выпущенный в 2010 г. [14]
  • Kinosearch - поисковая машина, написанная на Perl и C [15] и свободный порт Lucene. [16] Программное обеспечение вики Socialtext использует эту поисковую систему [15], также как и вики MojoMojo . [17] Он также используется в базе данных метаболома человека (HMDB) [18] и в базе данных токсинов и токсинов-мишеней (T3DB). [19]
  • MongoDB Atlas Search - облачное корпоративное поисковое приложение на основе MongoDB и Apache Lucene
  • Swiftype - стартап поисковой системы предприятия, основанный на Lucene

См. Также [ править ]

  • Корпоративный поиск
  • Извлечение информации
  • Список информационно-поисковых библиотек
  • Текстовый майнинг

Ссылки [ править ]

  1. ^ «Добро пожаловать в Apache Lucene» . Раздел новостей Lucene ™. Архивировано 12 февраля 2020 года . Проверено 12 февраля 2020 .
  2. ^ "LuceneImplementations" . apache.org . Архивировано 6 октября 2015 года . Проверено 23 сентября 2015 года .
  3. ^ KeywordAnalyzer «Улучшенный поиск с Apache Lucene и Solr» (PDF) . 19 ноября 2007 г. Архивировано из оригинального (PDF) 31 января 2012 г.
  4. ^ Резка, Дуги (2019-06-07). «Я написал пару поисковых систем в Xerox PARC, затем V-Twin в Apple, затем переписал поисковый запрос Excite, затем Lucene. Итак, Lucene можно считать V-Twin 3.0? Почти 25 лет спустя V-Twin все еще жив как Mac OS X Search Kit! " . @ резка . Проверено 19 июня 2019 .
  5. ^ Баркер, Дин (2016). Управление веб-контентом . О'Рейли. п. 233. ISBN. 1491908106.
  6. ^ "Apache Lucene - Добро пожаловать в Apache Lucene" . apache.org . Архивировано 4 февраля 2016 года . Проверено 4 февраля +2016 .
  7. ^ МакКэндлесс, Майкл; Хэтчер, Эрик; Господнетич, Отис (2010). Lucene в действии, второе издание . Укомплектование персоналом. п. 8 . ISBN 1933988177.
  8. ^ «Система семантического хранения GNU / Linux» (PDF) . glscube.org . Архивировано из оригинального (PDF) 01.06.2010.
  9. ^ "Apache Lucene - Синтаксис парсера запросов" . lucene.apache.org . Архивировано 02 мая 2017 года.
  10. ^ Дж. Бил, С. Лангер и Б. Гипп, «Архитектура и наборы данных рекомендательной системы исследовательских работ Docear», в материалах 3-го Международного семинара по научным публикациям в горнодобывающей промышленности (WOSP 2014) на совместной конференции ACM / IEEE по Электронные библиотеки (JCDL 2014), Лондон, Великобритания, 2014 г.
  11. ^ a b М. Шварцер, М. Шуботц, Н. Меушке, К. Брайтингер, В. Маркл и Б. Гипп, https://www.gipp.com/wp-content/papercite-data/pdf/schwarzer2016. pdf «Оценка рекомендаций для Википедии на основе ссылок» в материалах 16-й совместной конференции ACM / IEEE-CS по электронным библиотекам (JCDL), Нью-Йорк, штат Нью-Йорк, США, 2016 г., стр. 191-200.
  12. ^ «Будущее компаса и эластичного поиска» . чувак остается . Архивировано из оригинала на 2015-10-15 . Проверено 14 октября 2015 .
  13. ^ Уэйнер, Питер. «11 передовых баз данных, которые стоит изучить сейчас» . InfoWorld. Архивировано 21 сентября 2015 года . Проверено 21 сентября 2015 года .
  14. ^ «Elasticsearch: RESTful, распределенный поиск и аналитика - эластичный» . elastic.co . Архивировано 8 октября 2015 года . Проверено 23 сентября 2015 года .
  15. ^ a b Нативидад, Анджела. «Поиск обновлений Socialtext, Goes Kino» . CMS Wire. Архивировано 29 сентября 2012 года . Проверено 31 мая 2011 .
  16. ^ Марвин Хамфри. «KinoSearch - библиотека поисковых систем. - metacpan.org» . p3rl.org . Проверено 23 сентября 2015 года .
  17. ^ Димент, Кирен; Траут, Мэтт С (2009). "Поваренная книга катализаторов". Полное руководство по Catalyst . Апресс . п. 280 . ISBN 978-1-4302-2365-8.
  18. ^ «HMDB: база знаний о метаболоме человека» . Nucleic Acids Res. 37 (выпуск базы данных): D603–10. Январь 2009 г. doi : 10.1093 / nar / gkn810 . PMC 2686599 . PMID 18953024 .   
  19. ^ "T3DB: всесторонне аннотированная база данных распространенных токсинов и их целей" . Nucleic Acids Res . 38 (выпуск базы данных): D781–6. Январь 2010 г. doi : 10.1093 / nar / gkp934 . PMC 2808899 . PMID 19897546 .  

Библиография [ править ]

  • Gospodnetic, Otis; Эрик Хэтчер; Майкл МакКэндлесс (28 июня 2009 г.). Lucene в действии (2-е изд.). Публикации Мэннинга . ISBN 1-9339-8817-7.
  • Gospodnetic, Otis; Эрик Хэтчер (1 декабря 2004 г.). Lucene в действии (1-е изд.). Публикации Мэннинга . ISBN 978-1-9323-9428-3.

Внешние ссылки [ править ]

  • Официальный веб-сайт