Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Apache Nutch - это очень расширяемый и масштабируемый проект программного обеспечения для поискового робота с открытым исходным кодом.

Особенности [ править ]

Nutch полностью написан на языке программирования Java , но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа типов мультимедиа, извлечения данных, запросов и кластеризации.

Сборщик («робот» или « поисковый робот ») был написан с нуля специально для этого проекта.

История [ править ]

Nutch был создан Дугом Каттингом , создателем Lucene и Hadoop , и Майком Кафареллой .

В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке данных на нескольких машинах при выполнении задач сканирования и индексирования, в проекте Nutch также реализованы средства MapReduce и распределенная файловая система . Эти два объекта были выделены в отдельный подпроект под названием Hadoop .

В январе 2005 года Nutch присоединился к Apache Incubator , который в июне того же года стал подпроектом Lucene. С апреля 2010 года Nutch считается независимым проектом высшего уровня Apache Software Foundation . [3]

В феврале 2014 года проект Common Crawl адаптировал Nutch для открытого крупномасштабного веб-сканирования. [4]

Хотя когда-то целью проекта Nutch было выпустить глобальную крупномасштабную поисковую систему в Интернете, теперь это не так. [ необходима цитата ]

История выпусков [ править ]

Масштабируемость [ править ]

IBM Research изучила производительность [9] Nutch / Lucene в рамках своего проекта коммерческого масштабирования (CSO). [10] Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch / Lucene, могла достичь уровня производительности на кластере блейд-серверов, который был недостижим на любом масштабируемом компьютере, таком как POWER5 .

Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду. [11]

Связанные проекты [ править ]

  • Hadoop - среда Java, поддерживающая распределенные приложения, работающие в больших кластерах.

Поисковые системы, созданные с помощью Nutch [ править ]

  • Common Crawl - общедоступные поисковые запросы в Интернете, начали использовать Nutch в 2014 году. [4]
  • Creative Commons Search - реализация Nutch, использовавшаяся в период 2004–2006 годов. [12] [13] [14]
  • DiscoverEd - прототип поиска по открытым образовательным ресурсам, разработанный Creative Commons
  • Krugle использует Nutch для сканирования веб-страниц в поисках кода, архивов и технически интересного контента.
  • mozDex (неактивен)
  • Wikia Search - запущен в 2008 г., закрыт в 2009 г. [15] [16]

См. Также [ править ]

  • Фасетный поиск
  • Извлечение информации
  • Корпоративный поиск

Ссылки [ править ]

  1. ^ "ASF Git Repos - nutch.git / commit" . Проверено 19 октября 2020 года .
  2. ^ "ASF Git Repos - nutch.git / commit" . Дата обращения 11 марта 2020 .
  3. ^ "Apache Nutch ™ -" . nutch.apache.org .
  4. ^ a b «Переход обыкновенного обхода к Nutch - Обычное сканирование - Блог» . blog.commoncrawl.org . Проверено 14 октября 2015 .
  5. ^ "Гайка 2.3 Release" . Новости Apache Nutch . Фонд программного обеспечения Apache. 22 января 2015 . Проверено 18 января +2016 .
  6. ^ «Примечания к выпуску Nutch 1.10» . ASF JIRA . Фонд программного обеспечения Apache. 6 мая 2015 . Проверено 18 января +2016 .
  7. ^ "Примечания к выпуску Nutch 1.11" . ASF JIRA . Фонд программного обеспечения Apache. 7 декабря 2015 . Проверено 18 января +2016 .
  8. ^ "Гайка 2.4 Отпуск" . Новости Apache Nutch . Фонд программного обеспечения Apache. 11 октября 2019 . Проверено 19 октября 2020 года .
  9. ^ «Масштабируемость поисковой системы Nutch» (PDF) .
  10. ^ «Подготовка и запуск базовой операционной системы для коммерческого суперкомпьютера» (PDF) . Архивировано из оригинального (PDF) 3 декабря 2008 года.
  11. ^ Веб-сканер Sapphire - Статистика сканирования . Boston.lti.cs.cmu.edu (01.10.2008). Проверено 21 июля 2013.
  12. ^ «Наш обновленный поиск» . Creative Commons. 2004-09-03.
  13. ^ «Уникальный инструмент поиска Creative Commons теперь интегрирован в Firefox 1.0» . Creative Commons. 2004-11-22. Архивировано из оригинала на 2010-01-07.
  14. ^ "Новый пользовательский интерфейс поиска CC" . Creative Commons. 2006-08-02.
  15. ^ "Где я могу получить исходный код для Wikia Search?" . Архивировано из оригинала на 2011-11-04 . Проверено 12 февраля 2010 .
  16. ^ «Обновление на Викии - больше о том, что работает | Джимми Уэльс» .

Библиография [ править ]

  • Шоберг, Дж (26 октября 2006 г.). Создание поисковых приложений с помощью Lucene и Nutch (1-е изд.). Апресс . п. 350. ISBN 978-1-59059-687-6. Архивировано из оригинала на 2 декабря 2009 года . Проверено 15 августа 2009 года .

Внешние ссылки [ править ]

  • Официальный веб-сайт