Apache Nutch - это очень расширяемый и масштабируемый проект программного обеспечения для поискового робота с открытым исходным кодом.
Особенности [ править ]
Nutch полностью написан на языке программирования Java , но данные записываются в независимых от языка форматах. Он имеет модульную архитектуру, позволяющую разработчикам создавать плагины для анализа типов мультимедиа, извлечения данных, запросов и кластеризации.
Сборщик («робот» или « поисковый робот ») был написан с нуля специально для этого проекта.
История [ править ]
Nutch был создан Дугом Каттингом , создателем Lucene и Hadoop , и Майком Кафареллой .
В июне 2003 года была разработана успешная демонстрационная система объемом 100 миллионов страниц. Чтобы удовлетворить потребности в обработке данных на нескольких машинах при выполнении задач сканирования и индексирования, в проекте Nutch также реализованы средства MapReduce и распределенная файловая система . Эти два объекта были выделены в отдельный подпроект под названием Hadoop .
В январе 2005 года Nutch присоединился к Apache Incubator , который в июне того же года стал подпроектом Lucene. С апреля 2010 года Nutch считается независимым проектом высшего уровня Apache Software Foundation . [3]
В феврале 2014 года проект Common Crawl адаптировал Nutch для открытого крупномасштабного веб-сканирования. [4]
Хотя когда-то целью проекта Nutch было выпустить глобальную крупномасштабную поисковую систему в Интернете, теперь это не так. [ необходима цитата ]
История выпусков [ править ]
1.x Ответвляться | 2.x Ответвляться | Дата выхода | Описание |
---|---|---|---|
1.1 | 2010-06-06 | Этот выпуск включает несколько основных обновлений существующих библиотек (Hadoop, Solr, Tika и т. Д.), От которых зависит Nutch. Также были включены различные исправления ошибок и ускорения (например, для Fetcher2). | |
1.2 | 2010-10-24 | Этот выпуск включает в себя несколько улучшений (добавление parse-html снова в качестве выбираемого анализатора, настраиваемая индексация для каждого поля), новые функции (включая добавление информации о времени для всех классов инструментов и реализацию тайм-аутов синтаксического анализатора) и исправления ошибок (исправление NPE в распределенном поиске, исправление проблем с форматированием XML по полям документа). | |
1.3 | 2011-06-07 | Этот выпуск включает в себя несколько улучшений (улучшенная поддержка синтаксического анализа RSS, более тесная интеграция с Apache Tika, поддержка внешнего синтаксического анализа, улучшенная идентификация языка и на порядок меньший размер архива исходного кода - всего около 2 МБ). | |
1.4 | 2011-11-26 | Этот выпуск включает в себя несколько улучшений, в том числе возможность для парсеров объявлять поддержку нескольких типов MIME, настраиваемую глубину очереди сборщика, улучшения скорости сборщика, более тесную интеграцию с Tika и поддержку HTTP-аутентификации в индексировании Solr. | |
1.5 | 2012-06-07 | Этот выпуск включает в себя несколько улучшений, включая обновления нескольких основных компонентов, включая Tika 1.1 и Hadoop 1.0.0, улучшения элементов LinkRank и WebGraph, а также ряд новых подключаемых модулей, охватывающих внесение в черный список, фильтрацию и синтаксический анализ, и многие другие. | |
2.0 | 2012-07-07 | Этот выпуск предлагает пользователям выпуск, ориентированный на крупномасштабное сканирование, которое основано на абстракции хранилища (через Apache Gora) для хранилищ больших данных, таких как Apache Accumulo, Apache Avro, Apache Cassandra, Apache HBase, HDFS, хранилище данных в памяти и различные высокопроизводительные хранилища. профили хранит SQL. | |
1.5.1 | 2012-07-10 | Этот выпуск является отладочным выпуском популярной основной версии Nutch 1.5.X, которая получила широкое распространение в сообществе. | |
2.1 | 2012-10-05 | Этот выпуск продолжает предоставлять пользователям Nutch упрощенный дистрибутив Nutch, основанный на драйвере разработки 2.x, популярность которого в сообществе растет. Помимо устранения ~ 20 ошибок, этот выпуск также предлагает улучшенные свойства для лучшей конфигурации Solr, обновления до различных зависимостей Gora и введение опции для создания индексов в эластичном поиске. | |
1.6 | 2012-12-06 | Этот выпуск включает более 20 исправлений ошибок, те же улучшения, а также новые функции, включая новый HostNormalizer, возможность динамически устанавливать fetchInterval по MIME-типу и функциональные улучшения API индексатора, включая нормализацию URL-адресов и удаление роботов. Документы noIndex. Другие заметные улучшения включают обновление основных зависимостей до Tika 1.2 и Automaton 1.11-8. | |
2.2 | 2013-06-08 | Этот выпуск включает более 30 исправлений ошибок и более 25 улучшений, представляющих собой третий выпуск набирающей популярность серии 2.x Nutch. В этот выпуск включен Crawler-Commons, который Nutch теперь использует для улучшенного синтаксического анализа robots.txt, обновления библиотек до Apache Hadoop 1.1.1, Apache Gora 0.3, Apache Tika 1.2 и Automaton 1.11-8. | |
1,7 | 2013-06-24 | Этот выпуск включает более 20 исправлений ошибок, а также множество улучшений; наиболее заметно с новой подключаемой архитектурой индексирования, которая в настоящее время поддерживает Apache Solr и Elastic Search. В отличие от недавнего выпуска Nutch 2.2, анализ файла Robots.txt теперь делегирован Crawler-Commons. Ключевые обновления библиотеки были сделаны до Apache Hadoop 1.2.0 и Apache Tika 1.3. | |
2.2.1 | 2013-07-02 | Этот выпуск включает обновления библиотек до Apache Hadoop 1.2.0 и Apache Tika 1.3, в основном это исправление ошибки для NUTCH-1591 - Некорректное преобразование ByteBuffer в String. | |
1,8 | 2014-03-17 | Хотя этот выпуск включает обновления библиотеки до Crawler Commons 0.3 и Apache Tika 1.5, он также содержит более 30 исправлений ошибок и 18 улучшений. | |
2.3 | 2015-01-22 | Релиз Nutch 2.3 теперь поставляется с автономным веб-приложением на основе Apache Wicket. Серверная часть SQL для Gora устарела. [5] | |
1,10 | 2015-05-06 | Этот выпуск включает в себя обновления библиотеки до Tika 1.6, также содержит более 46 исправлений ошибок, а также 37 улучшений и 12 новых функций. [6] | |
1.11 | 2015-12-07 | Этот выпуск включает обновления библиотеки до Hadoop 2.X, Tika 1.11, а также содержит более 32 исправлений ошибок, а также 35 улучшений и 14 новых функций. [7] | |
2.3.1 | 2016-01-21 | Этот выпуск с исправлением ошибок содержит около 40 исправленных проблем. | |
1,12 | 2016-06-18 | ||
1.13 | 2017-04-02 | ||
1.14 | 2017-12-23 | ||
1,15 | 2018-08-09 | ||
1,16 | 2019-10-11 | ||
2,4 | 2019-10-11 | Ожидается, что это будет последний выпуск в серии 2.X. [8] | |
1.17 | 2020-07-02 | ||
1.18 | 2021-01-24 |
Масштабируемость [ править ]
IBM Research изучила производительность [9] Nutch / Lucene в рамках своего проекта коммерческого масштабирования (CSO). [10] Их выводы заключались в том, что горизонтально масштабируемая система, такая как Nutch / Lucene, могла достичь уровня производительности на кластере блейд-серверов, который был недостижим на любом масштабируемом компьютере, таком как POWER5 .
Набор данных ClueWeb09 (используемый, например, в TREC ) был собран с помощью Nutch со средней скоростью 755,31 документа в секунду. [11]
Связанные проекты [ править ]
- Hadoop - среда Java, поддерживающая распределенные приложения, работающие в больших кластерах.
Поисковые системы, созданные с помощью Nutch [ править ]
- Common Crawl - общедоступные поисковые запросы в Интернете, начали использовать Nutch в 2014 году. [4]
- Creative Commons Search - реализация Nutch, использовавшаяся в период 2004–2006 годов. [12] [13] [14]
- DiscoverEd - прототип поиска по открытым образовательным ресурсам, разработанный Creative Commons
- Krugle использует Nutch для сканирования веб-страниц в поисках кода, архивов и технически интересного контента.
- mozDex (неактивен)
- Wikia Search - запущен в 2008 г., закрыт в 2009 г. [15] [16]
См. Также [ править ]
- Фасетный поиск
- Извлечение информации
- Корпоративный поиск
Ссылки [ править ]
- ^ "ASF Git Repos - nutch.git / commit" . Проверено 19 октября 2020 года .
- ^ "ASF Git Repos - nutch.git / commit" . Дата обращения 11 марта 2020 .
- ^ "Apache Nutch ™ -" . nutch.apache.org .
- ^ a b «Переход обыкновенного обхода к Nutch - Обычное сканирование - Блог» . blog.commoncrawl.org . Проверено 14 октября 2015 .
- ^ "Гайка 2.3 Release" . Новости Apache Nutch . Фонд программного обеспечения Apache. 22 января 2015 . Проверено 18 января +2016 .
- ^ «Примечания к выпуску Nutch 1.10» . ASF JIRA . Фонд программного обеспечения Apache. 6 мая 2015 . Проверено 18 января +2016 .
- ^ "Примечания к выпуску Nutch 1.11" . ASF JIRA . Фонд программного обеспечения Apache. 7 декабря 2015 . Проверено 18 января +2016 .
- ^ "Гайка 2.4 Отпуск" . Новости Apache Nutch . Фонд программного обеспечения Apache. 11 октября 2019 . Проверено 19 октября 2020 года .
- ^ «Масштабируемость поисковой системы Nutch» (PDF) .
- ^ «Подготовка и запуск базовой операционной системы для коммерческого суперкомпьютера» (PDF) . Архивировано из оригинального (PDF) 3 декабря 2008 года.
- ^ Веб-сканер Sapphire - Статистика сканирования . Boston.lti.cs.cmu.edu (01.10.2008). Проверено 21 июля 2013.
- ^ «Наш обновленный поиск» . Creative Commons. 2004-09-03.
- ^ «Уникальный инструмент поиска Creative Commons теперь интегрирован в Firefox 1.0» . Creative Commons. 2004-11-22. Архивировано из оригинала на 2010-01-07.
- ^ "Новый пользовательский интерфейс поиска CC" . Creative Commons. 2006-08-02.
- ^ "Где я могу получить исходный код для Wikia Search?" . Архивировано из оригинала на 2011-11-04 . Проверено 12 февраля 2010 .
- ^ «Обновление на Викии - больше о том, что работает | Джимми Уэльс» .
Библиография [ править ]
- Шоберг, Дж (26 октября 2006 г.). Создание поисковых приложений с помощью Lucene и Nutch (1-е изд.). Апресс . п. 350. ISBN 978-1-59059-687-6. Архивировано из оригинала на 2 декабря 2009 года . Проверено 15 августа 2009 года .
Внешние ссылки [ править ]
- Официальный веб-сайт