Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Carrot² [1] - это механизм кластеризации результатов поиска с открытым исходным кодом. [2] Он может автоматически группировать небольшие коллекции документов, например, результаты поиска или аннотации документов, в тематические категории. Carrot² написан на Java и распространяется под лицензией BSD .

История [ править ]

Первоначальная версия Carrot² была реализована в 2001 году Давидом Вайсом в рамках его магистерской диссертации для проверки применимости алгоритма кластеризации STC для кластеризации результатов поиска на польском языке. [3] В 2003 году был добавлен ряд других алгоритмов кластеризации результатов поиска, включая Lingo [4], новый алгоритм кластеризации текста, разработанный специально для кластеризации результатов поиска. Хотя исходный код Carrot² был доступен с 2002 года, версия 1.0 была официально выпущена только в 2006 году. В том же году была выпущена версия 2.0 с улучшенным пользовательским интерфейсом и расширенным набором инструментов. В 2009 году версия 3.0 внесла значительные улучшения в качество кластеризации, упростил API и новое приложение с графическим интерфейсом для настройки кластеризации на основе Eclipse.Платформа многофункциональных клиентов . В 2020 году версия 4.0.0 принесла упрощение API, очистку кода и удаление Desktop Workbench. Версия 4.1.0 возвращает Workbench в виде веб-приложения.

Архитектура [ править ]

Carrot² 4.0 - это преимущественно библиотека программирования Java с общедоступными API-интерфейсами для управления языковыми ресурсами, настройки и выполнения алгоритмов. Компонент HTTP / REST (сервер кластеризации документов) предоставляется для взаимодействия с другими языками.

Алгоритмы кластеризации [ править ]

Carrot² предлагает несколько алгоритмов кластеризации документов, которые делают упор на качество меток кластера:

Спин-офф [ править ]

Морковный поиск [ править ]

Carrot Search [7], коммерческое подразделение проекта Carrot², работает над дальнейшим развитием Carrot², предлагает алгоритм кластеризации текста в реальном времени [8], совместимый с платформой Carrot², а также консультационные услуги по интеллектуальному анализу текста на основе открытого исходного кода. и проприетарное программное обеспечение.

Лаборатории поиска моркови [ править ]

Carrot² дала начало ряду независимых проектов с открытым кодом, выпущенных под эгидой Carrot Search Labs. [9] Следующие проекты опубликованы или были опубликованы в рамках этой инициативы:

  • Рандомизированное тестирование: средство запуска тестов JUnit со встроенными утилитами, позволяющими сделать каждый запуск теста немного другим (рандомизированным). Также задача ANT для запуска тестов JUnit на параллельных JVM с балансировкой нагрузки и другими прибамбасами.
  • Коллекции высокопроизводительных примитивов для Java (HPPC): списки, наборы, карты и другие коллекции примитивов для Java, настроенные для обеспечения максимальной производительности и эффективности использования памяти.
  • SmartSprites: полностью автоматическое обслуживание спрайтов CSS; Никакого утомительного копирования и вставки в CSS при добавлении или изменении спрайтовых изображений.

Прекращенные проекты:

  • jSuffixArrays: несколько реализаций Java структуры данных Suffix Array с различными характеристиками производительности и памяти.
  • JUnitBenchmarks: набор расширений для превращения тестов JUnit4 в микротестеры производительности с мониторингом GC, измерением дисперсии времени и простой графической визуализацией.

См. Также [ править ]

  •  Портал бесплатного программного обеспечения

Ссылки [ править ]

  1. ^ Проект Carrot2, Станислав Осинский, Давид Вайс. "Carrot2 - механизм кластеризации результатов поиска с открытым исходным кодом" .CS1 maint: несколько имен: список авторов ( ссылка )
  2. ^ Демонстрация кластеризации результатов поиска Carrot 2
  3. ^ Давид Вайс: Интерфейс кластеризации для результатов веб-поиска на польском и английском языках. Магистерская диссертация. Познанский технологический университет, Познань, Польша, 2001 скачать PDF
  4. ^ a b Станислав Осински, Давид Вайс: концептуальный алгоритм для кластеризации результатов поиска . IEEE Intelligent Systems, май / июнь, 3 (том 20), 2005 г., стр. 48–54.
  5. ^ "Морковь2" .
  6. ^ Орен Замир, Орен Эциони : Кластеризация веб-документов: демонстрация осуществимости , Труды 21-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области поиска информации (1998), стр. 46–54
  7. ^ Carrot Search sc "Carrot Search: программное обеспечение для кластеризации и визуализации документов" .
  8. ^ Поиск моркови sc "Поиск моркови: Lingo3G: Механизм кластеризации текстовых документов" .
  9. ^ Поиск моркови sc "Лаборатории поиска моркови" .