Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Apache Tika - это среда обнаружения и анализа контента , написанная на Java и разработанная Apache Software Foundation . [1] Он обнаруживает и извлекает метаданные и текст из более чем тысячи различных типов файлов , а также предоставляет библиотеку Java , имеет версии для сервера и командной строки, подходящие для использования из других языков программирования.

История [ править ]

Проект возник как часть кодовой базы Apache Nutch для обеспечения идентификации и извлечения контента при сканировании . В 2007 году он был выделен, чтобы сделать его более расширяемым и пригодным для использования системами управления контентом , другими поисковыми роботами и системами поиска информации. Автономная Tika была основана Жеромом Шарроном , Крисом Маттманном и Юккой Зиттингом. [2] В 2011 году Крис Маттманн и Юкка Зиттинг выпустили книгу Мэннинга «Тика в действии», а проект выпустил версию 1.0.

Особенности [ править ]

Tika предоставляет возможности для идентификации более 1400 типов файлов из таксономии типов MIME в Internet Assigned Numbers Authority . Для большинства наиболее распространенных и популярных форматов [3] Tika предоставляет возможности извлечения контента, метаданных и идентификации языка.

Он также может получать текст из изображений с помощью программного обеспечения для оптического распознавания текста Tesseract . [4]

Хотя Tika написана на Java , она широко используется в других языках. [5] Сервер RESTful и инструмент командной строки позволяют программам, не относящимся к Java, получать доступ к функциям Tika.

Известные применения [ править ]

Tika используется финансовыми учреждениями, включая Fair Isaac Corporation (FICO), [6] Goldman Sachs, [7] NASA и академическими исследователями [8], а также основными системами управления контентом, включая Drupal , [9] и Alfresco (программное обеспечение) [10 ] для анализа больших объемов контента и предоставления его в общих форматах с помощью методов поиска информации.

4 апреля 2016 года [11] Forbes опубликовал статью, в которой Tika названа одной из ключевых технологий, используемых более чем 400 журналистами для анализа 11,5 миллионов просочившихся документов, раскрывающих международный скандал с участием мировых лидеров, хранящих деньги в офшорных подставных корпорациях . Просочившиеся документы и проект по их анализу именуются Панамскими документами .

См. Также [ править ]

  • Магическое число

Ссылки [ править ]

  1. ^ "Апач Тика" . Проверено 15 апреля 2016 .
  2. ^ "Предложение Тика" . Проверено 15 апреля 2016 .
  3. ^ "Фонд программного обеспечения Apache" . Страница форматов Apache Tika . Проверено 16 апреля 2016 года .
  4. ^ "TikaOCR" . Апач Тика. 2019-03-26 . Проверено 2 декабря 2019 .
  5. ^ «Привязки API для Tika» . Апач Тика . Проверено 17 апреля 2016 .
  6. ^ «FICO привлечет сообщество Kaggle, состоящее из 180 000 специалистов по данным, чтобы стимулировать инновации в аналитическом облаке FICO | FICO®» . FICO® | Решения . Архивировано из оригинала на 2016-06-03 . Проверено 15 апреля 2016 .
  7. ^ «Goldman Sachs запускает работу с Elasticsearch - InformationWeek» . Информационная неделя . Проверено 21 июня 2017 .
  8. ^ «Изучение полярных данных с помощью Apache Tika» . Opensource.com . Проверено 15 апреля 2016 .
  9. ^ "Извлечение текста для Drupal с использованием Tika | Drupal.org" . www.drupal.org . Проверено 15 апреля 2016 .
  10. ^ «Преобразование контента и извлечение метаданных с помощью Apache Tika - alfrescowiki» . wiki.alfresco.com . Проверено 15 апреля 2016 .
  11. ^ Фокс-Брюстер, Томас. «От зашифрованных дисков к облаку Amazon - удивительный полет панамских документов» . Forbes . Проверено 15 апреля 2016 .