Разработчики) | Фонд программного обеспечения Apache |
---|---|
Стабильный выпуск | 1.24.1 / 21 апреля 2020 г . |
Репозиторий | Репозиторий Тика |
Написано в | Ява |
Операционная система | Кроссплатформенность |
Тип | API поиска и индексации |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | тика |
Apache Tika - это среда обнаружения и анализа контента , написанная на Java и разработанная Apache Software Foundation . [1] Он обнаруживает и извлекает метаданные и текст из более чем тысячи различных типов файлов , а также предоставляет библиотеку Java , имеет версии для сервера и командной строки, подходящие для использования из других языков программирования.
История [ править ]
Проект возник как часть кодовой базы Apache Nutch для обеспечения идентификации и извлечения контента при сканировании . В 2007 году он был выделен, чтобы сделать его более расширяемым и пригодным для использования системами управления контентом , другими поисковыми роботами и системами поиска информации. Автономная Tika была основана Жеромом Шарроном , Крисом Маттманном и Юккой Зиттингом. [2] В 2011 году Крис Маттманн и Юкка Зиттинг выпустили книгу Мэннинга «Тика в действии», а проект выпустил версию 1.0.
Особенности [ править ]
Tika предоставляет возможности для идентификации более 1400 типов файлов из таксономии типов MIME в Internet Assigned Numbers Authority . Для большинства наиболее распространенных и популярных форматов [3] Tika предоставляет возможности извлечения контента, метаданных и идентификации языка.
Он также может получать текст из изображений с помощью программного обеспечения для оптического распознавания текста Tesseract . [4]
Хотя Tika написана на Java , она широко используется в других языках. [5] Сервер RESTful и инструмент командной строки позволяют программам, не относящимся к Java, получать доступ к функциям Tika.
Известные применения [ править ]
Tika используется финансовыми учреждениями, включая Fair Isaac Corporation (FICO), [6] Goldman Sachs, [7] NASA и академическими исследователями [8], а также основными системами управления контентом, включая Drupal , [9] и Alfresco (программное обеспечение) [10 ] для анализа больших объемов контента и предоставления его в общих форматах с помощью методов поиска информации.
4 апреля 2016 года [11] Forbes опубликовал статью, в которой Tika названа одной из ключевых технологий, используемых более чем 400 журналистами для анализа 11,5 миллионов просочившихся документов, раскрывающих международный скандал с участием мировых лидеров, хранящих деньги в офшорных подставных корпорациях . Просочившиеся документы и проект по их анализу именуются Панамскими документами .
См. Также [ править ]
- Магическое число
Ссылки [ править ]
- ^ "Апач Тика" . Проверено 15 апреля 2016 .
- ^ "Предложение Тика" . Проверено 15 апреля 2016 .
- ^ "Фонд программного обеспечения Apache" . Страница форматов Apache Tika . Проверено 16 апреля 2016 года .
- ^ "TikaOCR" . Апач Тика. 2019-03-26 . Проверено 2 декабря 2019 .
- ^ «Привязки API для Tika» . Апач Тика . Проверено 17 апреля 2016 .
- ^ «FICO привлечет сообщество Kaggle, состоящее из 180 000 специалистов по данным, чтобы стимулировать инновации в аналитическом облаке FICO | FICO®» . FICO® | Решения . Архивировано из оригинала на 2016-06-03 . Проверено 15 апреля 2016 .
- ^ «Goldman Sachs запускает работу с Elasticsearch - InformationWeek» . Информационная неделя . Проверено 21 июня 2017 .
- ^ «Изучение полярных данных с помощью Apache Tika» . Opensource.com . Проверено 15 апреля 2016 .
- ^ "Извлечение текста для Drupal с использованием Tika | Drupal.org" . www.drupal.org . Проверено 15 апреля 2016 .
- ^ «Преобразование контента и извлечение метаданных с помощью Apache Tika - alfrescowiki» . wiki.alfresco.com . Проверено 15 апреля 2016 .
- ^ Фокс-Брюстер, Томас. «От зашифрованных дисков к облаку Amazon - удивительный полет панамских документов» . Forbes . Проверено 15 апреля 2016 .