Апач Тика

Тика

Разработчики)	Фонд программного обеспечения Apache

Стабильный выпуск	1.24.1 / 21 апреля 2020 г . ; 10 месяцев назад ( 2020-04-21 )

Репозиторий	Репозиторий Тика
Написано в	Ява
Операционная система	Кроссплатформенность
Тип	API поиска и индексации
Лицензия	Лицензия Apache 2.0
Интернет сайт	тика .apache .org

Apache Tika - это среда обнаружения и анализа контента , написанная на Java и разработанная Apache Software Foundation . ^[1] Он обнаруживает и извлекает метаданные и текст из более чем тысячи различных типов файлов , а также предоставляет библиотеку Java , имеет версии для сервера и командной строки, подходящие для использования из других языков программирования.

История [ править ]

Проект возник как часть кодовой базы Apache Nutch для обеспечения идентификации и извлечения контента при сканировании . В 2007 году он был выделен, чтобы сделать его более расширяемым и пригодным для использования системами управления контентом , другими поисковыми роботами и системами поиска информации. Автономная Tika была основана Жеромом Шарроном , Крисом Маттманном и Юккой Зиттингом. ^[2] В 2011 году Крис Маттманн и Юкка Зиттинг выпустили книгу Мэннинга «Тика в действии», а проект выпустил версию 1.0.

Особенности [ править ]

Tika предоставляет возможности для идентификации более 1400 типов файлов из таксономии типов MIME в Internet Assigned Numbers Authority . Для большинства наиболее распространенных и популярных форматов ^[3] Tika предоставляет возможности извлечения контента, метаданных и идентификации языка.

Он также может получать текст из изображений с помощью программного обеспечения для оптического распознавания текста Tesseract . ^[4]

Хотя Tika написана на Java , она широко используется в других языках. ^[5] Сервер RESTful и инструмент командной строки позволяют программам, не относящимся к Java, получать доступ к функциям Tika.

Известные применения [ править ]

Tika используется финансовыми учреждениями, включая Fair Isaac Corporation (FICO), ^[6] Goldman Sachs, ^[7] NASA и академическими исследователями ^[8], а также основными системами управления контентом, включая Drupal , ^[9] и Alfresco (программное обеспечение) ^{[10 ]} для анализа больших объемов контента и предоставления его в общих форматах с помощью методов поиска информации.

4 апреля 2016 года ^[11] Forbes опубликовал статью, в которой Tika названа одной из ключевых технологий, используемых более чем 400 журналистами для анализа 11,5 миллионов просочившихся документов, раскрывающих международный скандал с участием мировых лидеров, хранящих деньги в офшорных подставных корпорациях . Просочившиеся документы и проект по их анализу именуются Панамскими документами .

См. Также [ править ]

Магическое число

Ссылки [ править ]

^ "Апач Тика" . Проверено 15 апреля 2016 .
^ "Предложение Тика" . Проверено 15 апреля 2016 .
^ "Фонд программного обеспечения Apache" . Страница форматов Apache Tika . Проверено 16 апреля 2016 года .
^ "TikaOCR" . Апач Тика. 2019-03-26 . Проверено 2 декабря 2019 .
^ «Привязки API для Tika» . Апач Тика . Проверено 17 апреля 2016 .
^ «FICO привлечет сообщество Kaggle, состоящее из 180 000 специалистов по данным, чтобы стимулировать инновации в аналитическом облаке FICO | FICO®» . FICO® | Решения . Архивировано из оригинала на 2016-06-03 . Проверено 15 апреля 2016 .
^ «Goldman Sachs запускает работу с Elasticsearch - InformationWeek» . Информационная неделя . Проверено 21 июня 2017 .
^ «Изучение полярных данных с помощью Apache Tika» . Opensource.com . Проверено 15 апреля 2016 .
^ "Извлечение текста для Drupal с использованием Tika | Drupal.org" . www.drupal.org . Проверено 15 апреля 2016 .
^ «Преобразование контента и извлечение метаданных с помощью Apache Tika - alfrescowiki» . wiki.alfresco.com . Проверено 15 апреля 2016 .
^ Фокс-Брюстер, Томас. «От зашифрованных дисков к облаку Amazon - удивительный полет панамских документов» . Forbes . Проверено 15 апреля 2016 .

[1] "Апач Тика" . Проверено 15 апреля 2016 .

[2] "Предложение Тика" . Проверено 15 апреля 2016 .

[3] "Фонд программного обеспечения Apache" . Страница форматов Apache Tika . Проверено 16 апреля 2016 года .

[4] "TikaOCR" . Апач Тика. 2019-03-26 . Проверено 2 декабря 2019 .

[5] «Привязки API для Tika» . Апач Тика . Проверено 17 апреля 2016 .

[6] «FICO привлечет сообщество Kaggle, состоящее из 180 000 специалистов по данным, чтобы стимулировать инновации в аналитическом облаке FICO | FICO®» . FICO® | Решения . Архивировано из оригинала на 2016-06-03 . Проверено 15 апреля 2016 .

[7] «Goldman Sachs запускает работу с Elasticsearch - InformationWeek» . Информационная неделя . Проверено 21 июня 2017 .

[8] «Изучение полярных данных с помощью Apache Tika» . Opensource.com . Проверено 15 апреля 2016 .

[9] "Извлечение текста для Drupal с использованием Tika | Drupal.org" . www.drupal.org . Проверено 15 апреля 2016 .

[10] «Преобразование контента и извлечение метаданных с помощью Apache Tika - alfrescowiki» . wiki.alfresco.com . Проверено 15 апреля 2016 .

[11] Фокс-Брюстер, Томас. «От зашифрованных дисков к облаку Amazon - удивительный полет панамских документов» . Forbes . Проверено 15 апреля 2016 .

[1]

vтеФонд программного обеспечения Apache
Проекты высшего уровня	Accumulo ActiveMQ Поток воздуха Амбари Муравей Овен Стрелка HTTP-сервер Apache Годовая процентная ставка Авро Ось Ось2 Луч Ищейка Бруклин Строитель Кальцит Верблюд CarbonData Кассандра Cayenne Химия CloudStack Кокон Кордова CouchDB ЗАКАЗЫ CXF дерби Каталог Дрель Друид Империя-дб Феликс Flex Флинк Лоток Джеронимо Гираф Гамп Hadoop HBase Спираль Улей Импала Зайчик Джеймс Йена Джини JMeter Кафка Караф Куду Килин Lucene Mahout Мармотта Maven MINA mod_perl MyFaces NetBeans Nutch OFBiz Oozie OpenEJB OpenJPA OpenNLP OрenOffice ORC PDFBox Паркет Феникс POI Свинья Вращаться Qpid Роликовый RocketMQ Самза ServiceMix Широ СИНГА Слинг Solr Искра Буря SpamAssassin Sqoop Распорки 1 Распорки 2 Subversion Суперсет SystemML Гобелен Бережливость Тика Кот Трафодион Сервер трафика UIMA Скорость Калитка Ксалан Xerces XMLBeans Йетус Работник зоопарка
Commons	BCEL BSF Демон Желе логирование
Инкубатор	Айсберг MXNet NuttX Таверна XAP
Другие проекты	Батик Бензопила FOP Плющ Log4j
Чердак	Абдера Вершина AxKit Улей Голубое небо iBATIS Стандартная библиотека C ++ Кактус Нажмите Континуум Deltacloud Травить Экскалибур Форрест Хама Гармония HiveMind Джакарта Леня ODE Сланец Shindig Горка Станбол Тоскана Волна Подмигивание
Лицензии	Лицензия Apache
Категория