Национальный центр интеллектуального анализа текста

Национальный центр Text Mining ( NaCTeM ) ^[1] является финансируемым государством анализ текста (TM) центр. Он был создан для оказания поддержки, советов и информации о технологиях ТМ и для распространения информации от более широкого сообщества ТМ, а также для предоставления специализированных услуг и инструментов в ответ на требования академического сообщества Соединенного Королевства.

Национальный центр интеллектуального анализа текстов (NaCTeM)
Учредил	2004 г.
Материнская организация	Департамент компьютерных наук Манчестерского университета
Принадлежность	Манчестерский университет
Директор	Проф. София Ананиаду
Место расположения	Манчестер , Великобритания
Веб-сайт	www .nactem .ac .uk

В программные инструменты и услуги , которые позволяют NaCTeM поставки исследователям применять методы интеллектуального анализа текста проблем в их конкретных областях , представляющих интерес - примеры этих инструментов приведены ниже. Помимо предоставления услуг, центр также участвует и вносит значительный вклад в сообщество исследователей текстового анализа как на национальном, так и на международном уровне в таких инициативах, как Europe PubMed Central .

Центр расположен в Манчестерском институте биотехнологии и управляется и организуется Департаментом компьютерных наук Манчестерского университета . NaCTeM вносит свой вклад в обработку естественного языка и извлечение информации , включая распознавание именованных сущностей и извлечение сложных отношений (или событий), которые существуют между именованными объектами, наряду с параллельными и распределенными системами интеллектуального анализа данных в биомедицинских и клинических приложениях.

Услуги

TerMine

TerMine - это независимый от предметной области метод автоматического распознавания терминов, который можно использовать для поиска наиболее важных терминов в документе и их автоматического ранжирования. ^[2]

AcroMine

AcroMine находит все известные расширенные формы сокращений в том виде, в каком они появились в записях Medline, или, наоборот, его можно использовать для поиска возможных сокращений расширенных форм, которые ранее появлялись в Medline, и устраняет их неоднозначность . ^[3]

СМИ

Medie - это интеллектуальная поисковая система для семантического поиска предложений, содержащих биомедицинские корреляции из рефератов Medline ^[4]

Facta +

Facta + - это поисковая система Medline для поиска ассоциаций между биомедицинскими концепциями. ^[5]

Facta + Визуализатор

Facta + Visualizer - это веб-приложение, которое помогает понять результаты поиска FACTA + с помощью интуитивно понятной графической визуализации. ^[6]

KLEIO

KLEIO - это многогранная семантическая система поиска информации по рефератам Medline.

Европа PMC EvidenceFinder

Европа PMC EvidenceFinder Европа PMC EvidenceFinder помогает пользователям исследовать факты, связанные с интересующими субъектами, в полнотекстовых статьях базы данных Europe PubMed Central . ^[7]

EUPMC Evidence Finder для анатомических образований с мета-знаниями

Программа поиска доказательств EUPMC для анатомических образований с мета-знаниями аналогична европейской PMC EvidenceFinder, позволяя исследовать факты, связанные с анатомическими образованиями, в полнотекстовых статьях базы данных Europe PubMed Central. Факты можно фильтровать по различным аспектам их интерпретации (например, отрицание, безусловно уровень, новизна).

Инфо-ПабМед

Info-PubMed предоставляет информацию и графическое представление биомедицинских взаимодействий, извлеченных из Medline с использованием технологии глубокого семантического анализа . Он дополнен словарем терминов, состоящим из более чем 200 000 названий белков / генов и определения типов заболеваний и организмов .

Протоколы клинических испытаний (ASCOT)

ASCOT - это эффективное приложение для поиска с расширенной семантикой, адаптированное для документов клинических испытаний. ^[8]

История медицины (HOM)

HOM - это система семантического поиска по архивам исторических медицинских документов.

Ресурсы

БиоЛексикон

BioLexicon - это масштабный терминологический ресурс в области биомедицины. ^[9]

GENIA

GENIA - это сборник справочных материалов для разработки биомедицинских систем интеллектуального анализа текстов.

ГРЕК

GREC - это семантически аннотированный корпус рефератов Medline, предназначенный для обучения систем IE и / или ресурсов, которые используются для извлечения событий из биомедицинской литературы. ^[10]

Корпус метаболитов и ферментов

Это корпус рефератов Medline, аннотированных экспертами с названиями метаболитов и ферментов.

Анатомический корпус

Набор корпусов, вручную аннотированных мелкозернистыми, независимыми от вида анатомическими объектами, для облегчения разработки систем интеллектуального анализа текста, которые могут выполнять подробный и всесторонний анализ биомедицинского научного текста. ^[11]^[12]

Корпус мета-знаний

Это обогащение корпуса событий GENIA, в котором события обогащены информацией различного уровня, относящейся к их интерпретации. Цель состоит в том, чтобы позволить системам быть обученными, чтобы они могли различать события, основанные на фактической информации или экспериментальном анализе, определенную информацию от предполагаемой информации и т. Д. ^[13]

Проекты

Арго

Целью проекта Argo является разработка рабочей среды для анализа (в первую очередь аннотирования) текстовых данных. Инструментальная среда, доступ к которой осуществляется как веб-приложение, поддерживает комбинацию элементарных компонентов обработки текста для формирования комплексных рабочих процессов обработки. Он предоставляет функциональные возможности для ручного вмешательства в автоматический процесс аннотации, исправляя или создавая новые аннотации, и упрощает совместную работу пользователей, предоставляя возможности совместного использования ресурсов, принадлежащих пользователям. Argo приносит пользу таким пользователям, как проектировщики текстового анализа, предоставляя интегрированную среду для разработки рабочих процессов обработки; аннотаторы / кураторы, предоставляя функции ручного аннотирования, поддерживаемые автоматической предварительной обработкой и постобработкой; и разработчикам, предоставляя инструментальные средства для тестирования и оценки текстовой аналитики.

Большой механизм

Большие механизмы - это большие объяснительные модели сложных систем, в которых взаимодействия имеют важные причинные эффекты. Хотя сбор больших данных все больше автоматизируется, создание больших механизмов остается в основном человеческими усилиями, которые становятся все более сложными из-за фрагментации и распространения знаний. Возможность автоматизировать строительство больших механизмов может иметь большое значение для научных исследований. Как один из ряда различных проектов, составляющих большую программу механизма, финансируемую DARPA , цель состоит в том, чтобы собрать всеобъемлющий большой механизм из литературы и предыдущих экспериментов и использовать его для вероятностной интерпретации новых данных о паномике пациентов. Мы интегрируем машинное чтение литературы по раку с вероятностными рассуждениями по заявлениям о раке с использованием специально разработанных онтологий, компьютерного моделирования механизмов (путей) рака, автоматизированного генерирования гипотез для расширения знаний о механизмах и «ученого-робота», который проводит эксперименты для проверки. гипотезы. Повторяющийся цикл интеллектуального анализа текста, моделирования, экспериментального тестирования и обновления мировоззрения призван привести к расширению знаний о механизмах рака.

ОБЩИЙ

Этот проект направлен на создание хранилища знаний о филиппинском биоразнообразии путем объединения отраслевых знаний и ресурсов филиппинских партнеров с аналитикой больших данных на основе интеллектуального анализа данных Национального центра интеллектуального анализа текстов Манчестерского университета. Хранилище будет представлять собой синергию различных типов информации, например, таксономической, встречаемости, экологической, биомолекулярной, биохимической, тем самым предоставляя пользователям полное представление об интересующих видах, что позволит им (1) проводить прогнозный анализ распределения видов. и (2) изучить потенциальные медицинские применения натуральных продуктов, полученных из филиппинских видов.

Проект ЧВК в Европе

Это сотрудничество с группой Text-Mining в Европейском институте биоинформатики (EBI) и Mimas (центр обработки данных) , формирующее рабочий пакет в проекте Europe PubMed Central (ранее UKPMC), который размещается и координируется Британской библиотекой . Европа PMC в целом образует европейскую версию бумажного хранилища PubMed Central в сотрудничестве с Национальными институтами здравоохранения (NIH) в США. Европа PMC финансируется консорциумом ключевых финансовых организаций, финансирующих биомедицинские исследования. Вклад в этот крупный проект заключается в применении решений интеллектуального анализа текста для улучшения поиска информации и поиска знаний. Таким образом, это крупномасштабное применение технологии, разработанной в других проектах NaCTeM, и являющееся важным ресурсом для сообщества биомедицины.

Горное биоразнообразие

Этот проект направлен на преобразование Библиотеки наследия биоразнообразия (BHL) в социальную цифровую библиотеку нового поколения для облегчения изучения и обсуждения (посредством интеграции в социальные сети) устаревших научных документов по биоразнообразию мировым сообществом и повышения осведомленности об изменениях. в биоразнообразии с течением времени среди широкой публики. Проект объединяет в BHL новые методы интеллектуального анализа текста, визуализацию, краудсорсинг и социальные сети. Полученный цифровой ресурс обеспечит полностью связанный и проиндексированный доступ ко всему содержимому документов библиотеки BHL с помощью семантически расширенных и интерактивных возможностей просмотра и поиска, что позволит пользователям легко и эффективно находить именно ту информацию, которая их интересует.

Горное дело для общественного здравоохранения

Этот проект направлен на проведение новых исследований в области интеллектуального анализа текста и машинного обучения, чтобы изменить способ проведения основанных на фактических данных обзоров общественного здравоохранения (EBPH). Целями проекта являются разработка новых неконтролируемых методов интеллектуального анализа текста для определения сходства терминов, поддержка скрининга при поиске в обзорах EBPH и разработка новых алгоритмов ранжирования и визуализации значимых ассоциаций нескольких типов в динамической и итеративной манере. Эти недавно разработанные методы будут оцениваться в обзорах EBPH на основе реализации пилотного проекта, чтобы определить уровень трансформации в обзоре EBPH.

Внешние ссылки

http://www.nactem.ac.uk

[ariadne-1] Ananiadou S (2007). «Национальный центр интеллектуального анализа текста: взгляд в будущее» . Ариадна (53 года).

[multi-word-2] Франци К., Ананиаду С. и Мима Х. (2007). «Автоматическое распознавание многословных терминов» (PDF) . Международный журнал электронных библиотек . 3 (2): 117–132.CS1 maint: несколько имен: список авторов ( ссылка )

[pmid17050571-3] Окадзаки Н., Ананиаду С. (2006). «Создание словаря сокращений с использованием подхода распознавания терминов» . Биоинформатика . 22 (24): 3089–95. DOI : 10.1093 / биоинформатики / btl534 . PMID 17050571 .

[4] Мияо, Ю., Охта, Т., Масуда, К., Цуруока, Ю., Йошида, К., Ниномия, Т. и Цуджи, Дж. (2006). Семантический поиск для точной идентификации реляционных понятий в массивных текстовых базах . Материалы 21-й Международной конференции по компьютерной лингвистике и 44-го ежегодного собрания Ассоциации компьютерной лингвистики. С. 1017–1024. DOI : 10.3115 / 1220175.1220303 .CS1 maint: несколько имен: список авторов ( ссылка )

[pmid18772154-5] Цуруока Й, Цудзи Дж, Ананиаду С. (2008). «FACTA: поисковая машина для поиска связанных биомедицинских концепций» . Биоинформатика . 24 (21): 2559–60. DOI : 10.1093 / биоинформатики / btn469 . PMC 2572701 . PMID 18772154 .

[6] Цуруока, Y; Miwa, M; Хамамото, K; Цуджи, Дж; Ананиаду, S (2011). «Обнаружение и визуализация косвенных ассоциаций между биомедицинскими концепциями» . Биоинформатика . 27 (13): i111–9. DOI : 10.1093 / биоинформатики / btr214 . PMC 3117364 . PMID 21685059 .

[7] Консорциум европейских PMC (2014). «Europe PMC: полнотекстовая база данных литературы по наукам о жизни и платформа для инноваций» . Исследования нуклеиновых кислот . 43 (D1): D1042 – D1048. DOI : 10.1093 / NAR / gku1061 . PMC 4383902 . PMID 25378340 .

[8] Корконцелос И., Му Т. и Ананиаду С. (2012). «ASCOT: веб-сервис на основе интеллектуального анализа текста для эффективного поиска и помощи в создании клинических испытаний» . BMC Медицинская информатика и принятие решений . 12 (Дополнение 1): S3. DOI : 10.1186 / 1472-6947-12-S1-S3 . PMC 3339391 . PMID 22595088 .CS1 maint: несколько имен: список авторов ( ссылка )

[9] Томпсон, П., Макнот, Дж., Монтеманьи, С., Кальцолари, Н., дель Гратта, Р., Ли, В., Марчи, С., Моначини, М., Пезик, П., Куочи, В. , Рупп, С.Дж., Сасаки, Ю., Вентури, Г., Ребхольц-Шуман, Д. и Ананиаду, С. (2011). «Биолексикон: масштабный терминологический ресурс для биомедицинского анализа текстов» . BMC Bioinformatics . 12 : 397. DOI : 10,1186 / 1471-2105-12-397 . PMC 3228855 . PMID 21992002 .CS1 maint: несколько имен: список авторов ( ссылка )

[10] Томпсон, П., Икбал, С.А., Макнот, Дж. И Ананиаду, С. (2009). «Создание аннотированного корпуса для поддержки извлечения биомедицинской информации» . BMC Bioinformatics . 10 : 349. DOI : 10,1186 / 1471-2105-10-349 . PMC 2774701 . PMID 19852798 .CS1 maint: несколько имен: список авторов ( ссылка )

[11] Пюйсало, С., Охта, Т., Мива, М., Чо, Х.-К., Цуджи, Дж. И Ананиаду, С. (2012). «Извлечение событий на нескольких уровнях биологической организации» . Биоинформатика . 28 (18): i575 – i581. DOI : 10.1093 / биоинформатики / bts407 . PMC 3436834 . PMID 22962484 .CS1 maint: несколько имен: список авторов ( ссылка )

[12] Пюйсало, С., Ананиаду, С. (2014). «Распознавание упоминания анатомических сущностей в литературном масштабе» . Биоинформатика . 30 (6): 868–875. DOI : 10.1093 / биоинформатики / btt580 . PMC 3957068 . PMID 24162468 .

[13] Томпсон, П., Наваз, Р., Макнот, Дж. И Ананиаду, С. (2011). «Пополнение корпуса биомедицинских событий аннотацией мета-знаний» . BMC Bioinformatics . 12 : 393. DOI : 10,1186 / 1471-2105-12-393 . PMC 3222636 . PMID 21985429 .CS1 maint: несколько имен: список авторов ( ссылка )

[1]