Биомедицинский анализ текста (включая биомедицинскую обработку естественного языка или BioNLP ) относится к методам и изучению того, как интеллектуальный анализ текста может быть применен к текстам и литературе в области биомедицины и молекулярной биологии . В качестве области исследования биомедицинский анализ текста включает идеи из обработки естественного языка , биоинформатики , медицинской информатики и компьютерной лингвистики . Стратегии, разработанные в ходе исследований в этой области, часто применяются к литературе по биомедицине и молекулярной биологии, доступной через такие службы, как PubMed..
Соображения
Применение подходов интеллектуального анализа текста к биомедицинскому тексту требует особых соображений, общих для данной предметной области.
Наличие аннотированных текстовых данных
Большие аннотированные корпуса, используемые при разработке и обучении методам интеллектуального анализа текста общего назначения (например, наборы диалогов в фильмах, [2] обзоры продуктов [3] или текст статьи в Википедии), не являются специфическими для биомедицинского языка. Хотя они могут служить свидетельством общих свойств текста, таких как части речи, они редко содержат концепции, представляющие интерес для биологов или клиницистов. Таким образом, разработка новых методов идентификации особенностей биомедицинских документов требует сборки специализированных корпусов. [4] Ресурсы, предназначенные для помощи в создании новых биомедицинских методов интеллектуального анализа текстов, были разработаны с помощью задач «Информатика для интеграции биологии и прикроватных проблем» [5] [6] [7] и исследователей биомедицинской информатики. [8] [9] Исследователи текстового анализа часто комбинируют эти корпуса с контролируемыми словарями и онтологиями, доступными через Единую систему медицинского языка (UMLS) и медицинские предметные заголовки (MeSH) Национальной медицинской библиотеки .
Методы, основанные на машинном обучении, часто требуют очень больших наборов данных в качестве обучающих данных для построения полезных моделей. [10] Ручное аннотирование больших текстовых корпусов невозможно. Таким образом, данные обучения могут быть результатом слабого контроля [11] [12] или чисто статистических методов.
Вариация структуры данных
Как и другие текстовые документы, биомедицинские документы содержат неструктурированные данные . [13] Публикации исследований имеют разные форматы, содержат разные типы информации и перемежаются рисунками, таблицами и другим нетекстовым контентом. Как неструктурированный текст, так и элементы частично структурированного документа, такие как таблицы, могут содержать важную информацию, которую следует анализировать. [14] Клинические документы могут различаться по структуре и языку в разных отделениях и регионах. Другие типы биомедицинских текстов, такие как этикетки на лекарствах, [15] могут соответствовать общим структурным рекомендациям, но не иметь дополнительных деталей.
Неопределенность
В биомедицинской литературе содержатся утверждения о наблюдениях, которые могут не соответствовать действительности. Этот текст может выражать неуверенность или скептицизм по поводу заявлений. Без конкретных адаптаций подходы к интеллектуальному анализу текста, разработанные для выявления утверждений в тексте, могут неправильно характеризовать эти «хеджированные» утверждения как факты. [16]
Поддержка клинических потребностей
Приложения для анализа биомедицинских текстов, разработанные для клинического использования, должны в идеале отражать потребности и требования клиницистов. [4] Это вызывает беспокойство в условиях, когда ожидается, что поддержка принятия клинических решений будет информативной и точной.
Совместимость с клиническими системами
Новые системы интеллектуального анализа текста должны работать с существующими стандартами, электронными медицинскими записями и базами данных. [4] Были разработаны методы взаимодействия с клиническими системами, такими как LOINC [17], но для их внедрения и поддержки требуются значительные организационные усилия. [18] [19]
Конфиденциальность пациента
Системы интеллектуального анализа текста, работающие с частными медицинскими данными, должны уважать их безопасность и обеспечивать анонимность, где это необходимо. [20] [21] [22]
Процессы
Конкретные подзадачи вызывают особую озабоченность при обработке биомедицинского текста. [13]
Признание именной организации
Разработки в области биомедицинского анализа текста включают идентификацию биологических объектов с распознаванием названных объектов , или NER. Имена и идентификаторы биомолекул, таких как белки и гены , [23] химические соединения и лекарства, [24] и названия болезней [25] , все использовались как сущности. Большинство методов распознавания сущностей поддерживаются предопределенными лингвистическими функциями или словарями, хотя методы, включающие глубокое обучение и встраивание слов , также оказались успешными в биомедицинском NER. [26]
Классификация и кластеризация документов
Биомедицинские документы могут быть классифицированы или сгруппированы в зависимости от их содержания и тематики. При классификации категории документов указываются вручную [27], в то время как при кластеризации документы формируются в отдельные группы, зависящие от алгоритма. [28] Эти две задачи представляют контролируемые и неконтролируемые методы, соответственно, но цель обеих - создание подмножеств документов на основе их отличительных особенностей. Методы кластеризации биомедицинских документов основаны на кластеризации k- средних . [28]
Открытие отношений
Биомедицинские документы описывают связи между концепциями, будь то взаимодействия между биомолекулами, события, происходящие впоследствии с течением времени (например, временные отношения) или причинно-следственные связи. Методы интеллектуального анализа текста могут выполнять обнаружение отношений, чтобы идентифицировать эти связи, часто совместно с распознаванием именованных сущностей. [29]
Обнаружение хеджирования
Проблема выявления неопределенных или «хеджируемых» заявлений решалась посредством обнаружения сигналов хеджирования в биомедицинской литературе. [16]
Обнаружение претензий
Многие исследователи разработали методы выявления конкретных научных утверждений из литературы. [30] [31] На практике этот процесс включает в себя как отдельные фразы и предложения, обозначающие основные аргументы, выдвинутые авторами документа (процесс, известный как анализ аргументов , с использованием инструментов, используемых в таких областях, как политология), так и сравнение утверждений с найти потенциальные противоречия между ними. [31]
Извлечение информации
Извлечение информации или IE - это процесс автоматического определения структурированной информации из неструктурированного или частично структурированного текста. Процессы IE могут включать несколько или все вышеперечисленные действия, включая распознавание именованных сущностей, обнаружение взаимосвязей и классификацию документов, с общей целью перевода текста в более структурированную форму, такую как содержимое шаблона или базы знаний . В биомедицинской области IE используется для создания связей между концепциями, описанными в тексте, например, ген A ингибирует ген B, а ген C участвует в заболевании G. [32] Базы биомедицинских знаний, содержащие такую информацию, обычно являются продуктами обширного руководства. Таким образом, замена ручных усилий автоматизированными методами остается актуальной областью исследований. [33] [34]
Поиск информации и ответы на вопросы
Биомедицинский анализ текста поддерживает приложения для идентификации документов и концепций, соответствующих поисковым запросам. Поисковые системы, такие как поиск PubMed, позволяют пользователям запрашивать базы данных литературы по словам или фразам, присутствующим в содержании документа, метаданных или указателях, таких как MeSH . Аналогичные подходы можно использовать для поиска медицинской литературы . Для получения более детальных результатов некоторые приложения позволяют пользователям выполнять поиск с помощью запросов на естественном языке и определять конкретные биомедицинские отношения. [35]
16 марта 2020 года Национальная медицинская библиотека и другие организации запустили набор данных открытых исследований COVID-19 (CORD-19), чтобы обеспечить анализ текущей литературы по новому вирусу. Набор данных по приглашению проекта Semantic Scholar [36] из шестигранного института искусственного интеллекта . [37] Среди других участников - Google , Microsoft Research , Центр безопасности и новых технологий и Инициатива Чана Цукерберга . [38]
Ресурсы
Корпорация
В следующей таблице перечислены подборки корпусов биомедицинских текстов и их содержание. Эти элементы включают аннотированные корпуса, источники литературы по биомедицинским исследованиям и ресурсы, часто используемые в качестве словарных и / или онтологических ссылок, такие как MeSH . Элементы, отмеченные «Да» в разделе «В свободном доступе», можно загрузить из общедоступного места.
Название Корпуса | Авторы или группа | СОДЕРЖАНИЕ | Свободно доступны | Цитата |
---|---|---|---|---|
2006 i2b2 Deidentification and Smoking Challenge | i2b2 | 889 аннотированных аннотаций для идентификации пациентов и статуса курения. | Да, с регистрацией | [39] [40] |
2008 i2b2 Obesity Challenge | i2b2 | 1237 обезличенных медицинские газоразрядные резюме аннотированных на предмет наличия или отсутствия сопутствующих заболеваний от ожирения . | Да, с регистрацией | [41] |
Конкурс лекарств i2b2, 2009 г. | i2b2 | 1243 аннотированных кратких описания медицинских выписок с аннотациями к названиям и деталям лекарств, включая дозировку, режим , частоту, продолжительность, причину и наличие в списке или описательной структуре. | Да, с регистрацией | [42] [43] |
2010 i2b2 Relations Challenge | i2b2 | Резюме медицинских выписок с аннотациями для медицинских проблем, анализов, лечения и взаимосвязей между этими понятиями. Только часть этих записей данных доступна для использования в исследованиях из-за ограничений IRB. | Да, с регистрацией | [5] |
2011 i2b2 Coreference Challenge | i2b2 | 978 обезличенных кратких отчетов о выписке из медицинских учреждений, отчетов о проделанной работе и других клинических отчетов, снабженных пояснениями и ключевыми выводами . Включает корпус ODIE. | Да, с регистрацией | [44] |
2012 i2b2 Temporal Relations Challenge | i2b2 | 310 аннотированных аннотаций по событиям и временным отношениям. | Да, с регистрацией | [6] |
Конкурс по деидентификации i2b2, 2014 г. | i2b2 | 1304 деидентифицированных продольных медицинских карты с аннотациями для защищенной медицинской информации (PHI) . | Да, с регистрацией | [45] |
2014 i2b2 Вызов факторов риска сердечных заболеваний | i2b2 | 1304 деидентифицированных продольных медицинских карты с комментариями о факторах риска заболевания сердечной артерии . | Да, с регистрацией | [46] |
НАЗНАЧЕН | Bunescu et al. | 200 рефератов, снабженных аннотациями белок-белковых взаимодействий , а также отрицательные примеры рефератов, не содержащих белок-белковых взаимодействий. | да | [47] |
BioC-BioGRID | БИОКРЕАТИВ | 120 полных текстов исследовательских статей с комментариями о межбелковых взаимодействиях . | да | [48] |
БИОКРЕАТИВ 1 | БИОКРЕАТИВ | 15 000 предложений (10 000 тренировок и 5 000 тестов) с аннотациями для названий белков и генов. 1000 полнотекстовых статей о биомедицинских исследованиях, аннотированных названиями белков и терминами генной онтологии . | да | [49] |
БИОКРЕАТИВ 2 | БИОКРЕАТИВ | 15 000 предложений (10 000 обучающих и 5 000 тестовых, отличных от первого корпуса) с аннотациями для названий белков и генов. 542 реферата связаны с идентификаторами EntrezGene . Разнообразные исследовательские статьи с комментариями об особенностях белок-белковых взаимодействий . | да | [50] |
Корпус задач BioCreative V CDR (BC5CDR) | БИОКРЕАТИВ | 1 500 статей (заголовок и аннотация), опубликованных в 2014 г. или позже, аннотированных по 4 409 химическим веществам, 5 818 заболеваниям и 3116 взаимодействиям химикатов с болезнями. | да | [51] |
BioInfer | Pyysalo et al. | 1100 предложений из аннотаций биомедицинских исследований с аннотациями для взаимосвязей, именованных сущностей и синтаксических зависимостей. | Нет | [52] |
BioScope | Vincze et al. | 1954 клинических отчета, 9 статей и 1273 реферата с аннотациями для лингвистической области и терминов, обозначающих отрицание или неопределенность. | да | [53] |
Биотекст Распознавание определений сокращений | Биотекст Проект | 1000 рефератов по теме «дрожжи» с аннотациями сокращений и их значений. | да | [54] |
Данные о взаимодействии белков и белков BioText | Биотекст Проект | 1322 предложения, описывающих белок-белковые взаимодействия между ВИЧ-1 и человеческими белками, с указанием типов взаимодействия. | да | [55] |
База данных сравнительной токсикогеномики | Davis et al. | База данных вручную созданных ассоциаций между химическими веществами, генными продуктами, фенотипами, болезнями и воздействием окружающей среды. | да | [56] |
РЕМЕСЛО | Verspoor et al. | 97 полнотекстовых биомедицинских публикаций с аннотациями лингвистических структур и биологических концепций | да | [57] |
GENIA Corpus | Проект GENIA | 1999 аннотаций биомедицинских исследований по темам «человек», «клетки крови» и «факторы транскрипции», снабженных аннотациями по частям речи, синтаксису, терминам, событиям, отношениям и сопоставлениям . | да | [58] [59] |
FamPlex | Бахман и др. | Имена и семейства белков связаны с уникальными идентификаторами. Включает наборы аффиксов . | да | [60] |
Рефераты FlySlip | FlySlip | 82 отрывка из исследований по Drosophila, помеченные названиями генов. | да | [61] |
Полные статьи FlySlip | FlySlip | 5 исследовательских работ по дрозофилам, аннотированных анафорическими связями между именными фразами, относящимися к генам и биологически связанным объектам. | да | [62] |
Спекулятивные предложения FlySlip | FlySlip | Более 1500 предложений аннотированы как умозрительные или не умозрительные. Включает аннотации статей. | да | [63] |
IEPA | Ding et al. | 486 предложений из аннотаций биомедицинских исследований с аннотациями для пар сопутствующих химических веществ, включая белки. | Нет | [64] |
Корпус JNLPBA | Kim et al. | Расширенная версия версии 3 корпуса GENIA для задач NER. | Нет | [65] |
Изучение языка в логике (LLL) | Nédellec et al. | 77 предложений из исследовательских статей о бактерии Bacillus subtilis , аннотированных по взаимодействиям белок-ген. | да | [66] |
Медицинские предметные рубрики (MeSH) | Национальная медицинская библиотека | Иерархически организованная терминология для индексации и каталогизации биомедицинских документов. | да | [67] |
Метатезавр | Национальная медицинская библиотека / UMLS | 3,67 миллиона концептов и 14 миллионов имен концептов, сопоставленных более чем с 200 источниками биомедицинской лексики и идентификаторов. | Да, с лицензионным соглашением UMLS | [68] [69] |
MIMIC-III | Лаборатория вычислительной физиологии Массачусетского технологического института | деидентифицированные данные, связанные с 53 423 отдельными случаями госпитализации взрослых пациентов. | Требуется обучение и официальный запрос доступа | [70] |
ODIE Corpus | Савова и др. | 180 клинических заметок, снабженных 5 992 парами сопоставлений . | Нет | [71] |
OHSUMED | Hersh et al. | 348 566 аннотаций биомедицинских исследований и индексируемой информации из MEDLINE , включая MeSH (по состоянию на 1991 г.). | да | [72] |
Подмножество открытого доступа PMC | Национальная медицинская библиотека / PubMed Central | Более 2 миллионов исследовательских статей, обновляемых еженедельно. | да | [73] |
RxNorm | Национальная медицинская библиотека / UMLS | Нормализованные названия клинических лекарств и упаковок лекарств с комбинированными ингредиентами, сильными сторонами и формой, а также присвоенные типы из семантической сети. | Да, с лицензионным соглашением UMLS | [74] |
Семантическая сеть | Национальная медицинская библиотека / UMLS | Списки 133 семантических типов и 54 семантических отношений, охватывающих биомедицинские концепции и словарный запас. | Да, с лицензионным соглашением UMLS | [75] [76] |
СПЕЦИАЛИСТ Лексикон | Национальная медицинская библиотека / UMLS | Синтаксическая лексика биомедицинского и общего английского языка. | да | [77] [78] |
Устранение неоднозначности слов (WSD) | Национальная медицинская библиотека / UMLS | 203 неоднозначных слова и 37 888 автоматически извлеченных случаев их использования в публикациях биомедицинских исследований. | Да, с лицензионным соглашением UMLS | [79] [80] |
Yapex | Franzén et al. | 200 аннотаций биомедицинских исследований с названиями белков. | Нет | [81] |
Вложения слов
Несколько групп разработали наборы биомедицинской лексики, сопоставленные с векторами действительных чисел, известными как векторы слов или вложения слов . Источники предварительно обученных встраиваний, специфичных для биомедицинского словаря, перечислены в таблице ниже. Большинство из них являются результатами модели word2vec, разработанной Миколовым и др. [82], или вариантов word2vec.
Имя набора | Авторы или группа | Содержание и источник | Цитата |
---|---|---|---|
BioASQword2vec | BioASQ | Векторы, созданные word2vec из 10 876 004 рефератов английской версии PubMed . | [83] |
Ресурсы bio.nlplab.org | Pyysalo et al. | Коллекция векторов слов, созданных с помощью различных подходов, обученных на тексте из PubMed и PubMed Central . | [84] |
BioVec | Асгари и Мофрад | Векторы последовательностей генов и белков, обученные с помощью Swiss-Prot . | [85] |
Рентгенологический отчет | Banerjee et al. | Векторы, полученные word2vec из текста 10 000 радиологических отчетов. | [86] |
Приложения
Приложения интеллектуального анализа текста в биомедицинской области включают вычислительные подходы для помощи в исследованиях стыковки белков , [87] взаимодействий между белками , [88] [89] и ассоциаций «белок-болезнь». [90]
Идентификация кластера генов
Были разработаны методы определения ассоциации кластеров генов, полученных с помощью экспериментов на микроматрицах, с биологическим контекстом, представленным в соответствующей литературе. [91]
Белковые взаимодействия
Было исследовано автоматическое извлечение взаимодействий белков [92] и ассоциации белков с функциональными концепциями (например , терминами генной онтологии ). [ необходима цитата ] Поисковая машина PIE была разработана для выявления и возврата упоминаний белок-белковых взаимодействий из статей, проиндексированных в MEDLINE . [93] Извлечение кинетических параметров из текста или субклеточного расположения белков также решалось с помощью технологий извлечения информации и интеллектуального анализа текста. [ необходима цитата ]
Ассоциации генных болезней
Анализ текста может помочь в расстановке приоритетов генов или идентификации генов, которые, скорее всего, способствуют генетическим заболеваниям . Одна группа сравнила несколько словарей, представлений и алгоритмов ранжирования для разработки критериев приоритизации генов. [94]
Генные ассоциации
Группа сельскохозяйственных геномиков определила гены, связанные с репродуктивными признаками крупного рогатого скота, с использованием интеллектуального анализа текста, среди других подходов. [95]
Ассоциации "белок-болезнь"
Интеллектуальный анализ текста позволяет беспристрастно оценивать взаимосвязь между белками и болезнями в огромном количестве неструктурированных текстовых данных . [96]
Применение анализа фраз к ассоциациям болезней
В ходе исследования текстового анализа была собрана коллекция из 709 основных белков внеклеточного матрикса и связанных белков на основе двух баз данных: MatrixDB ( matrixdb.univ-lyon1.fr ) и UniProt . Этот набор белков имел управляемый размер и богатый объем связанной информации, что делало его подходящим для применения инструментов интеллектуального анализа текста. Исследователи провели анализ фраз, чтобы изучить отдельные белки внеклеточного матрикса в биомедицинской литературе, посвященной шести категориям сердечно-сосудистых заболеваний . Они использовали конвейер фразового анализа, контекстно- зависимую семантическую онлайн-аналитическую обработку (CaseOLAP) [97], а затем семантически оценили все 709 белков в соответствии с их целостностью, популярностью и отличительностью, используя конвейер CaseOLAP. Исследование с интеллектуальным анализом текста подтвердило существующие взаимосвязи и предоставило информацию о ранее неизвестных биологических процессах в сердечно-сосудистой патофизиологии. [90]
Программные инструменты
Поисковые системы
Поисковые системы, разработанные для поиска биомедицинской литературы, относящейся к пользовательскому запросу, часто полагаются на подходы интеллектуального анализа текста. Общедоступные инструменты, специально предназначенные для исследовательской литературы, включают поиск в PubMed, поиск в Europe PubMed Central , GeneView [98] и APSE [99]. Аналогичным образом были разработаны поисковые машины и системы индексации, специфичные для биомедицинских данных, включая DataMed [100] и OmicsDI. [101]
Некоторые поисковые системы, такие как Essie, [102] OncoSearch, [103] PubGene , [104] [105] и GoPubMed [106] ранее были общедоступными, но с тех пор были прекращены, устарели или интегрированы в коммерческие продукты.
Системы анализа медицинских карт
Электронные медицинские карты (EMR) и электронные медицинские карты (EHR) собираются медицинским персоналом в ходе диагностики и лечения. Хотя эти записи обычно включают структурированные компоненты с предсказуемыми форматами и типами данных, остальные отчеты часто представляют собой произвольный текст, и их трудно найти, что создает проблемы с уходом за пациентами. [107] Для анализа этих фрагментов произвольного текста было разработано множество полных систем и инструментов. [108] Система MedLEE изначально была разработана для анализа отчетов о радиологии грудной клетки, но позже была расширена и на другие темы отчетов. [109] Система клинического анализа текста и извлечения знаний, или cTAKES , аннотирует клинический текст с помощью словаря понятий. [110] Система CLAMP предлагает аналогичные функции с удобным интерфейсом. [111]
Каркасы
Вычислительные структуры были разработаны для быстрого создания инструментов для задач биомедицинского анализа текста. SwellShark [112] - это структура для биомедицинской NER, которая не требует данных, помеченных человеком, но использует ресурсы для слабого контроля (например, семантические типы UMLS ). Платформа SparkText [113] использует потоковую передачу данных Apache Spark , базу данных NoSQL и базовые методы машинного обучения для построения прогнозных моделей на основе научных статей.
API
Некоторые инструменты биомедицинского анализа текста и обработки естественного языка доступны через интерфейсы прикладного программирования или API . NOBLE Coder выполняет распознавание концепций через API. [114]
Конференции
На следующих научных конференциях и семинарах проводятся обсуждения и презентации достижений в области биомедицинского анализа текстов. Большинство публикуют труды .
Название конференции | Сессия | Труды |
---|---|---|
Ежегодное собрание Ассоциации компьютерной лингвистики (ACL) | пленарное заседание и в рамках воркшопа БиоНЛП | |
ACL BioNLP семинар | [115] | |
Ежегодное собрание Американской ассоциации медицинской информатики (AMIA) | на пленарном заседании | |
Интеллектуальные системы для молекулярной биологии (ISMB) | на пленарном заседании и на семинарах по БиоЛИНК и Био-онтологиям | [116] |
Международная конференция по биоинформатике и биомедицине (BIBM) | [117] | |
Международная конференция по управлению информацией и знаниями (CIKM) | в рамках Международного семинара по интеллектуальному анализу данных и текстов в биомедицинской информатике (DTMBIO) | [118] |
Ежегодное собрание Североамериканской ассоциации компьютерной лингвистики (NAACL) | пленарное заседание и в рамках воркшопа БиоНЛП | |
Тихоокеанский симпозиум по биокомпьютингу (PSB) | на пленарном заседании | [119] |
Практическое применение вычислительной биологии и биоинформатики (PACBB) | [120] | |
Конференция по восстановлению текста (TREC) | ранее как часть трека TREC Genomics ; по состоянию на 2018 год - часть Precision Medicine Track | [121] |
Журналы
Различные академические журналы, публикующие рукописи по биологии и медицине, включают темы по интеллектуальному анализу текста и программному обеспечению для обработки естественного языка. Некоторые журналы, в том числе Журнал Американской ассоциации медицинской информатики (JAMIA) и Журнал биомедицинской информатики, являются популярными публикациями по этим темам.
Рекомендации
- ^ Вестергард D, Stærfeldt HH, Тенсберг С, Йенсен LJ, Brunak S (февраль 2018). «Комплексное и количественное сравнение интеллектуального анализа текста в 15 миллионах полнотекстовых статей с соответствующими рефератами» . PLOS Вычислительная биология . 14 (2): e1005962. Bibcode : 2018PLSCB..14E5962W . DOI : 10.1371 / journal.pcbi.1005962 . PMC 5831415 . PMID 29447159 .
- ^ Данеску-Никулеску-Мизил С., Ли Л. (2011). Хамелеоны в воображаемых разговорах: новый подход к пониманию координации языкового стиля в диалогах . CMCL '11 . С. 76–87. arXiv : 1106.3077 . Bibcode : 2011arXiv1106.3077D . ISBN 978-1-932432-95-4.
- ^ Маколи Дж., Лесковец Дж. (2013-10-12). Скрытые факторы и скрытые темы: понимание размеров рейтинга с текстом обзора . ACM. С. 165–172. DOI : 10.1145 / 2507157.2507163 . ISBN 978-1-4503-2409-0. S2CID 6440341 .
- ^ а б в Оно-Мачадо Л., Надкарни П., Джонсон К. (2013). «Обработка естественного языка: алгоритмы и инструменты для извлечения вычислимой информации из электронных медицинских записей и биомедицинской литературы» . Журнал Американской ассоциации медицинской информатики . 20 (5): 805. DOI : 10.1136 / amiajnl-2013-002214 . PMC 3756279 . PMID 23935077 .
- ^ а б Узунер Ö, Южный BR, Шен S, DuVall SL (2011). «Вызов i2b2 / VA 2010 по концепциям, утверждениям и отношениям в клиническом тексте» . Журнал Американской ассоциации медицинской информатики . 18 (5): 552–6. DOI : 10.1136 / amiajnl-2011-000203 . PMC 3168320 . PMID 21685143 .
- ^ а б Сан В., Румшиски А., Узунер О. (2013). «Оценка временных отношений в клиническом тексте: 2012 i2b2 Challenge» . Журнал Американской ассоциации медицинской информатики . 20 (5): 806–13. DOI : 10.1136 / amiajnl-2013-001628 . PMC 3756273 . PMID 23564629 .
- ^ Стаббс А., Котфила С., Узунер Ö (декабрь 2015 г.). «Автоматизированные системы для деидентификации лонгитюдных клинических повествований: Обзор общей задачи 2014 i2b2 / UTHealth Track 1» . Журнал биомедицинской информатики . 58 Дополнение: S11–9. DOI : 10.1016 / j.jbi.2015.06.007 . PMC 4989908 . PMID 26225918 .
- ^ Олбрайт Д., Ланфранчи А., Фредриксен А., Стайлер В. Ф., Уорнер С., Хванг Дж. Д., Чой Дж. Д., Длигач Д., Нильсен Р. Д., Мартин Дж., Уорд В., Палмер М., Савова Г. К. (2013). «К всеобъемлющим синтаксическим и семантическим аннотациям клинического повествования» . Журнал Американской ассоциации медицинской информатики . 20 (5): 922–30. DOI : 10.1136 / amiajnl-2012-001317 . PMC 3756257 . PMID 23355458 .
- ^ Бада М., Экерт М., Эванс Д., Гарсия К., Шипли К., Ситников Д., Баумгартнер В. А., Коэн К. Б., Верспур К., Блейк Дж. А., Хантер Л. Е. (июль 2012 г.). «Аннотация концепции в корпусе КРАФТ» . BMC Bioinformatics . 13 (1): 161. DOI : 10,1186 / 1471-2105-13-161 . PMC 3476437 . PMID 22776079 .
- ^ Хольцингер А., Юрисика I (2014), «Открытие знаний и интеллектуальный анализ данных в биомедицинской информатике: будущее за интегративными, интерактивными решениями для машинного обучения», Интерактивное обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике , Springer Berlin Heidelberg, стр. 1–18 , DOI : 10.1007 / 978-3-662-43968-5_1 , ISBN 9783662439678
- ^ Ратнер А., Бах Ш., Эренберг Х., Фрис Дж., Ву С., Ре С. (ноябрь 2017 г.). «Трубка: быстрое создание тренировочных данных со слабым контролем» . Труды эндаумента VLDB . 11 (3): 269–282. arXiv : 1711.10160 . Bibcode : 2017arXiv171110160R . DOI : 10.14778 / 3157794.3157797 . PMC 5951191 . PMID 29770249 .
- ^ Рен Х, Ву З., Хе В., Цюй М., Восс К.Р., Джи Х., Абдельзахер Т.Ф., Хан Дж. (03.04.2017). «Ко Тип » . CoType: совместное извлечение типизированных сущностей и отношений с базами знаний . Руководящий комитет международных конференций по всемирной паутине. С. 1015–1024. DOI : 10.1145 / 3038912.3052708 . ISBN 9781450349130. S2CID 1724837 .
- ^ а б Эрхардт Р.А., Шнайдер Р., Блашке С. (апрель 2006 г.). «Состояние методов интеллектуального анализа текста применительно к биомедицинскому тексту». Открытие наркотиков сегодня . 11 (7–8): 315–25. DOI : 10.1016 / j.drudis.2006.02.011 . PMID 16580973 .
- ^ Милошевич Н., Грегсон С., Эрнандес Р., Ненадич Г. (февраль 2019 г.). «Структура для извлечения информации из таблиц в биомедицинской литературе». Международный журнал анализа и распознавания документов . 22 (1): 55–78. arXiv : 1902.10031 . Bibcode : 2019arXiv190210031M . DOI : 10.1007 / s10032-019-00317-0 . S2CID 62880746 .
- ^ Демнер-Фушман Д., Шошан С.Э., Родригес Л., Аронсон А.Р., Ланг Ф., Роджерс В., Робертс К., Тоннинг Дж. (Январь 2018 г.). «Набор данных из 200 структурированных этикеток продуктов с аннотациями о побочных реакциях на лекарства» . Научные данные . 5 : 180001. Bibcode : 2018NatSD ... 580001D . DOI : 10.1038 / sdata.2018.1 . PMC 5789866 . PMID 29381145 .
- ^ а б Агарвал С., Ю Х (декабрь 2010 г.). «Обнаружение признаков хеджирования и их области в биомедицинском тексте с условными случайными полями» . Журнал биомедицинской информатики . 43 (6): 953–61. DOI : 10.1016 / j.jbi.2010.08.003 . PMC 2991497 . PMID 20709188 .
- ^ Vandenbussche PY, Cormont S, André C, Daniel C, Delahousse J, Charlet J, Lepage E (2013). «Внедрение и управление словарем биомедицинских наблюдений в большой информационной системе здравоохранения» . Журнал Американской ассоциации медицинской информатики . 20 (5): 940–6. DOI : 10.1136 / amiajnl-2012-001410 . PMC 3756262 . PMID 23635601 .
- ^ Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (июнь 2017 г.). «Хранилище клинических данных университетской больницы Жоржа Помпиду: 8-летний опыт наблюдения». Международный журнал медицинской информатики . 102 : 21–28. DOI : 10.1016 / j.ijmedinf.2017.02.006 . PMID 28495345 .
- ^ Леви Б. "Проблема семантики здравоохранения" . www.fortherecordmag.com . Издательская компания Грейт Вэлли . Проверено 4 октября 2018 .
- ^ Гудвин Л.К., Пратер Дж. К. (2002). «Защита конфиденциальности пациентов при интеллектуальном анализе клинических данных». Журнал управления медицинской информацией . 16 (4): 62–7. PMID 12365302 .
- ^ Такер К., Брэнсон Дж., Диллин М., Холлис С., Лафлин П., Никсон М. Дж., Уильямс З. (июль 2016 г.). «Защита конфиденциальности пациентов при обмене данными клинических испытаний на уровне пациентов» . BMC Medical Research Methodology . 16 Дополнение 1 (S1): 77. doi : 10.1186 / s12874-016-0169-4 . PMC 4943495 . PMID 27410040 .
- ^ Грейвс S (2013). «Конфиденциальность, электронные медицинские карты и врач». Перспективы биологии и медицины . 56 (1): 105–25. DOI : 10,1353 / pbm.2013.0003 . PMID 23748530 . S2CID 25816887 .
- ^ Лезер У, Хакенберг Дж (2005-01-01). «Из чего складывается имя гена? Признание именованных сущностей в биомедицинской литературе» . Брифинги по биоинформатике . 6 (4): 357–369. DOI : 10.1093 / нагрудник / 6.4.357 . ISSN 1467-5463 . PMID 16420734 .
- ^ Krallinger M, Leitner F, Rabal O, Vazquez M, Oyarzabal J, Valencia A. "Обзор задачи распознавания химического соединения и названия лекарственного средства (CHEMDNER)" (PDF) . Труды четвертого семинара по оценке BioCreative Challenge . 2 : 6–37.
- ^ Химено А., Хименес-Руис Э., Ли В., Гаудан С., Берланга Р., Ребхольц-Шуманн Д. (апрель 2008 г.). «Оценка болезни, названной распознаванием сущности на корпусе аннотированных предложений» . BMC Bioinformatics . 9 Дополнение 3 (Дополнение 3): S3. DOI : 10,1186 / 1471-2105-9-s3-s3 . PMC 2352871 . PMID 18426548 .
- ^ Хабиби М., Вебер Л., Невес М., Вигандт Д.Л., Лезер Ю. (июль 2017 г.). «Глубокое обучение с встраиванием слов улучшает распознавание именованных биомедицинских сущностей» . Биоинформатика . 33 (14): i37 – i48. DOI : 10.1093 / биоинформатики / btx228 . PMC 5870729 . PMID 28881963 .
- ^ Коэн AM (2006). «Эффективный универсальный подход к автоматизированной классификации биомедицинских документов» . AMIA ... Материалы ежегодного симпозиума. Симпозиум AMIA : 161–5. PMC 1839342 . PMID 17238323 .
- ^ а б Сюй Р., Вунш, округ Колумбия (2010). «Алгоритмы кластеризации в биомедицинских исследованиях: обзор». Обзоры IEEE в области биомедицинской инженерии . 3 : 120–54. DOI : 10,1109 / rbme.2010.2083647 . PMID 22275205 . S2CID 206522771 .
- ^ Родригес-Эстебан Р. (декабрь 2009 г.). «Биомедицинский анализ текста и его приложения» . PLOS Вычислительная биология . 5 (12): e1000597. Bibcode : 2009PLSCB ... 5E0597R . DOI : 10.1371 / journal.pcbi.1000597 . PMC 2791166 . PMID 20041219 .
- ^ Блейк С. (апрель 2010 г.). «Помимо генов, белков и рефератов: определение научных заявлений из полнотекстовых биомедицинских статей». Журнал биомедицинской информатики . 43 (2): 173–89. DOI : 10.1016 / j.jbi.2009.11.001 . PMID 19900574 .
- ^ а б Аламри А, Стивенсони М (2015). Автоматическое определение потенциально противоречивых утверждений для поддержки систематических обзоров . 2015 IEEE Международная конференция по биоинформатике и биомедицине (BIBM) . IEEE. DOI : 10.1109 / bibm.2015.7359808 . ISBN 978-1-4673-6799-8. S2CID 28079483 .
- ^ Fleuren WW, Alkema W (март 2015 г.). «Применение интеллектуального анализа текста в биомедицинской сфере». Методы . 74 : 97–106. DOI : 10.1016 / j.ymeth.2015.01.015 . PMID 25641519 .
- ^ Карп П.Д. (01.01.2016). «Можем ли мы заменить курирование программным обеспечением для извлечения информации?» . База данных . 2016 : baw150. DOI : 10,1093 / базы данных / baw150 . PMC 5199131 . PMID 28025341 .
- ^ Краллингер М, Валенсия А, Хиршман Л (2008). «Связывание генов с литературой: интеллектуальный анализ текста, извлечение информации и поисковые приложения для биологии» . Геномная биология . 9 Дополнение 2 (Дополнение 2): S8. DOI : 10.1186 / ГБ-2008-9-s2-s8 . PMC 2559992 . PMID 18834499 .
- ^ Невес М., Лесер Ю. (март 2015 г.). «Ответ на вопрос по биологии». Методы . 74 : 36–46. DOI : 10.1016 / j.ymeth.2014.10.023 . PMID 25448292 .
- ^ Ученый семантики. (2020) «Избегайте беспорядка: [Открытый доступ] Загрузите набор данных открытого исследования коронавируса». Сайт Semantics Scholar Проверено 30 марта 2020 г.
- ^ Бреннан, Патти. (24 марта 2020 г.). «Блог: как библиотека реагирует на глобальный кризис в области здравоохранения?». Веб-сайт Национальной медицинской библиотеки Проверено 30 марта 2020 года.
- ^ Брейнард, Джеффри (13 мая 2020 г.). «Ученые тонут в бумагах о COVID-19. Могут ли новые инструменты удержать их на плаву?» . Наука | AAAS . Дата обращения 17 мая 2020 .
- ^ Узунер О, Ло Й, Соловиц П. (2007-09-01). «Оценка современного состояния автоматической деидентификации» . Журнал Американской ассоциации медицинской информатики . 14 (5): 550–63. DOI : 10,1197 / jamia.m2444 . PMC 1975792 . PMID 17600094 .
- ^ Узунер О., Гольдштейн И., Ло Ю., Кохане И. (01.01.2008). «Выявление статуса курения пациента по выписке из медицинских карт» . Журнал Американской ассоциации медицинской информатики . 15 (1): 14–24. DOI : 10,1197 / jamia.m2408 . PMC 2274873 . PMID 17947624 .
- ^ Узунер О. (2009). «Распознавание ожирения и сопутствующих заболеваний по скудным данным» . Журнал Американской ассоциации медицинской информатики . 16 (4): 561–70. DOI : 10.1197 / jamia.M3115 . PMC 2705260 . PMID 19390096 .
- ^ Узунер О, Шолти I, Ся Ф, Кадаг Э (2010). «Эксперимент с аннотациями сообщества для получения достоверных сведений о лекарствах i2b2» . Журнал Американской ассоциации медицинской информатики . 17 (5): 519–23. DOI : 10.1136 / jamia.2010.004200 . PMC 2995684 . PMID 20819855 .
- ^ Узунер О, Шолти I, Кадаг Э (2010). «Извлечение информации о лекарствах из клинического текста» . Журнал Американской ассоциации медицинской информатики . 17 (5): 514–8. DOI : 10.1136 / jamia.2010.003947 . PMC 2995677 . PMID 20819854 .
- ^ Узунер О., Боднари А., Шен С., Форбуш Т., Пестиан Дж., Южный БР (2012). «Оценка состояния дел в разрешении кореференции для электронных медицинских карт» . Журнал Американской ассоциации медицинской информатики . 19 (5): 786–91. DOI : 10.1136 / amiajnl-2011-000784 . PMC 3422835 . PMID 22366294 .
- ^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование продольных клинических описаний для деидентификации: корпус 2014 i2b2 / UTHealth» . Журнал биомедицинской информатики . 58 Дополнение: S20–9. DOI : 10.1016 / j.jbi.2015.07.020 . PMC 4978170 . PMID 26319540 .
- ^ Стаббс А., Узунер О. (декабрь 2015 г.). «Аннотирование факторов риска сердечных заболеваний в клинических описаниях пациентов с диабетом» . Журнал биомедицинской информатики . 58 Дополнение: S78–91. DOI : 10.1016 / j.jbi.2015.05.009 . PMC 4978180 . PMID 26004790 .
- ^ Бунеску Р., Ге Р., Кейт Р.Дж., Маркотт Е.М., Муни Р.Дж., Рамани А.К., Вонг Ю.В. (февраль 2005 г.). «Сравнительные эксперименты по обучению экстракторов информации о белках и их взаимодействиях». Искусственный интеллект в медицине . 33 (2): 139–55. CiteSeerX 10.1.1.10.2168 . DOI : 10.1016 / j.artmed.2004.07.016 . PMID 15811782 .
- ^ Исламадж Доган Р., Ким С., Чатр-Арьямонтри А., Чанг С.С., Отред Р., Руст Дж., Уилбур В.Дж., Комо, округ Колумбия, Долински К., Тайерс М. (01.01.2017). «Корпус BioC-BioGRID: полнотекстовые статьи с аннотациями для изучения белок-белковых и генетических взаимодействий» . База данных . 2017 : baw147. DOI : 10,1093 / базы данных / baw147 . PMC 5225395 . PMID 28077563 .
- ^ Хиршман Л, Йе А, Блашке С, Валенсия А (2005). «Обзор BioCreAtIvE: критическая оценка извлечения информации для биологии» . BMC Bioinformatics . 6 Приложение 1: S1. DOI : 10.1186 / 1471-2105-6-S1-S1 . PMC 1869002 . PMID 15960821 .
- ^ Краллингер М., Морган А., Смит Л., Лейтнер Ф., Танабе Л., Уилбур Дж., Хиршман Л., Валенсия А (2008). «Оценка систем интеллектуального анализа текста для биологии: обзор Второй проблемы сообщества BioCreative» . Геномная биология . 9 Дополнение 2 (Дополнение 2): S1. DOI : 10.1186 / ГБ-2008-9-s2-s1 . PMC 2559980 . PMID 18834487 .
- ^ Ли Дж., Сунь Й., Джонсон Р.Дж., Скиаки Д., Вэй СН, Лиман Р., Дэвис А.П., Маттингли С.Дж., Вигерс Т.К., Лу З. (2016). «Корпус задач BioCreative V CDR: ресурс для извлечения связи химических заболеваний» . База данных . 2016 : baw068. DOI : 10,1093 / базы данных / baw068 . PMC 4860626 . PMID 27161011 .
- ^ Pyysalo S, Ginter F, Heimonen J, Björne J, Boberg J, Järvinen J, Salakoski T. (февраль 2007 г.). «BioInfer: корпус для извлечения информации в биомедицинской сфере» . BMC Bioinformatics . 8 (1): 50. DOI : 10,1186 / 1471-2105-8-50 . PMC 1808065 . PMID 17291334 .
- ^ Винче В., Сарвас Г., Фаркаш Р., Мора Г., Чирик Дж. (Ноябрь 2008 г.). «Корпус BioScope: биомедицинские тексты с аннотациями для неопределенности, отрицания и их масштабов» . BMC Bioinformatics . 9 Дополнение 11 (Дополнение 11): S9. DOI : 10,1186 / 1471-2105-9-s11-s9 . PMC 2586758 . PMID 19025695 .
- ^ Шварц А.С., Херст М.А. (2003). «Простой алгоритм определения сокращений в биомедицинском тексте». Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу : 451–62. PMID 12603049 .
- ^ Росарио Б., Херст, Массачусетс (2005-10-06). «Классификация многосторонних отношений» . Классификация многосторонних отношений: приложение к белок-белковым взаимодействиям . Hlt '05. Ассоциация компьютерной лингвистики. С. 732–739. DOI : 10.3115 / 1220575.1220667 . S2CID 902226 .
- ^ Дэвис, Аллан Питер; Грондин, Синтия Дж; Джонсон, Робин Дж; Sciaky, Daniela; МакМорран, Рой; Вигерс, Джолин; Вигерс, Томас С; Мэттингли, Кэролайн Дж (2019-01-08). «База данных сравнительной токсикогеномики: обновление 2019» . Исследования нуклеиновых кислот . 47 (D1): D948 – D954. DOI : 10.1093 / NAR / gky868 . ISSN 0305-1048 . PMC 6323936 . PMID 30247620 .
- ^ Verspoor K, Cohen KB, Lanfranchi A, Warner C, Johnson HL, Roeder C, Choi JD, Funk C, Malenkiy Y, Eckert M, Xue N, Baumgartner WA, Bada M, Palmer M, Hunter LE (август 2012 г.). «Корпус полнотекстовых журнальных статей - надежный инструмент оценки для выявления различий в производительности биомедицинских инструментов обработки естественного языка» . BMC Bioinformatics . 13 (1): 207. DOI : 10,1186 / 1471-2105-13-207 . PMC 3483229 . PMID 22901054 .
- ^ Ким Дж. Д., Охта Т., Татейси Й., Цуджи Дж. (2003-07-03). «GENIA corpus - семантически аннотированный корпус для биотекстового майнинга» . Биоинформатика . 19 (Дополнение 1): i180 – i182. DOI : 10.1093 / биоинформатики / btg1023 . PMID 12855455 .
- ^ "GENIA Project" . www.geniaproject.org . Проверено 6 октября 2018 .
- ^ Бахман Дж. А., Дьори Б. М., Соргер П. К. (июнь 2018 г.). «FamPlex: ресурс для распознавания сущностей и разрешения взаимосвязей семей и комплексов белков человека в биомедицинском анализе текста» . BMC Bioinformatics . 19 (1): 248. DOI : 10,1186 / s12859-018-2211-5 . PMC 6022344 . PMID 29954318 .
- ^ Влахос А, Гасперин С (2006). «Начальная загрузка и оценка распознавания именованных сущностей в биомедицинской области» . BioNLP '06 Материалы семинара по объединению обработки естественного языка и биологии: на пути к более глубокому анализу биологической литературы . БиоНЛП '06: 138–145. DOI : 10.3115 / 1567619.1567652 .
- ^ Гасперин С., Караманис Н., Сил Р. (2007). «Аннотация анафорических отношений в биомедицинских полнотекстовых статьях с использованием тематической схемы». Труды DAARC 2007 : 19–24.
- ^ Медлок Б., Бриско Т. (2007). «Слабо контролируемое обучение для классификации хеджирования в научной литературе» (PDF) . Материалы 45-го ежегодного собрания Ассоциации компьютерной лингвистики : 992–999.
- ^ Динг Дж., Берлеант Д., Нетлтон Д., Вуртеле Э (2001). «Mining MEDLINE: аннотации, предложения или фразы?» . В Altman RB, Dunker AK, Hunter L, Lauderdale K, Klein TE (ред.). Тихоокеанский симпозиум по биокомпьютингу 2002 . Тихоокеанский симпозиум по биокомпьютингу. Тихоокеанский симпозиум по биокомпьютингу . World Scientific. С. 326–337 . CiteSeerX 10.1.1.385.6071 . DOI : 10.1142 / 9789812799623_0031 . ISBN 9789810247775. PMID 11928487 .
- ^ Ким, Джин-Донг; Охта, Томоко; Цуруока, Йошимаса; Татеиси, Юка; Кольер, Найджел (2004). «Введение в задачу распознавания биологических объектов в JNLPBA» . Труды Международного совместного семинара по обработке естественного языка в биомедицине и ее приложениях - JNLPBA '04 : 70. doi : 10.3115 / 1567594.1567610 .
- ^ "LLLchallenge" . genome.jouy.inra.fr . Проверено 6 октября 2018 .
- ^ «Медицинские тематические рубрики - Домашняя страница» . www.nlm.nih.gov . Проверено 6 октября 2018 .
- ^ Боденрейдер О. (январь 2004 г.). «Единая система медицинского языка (UMLS): интеграция биомедицинской терминологии» . Исследования нуклеиновых кислот . 32 (выпуск базы данных): D267–70. DOI : 10.1093 / NAR / gkh061 . PMC 308795 . PMID 14681409 .
- ^ «Метатезавр» . www.nlm.nih.gov . Проверено 7 октября 2018 .
- ^ Джонсон А.Е., Поллард Т.Дж., Шен Л., Леман Л.В., Фенг М., Гассеми М., Муди Б., Соловиц П., Сели Л.А., Марк Р.Г. (май 2016 г.). «MIMIC-III, свободно доступная база данных по интенсивной терапии» . Научные данные . 3 : 160035. Bibcode : 2016NatSD ... 360035J . DOI : 10.1038 / sdata.2016.35 . PMC 4878278 . PMID 27219127 .
- ^ Савова Г.К., Чепмен В.В., Чжэн Дж., Кроули Р.С. (2011). «Анафорические отношения в клиническом повествовании: создание корпуса» . Журнал Американской ассоциации медицинской информатики . 18 (4): 459–65. DOI : 10.1136 / amiajnl-2011-000108 . PMC 3128403 . PMID 21459927 .
- ^ Херш В., Бакли С., Леоне Т.Дж., Хикэм Д. (1994). OHSUMED: интерактивная поисковая оценка и новая большая коллекция тестов для исследований . Springer London. С. 192–201. DOI : 10.1007 / 978-1-4471-2099-5_20 . ISBN 9783540198895. S2CID 15094383 .
- ^ «Подмножество открытого доступа» . www.ncbi.nlm.nih.gov . Проверено 6 октября 2018 .
- ^ Нельсон SJ, Zeng K, Kilbourne J, Powell T, Moore R (2011). «Нормализованные названия клинических препаратов: RxNorm в 6 лет» . Журнал Американской ассоциации медицинской информатики . 18 (4): 441–8. DOI : 10.1136 / amiajnl-2011-000116 . PMC 3128404 . PMID 21515544 .
- ^ МакКрей А.Т. (2003). «Онтология верхнего уровня для биомедицинской области» . Сравнительная и функциональная геномика . 4 (1): 80–4. DOI : 10.1002 / cfg.255 . PMC 2447396 . PMID 18629109 .
- ^ «Семантическая сеть UMLS» . semanticnetwork.nlm.nih.gov . Проверено 7 октября 2018 .
- ^ McCray AT, Srinivasan S, Browne AC (1994). «Лексические методы управления вариациями в биомедицинской терминологии» . Ход работы. Симпозиум по компьютерным приложениям в медицине: 235–9. PMC 2247735 . PMID 7949926 .
- ^ «СПЕЦИАЛИСТИЧЕСКИЕ Инструменты НЛП» . lexsrv3.nlm.nih.gov . Проверено 7 октября 2018 .
- ^ Химено-Йепес А.Дж., Макиннес Б.Т., Аронсон А.Р. (июнь 2011 г.). «Использование индексации MeSH в MEDLINE для создания набора данных для устранения неоднозначности слов» . BMC Bioinformatics . 12 (1): 223. DOI : 10,1186 / 1471-2105-12-223 . PMC 3123611 . PMID 21635749 .
- ^ «Наборы тестов для устранения неоднозначности слов (WSD)» . wsd.nlm.nih.gov . Проверено 7 октября 2018 .
- ^ Franzén K, Eriksson G, Olsson F, Asker L, Lidén P, Cöster J (декабрь 2002 г.). «Названия белков и как их найти». Международный журнал медицинской информатики . 67 (1–3): 49–61. CiteSeerX 10.1.1.14.2183 . DOI : 10.1016 / s1386-5056 (02) 00052-7 . PMID 12460631 .
- ^ Миколов Т., Чен К., Коррадо Дж., Дин Дж. (2013-01-16). «Эффективное оценивание представлений слов в векторном пространстве». arXiv : 1301.3781 [ cs.CL ].
- ^ «BioASQ выпускает непрерывные векторы пространственного слова, полученные путем применения Word2Vec к PubMed Abstracts | bioasq.org» . bioasq.org . Проверено 7 ноября 2018 .
- ^ "bio.nlplab.org" . bio.nlplab.org . Проверено 7 ноября 2018 .
- ^ Асгари Э., Мофрад М.Р. (10.11.2015). «Непрерывное распределенное представление биологических последовательностей для глубокой протеомики и геномики» . PLOS ONE . 10 (11): e0141287. arXiv : 1503.05140 . Bibcode : 2015PLoSO..1041287A . DOI : 10.1371 / journal.pone.0141287 . PMC 4640716 . PMID 26555596 .
- ^ Банерджи И., Мадхаван С., Голдман Р. Э., Рубин Д. Л. (2017). "Интеллектуальные вложения слов в радиологические отчеты со свободным текстом" . AMIA ... Материалы ежегодного симпозиума. Симпозиум AMIA . 2017 : 411–420. arXiv : 1711.06968 . Bibcode : 2017arXiv171106968B . PMC 5977573 . PMID 29854105 .
- ^ а б Бадал В.Д., Кундротас П.Дж., Ваксер И.А. (декабрь 2015 г.). «Анализ текста для стыковки белков» . PLOS Вычислительная биология . 11 (12): e1004630. Bibcode : 2015PLSCB..11E4630B . DOI : 10.1371 / journal.pcbi.1004630 . PMC 4674139 . PMID 26650466 .
- ^ Папаниколау Н., Павлопулос Г.А., Теодосиу Т., Илиопулос I. (март 2015 г.). «Прогнозы белок-белкового взаимодействия с использованием методов интеллектуального анализа текста». Методы . 74 : 47–53. DOI : 10.1016 / j.ymeth.2014.10.026 . PMID 25448298 .
- ^ Шкларчик Д., Моррис Дж. Х., Кук Х, Кун М., Вайдер С., Симонович М., Сантос А., Дончева Н. Т., Рот А., Борк П., Йенсен Л. Дж., Фон Меринг С. (январь 2017 г.). «База данных STRING в 2017 году: сети белок-белковых ассоциаций с контролируемым качеством, стали общедоступными» . Исследования нуклеиновых кислот . 45 (D1): D362 – D368. DOI : 10.1093 / NAR / gkw937 . PMC 5210637 . PMID 27924014 .
- ^ а б Лием Д.А., Мурали С., Сигдел Д., Ши Й, Ван Х, Шен Дж., Чой Х., Кауфилд Дж. Х., Ван В., Пинг П, Хан Дж. (Октябрь 2018 г.). «Анализ фраз текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Сердце и физиология кровообращения . 315 (4): H910 – H924. DOI : 10.1152 / ajpheart.00175.2018 . PMC 6230912 . PMID 29775406 .
- ^ Канкар П., Адак С., Саркар А., Мурари К., Шарма Г. (11 апреля 2002 г.). Резюме MedMeSH: анализ текста для кластеров генов . Материалы Международной конференции SIAM 2002 года по интеллектуальному анализу данных. Общество промышленной и прикладной математики. С. 548–565. CiteSeerX 10.1.1.215.6230 . DOI : 10.1137 / 1.9781611972726.32 . ISBN 978-0-89871-517-0.
- ^ Пюйсало С., Аирола А., Хеймонен Дж., Бьорне Дж., Гинтер Ф., Салакоски Т. (апрель 2008 г.). «Сравнительный анализ пяти корпусов белок-белкового взаимодействия» . BMC Bioinformatics . 9 Дополнение 3 (Дополнение 3): S6. DOI : 10,1186 / 1471-2105-9-s3-s6 . PMC 2349296 . PMID 18426551 .
- ^ Ким С., Квон Д., Шин С.И., Уилбур В.Дж. (февраль 2012 г.). «PIE the search: поиск в литературе PubMed информации о взаимодействии белков» . Биоинформатика . 28 (4): 597–8. DOI : 10.1093 / биоинформатики / btr702 . PMC 3278758 . PMID 22199390 .
- ^ Ю С., Ван Вурен С., Траншевент ЛК, Де Моор Б., Моро Й. (август 2008 г.). «Сравнение словарей, представлений и алгоритмов ранжирования для определения приоритета генов с помощью интеллектуального анализа текста» . Биоинформатика . 24 (16): i119–25. DOI : 10.1093 / биоинформатики / btn291 . PMID 18689812 .
- ^ Хулсегге И., Вулдерс Х, Смитс М., Шоккер Д., Цзян Л., Соренсен П. (май 2013 г.). «Приоритезация генов-кандидатов репродуктивных признаков крупного рогатого скота на основе белок-белковых взаимодействий, экспрессии генов и анализа текста». Физиологическая геномика . 45 (10): 400–6. DOI : 10.1152 / physiolgenomics.00172.2012 . PMID 23572538 .
- ^ Краллингер М, Лейтнер Ф, Валенсия А (2010). «Анализ биологических процессов и заболеваний с использованием методов интеллектуального анализа текста». Методы биоинформатики в клинических исследованиях . Методы молекулярной биологии. 593 . С. 341–82. DOI : 10.1007 / 978-1-60327-194-3_16 . ISBN 978-1-60327-193-6. PMID 19957157 .
- ^ Тао Ф, Чжуан Х., Ю Ч. В., Ван Ц., Кэссиди Т., Каплан Л. Р., Восс К. Р., Хан Дж. (2016). «Многомерное обобщение на основе фраз в текстовых кубах» (PDF) . IEEE Data Eng. Бык . 39 (3): 74–84.
- ^ Томас П., Старлингер Дж., Гласный А., Арц С., Лезер Ю. (июль 2012 г.). «GeneView: комплексная семантическая поисковая система для PubMed» . Исследования нуклеиновых кислот . 40 (выпуск веб-сервера): W585–91. DOI : 10.1093 / NAR / gks563 . PMC 3394277 . PMID 22693219 .
- ^ Браун П., Чжоу Ю. (сентябрь 2017 г.). «Биомедицинская литература: Требуются тестировщики для инструмента поиска статей» . Природа . 549 (7670): 31. Bibcode : 2017Natur.549 ... 31B . DOI : 10.1038 / 549031c . PMID 28880292 .
- ^ Оно-Мачадо Л., Сансон С.А., Альтер Дж., Фор I, Грете Дж., Сюй Х., Гонсалес-Бельтран А., Рокка-Серра П., Гурурадж А.Э., Белл Е., Сойсал Е., Зонг Н., Ким Х.Э. (май 2017 г.). «Поиск полезных данных в нескольких репозиториях биомедицинских данных с помощью DataMed» . Генетика природы . 49 (6): 816–819. DOI : 10.1038 / ng.3864 . PMC 6460922 . PMID 28546571 .
- ^ Perez-Riverol Y, Bai M, da Veiga Leprevost F, Squizzato S, Park YM, Haug K и др. (Май 2017 г.). «Обнаружение и связывание общедоступных наборов данных omics с использованием индекса обнаружения Omics» . Природа Биотехнологии . 35 (5): 406–409. DOI : 10.1038 / nbt.3790 . PMC 5831141 . PMID 28486464 .
- ^ Ide NC, Loane RF, Demner-Fushman D (2007-05-01). «Essie: концептуальная поисковая машина для структурированного биомедицинского текста» . Журнал Американской ассоциации медицинской информатики . 14 (3): 253–63. DOI : 10,1197 / jamia.m2233 . PMC 2244877 . PMID 17329729 .
- ^ Ли ХД, Данг Т.К., Ли Х., Пак Джей Си (июль 2014 г.). «OncoSearch: поисковая машина по генам рака с литературными данными» . Исследования нуклеиновых кислот . 42 (выпуск веб-сервера): W416–21. DOI : 10.1093 / NAR / gku368 . PMC 4086113 . PMID 24813447 .
- ^ Йенсен Т.К., Лаегрейд А., Коморовски Дж., Ховиг Э. (май 2001 г.). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Генетика природы . 28 (1): 21–8. DOI : 10.1038 / ng0501-21 . PMID 11326270 . S2CID 8889284 .
- ^ Masys DR (май 2001 г.). «Связывание данных микрочипа с литературой». Генетика природы . 28 (1): 9–10. DOI : 10.1038 / ng0501-9 . PMID 11326264 . S2CID 52848745 .
- ^ Домс А., Шредер М. (июль 2005 г.). «GoPubMed: изучение PubMed с помощью генной онтологии» . Исследования нуклеиновых кислот . 33 (выпуск веб-сервера): W783–6. DOI : 10.1093 / NAR / gki470 . PMC 1160231 . PMID 15980585 .
- ^ Турчин, Александр; Флорес Булес, Луиза Ф. (19 марта 2021 г.). «Использование обработки естественного языка для измерения и повышения качества лечения диабета: систематический обзор» . Журнал диабетической науки и технологий . 15 (3): 553–560. DOI : 10.1177 / 19322968211000831 . ISSN 1932-2968 . PMID 33736486 .
- ^ Ван И, Ван Л., Растегар-Мохарад М., Мун С., Шен Ф, Афзал Н., Лю С., Цзэн Ю., Мехраби С., Сон С., Лю Х. (январь 2018 г.). «Приложения для извлечения клинической информации: обзор литературы» . Журнал биомедицинской информатики . 77 : 34–49. DOI : 10.1016 / j.jbi.2017.11.011 . PMC 5771858 . PMID 29162496 .
- ^ Фридман C (1997). «На пути к комплексной системе обработки медицинского языка: методы и проблемы» . Труды : 595–9. PMC 2233560 . PMID 9357695 .
- ^ Савова Г.К., Масанц Дж.Дж., Огрен П.В., Чжэн Дж., Сон С., Киппер-Шулер К.С., Chute CG (2010). «Система клинического анализа текста и извлечения знаний Mayo (cTAKES): архитектура, оценка компонентов и приложения» . Журнал Американской ассоциации медицинской информатики . 17 (5): 507–13. DOI : 10.1136 / jamia.2009.001560 . PMC 2995668 . PMID 20819853 .
- ^ Soysal E, Wang J, Jiang M, Wu Y, Pakhomov S, Liu H, Xu H (2018). «CLAMP - набор инструментов для эффективного создания настраиваемых конвейеров клинической обработки естественного языка» . Журнал Американской ассоциации медицинской информатики . 25 (3): 331–336. DOI : 10.1093 / Jamia / ocx132 . PMC 7378877 . PMID 29186491 .
- ^ Фрис Дж., Ву С., Ратнер А., Ре С. (2017-04-20). «SwellShark: Генеративная модель для биомедицинского распознавания именованных сущностей без помеченных данных». arXiv : 1704.06360 [ cs.CL ].
- ^ Йе З, Тафти А.П., Хе К.Й., Ван К., Хе ММ (2016-09-29). «SparkText: биомедицинский анализ текста на платформе больших данных» . PLOS ONE . 11 (9): e0162721. Bibcode : 2016PLoSO..1162721Y . DOI : 10.1371 / journal.pone.0162721 . PMC 5042555 . PMID 27685652 .
- ^ Цейтлин Э., Митчелл К., Леговски Э., Корриган Дж., Чаван Г., Якобсон Р.С. (январь 2016 г.). «NOBLE - Гибкое распознавание концепций для крупномасштабной биомедицинской обработки естественного языка» . BMC Bioinformatics . 17 (1): 32. DOI : 10,1186 / s12859-015-0871-у . PMC 4712516 . PMID 26763894 .
- ^ «БиоНЛП - Антология ACL» . aclanthology.coli.uni-saarland.de . Проверено 17 октября 2018 .
- ^ «Труды ИСМБ» . www.iscb.org . Проверено 18 октября 2018 .
- ^ «IEEE Xplore - Домашняя страница конференции» . ieeexplore.ieee.org . Проверено 8 ноября 2018 .
- ^ "dblp: CIKM" . dblp.uni-trier.de . Проверено 17 октября 2018 .
- ^ «Известия общественного телевидения» . psb.stanford.edu . Проверено 18 октября 2018 .
- ^ "dblp: Практическое применение вычислительной биологии и биоинформатики" . dblp.org . Проверено 17 октября 2018 .
- ^ «Материалы конференции по восстановлению текстов (TREC)» . trec.nist.gov . Проверено 17 октября 2018 .
дальнейшее чтение
- Краллингер М, Валенсия А (2005). «Текстовый и информационно-поисковый сервисы для молекулярной биологии» . Геномная биология . 6 (7): 224. DOI : 10,1186 / GB-2005-6-7-224 . PMC 1175978 . PMID 15998455 .
- Hoffmann R, Krallinger M, Andres E, Tamames J, Blaschke C, Валенсия A (май 2005 г.). «Анализ текста для метаболических путей, сигнальных каскадов и белковых сетей». STKE науки . 2005 (283): pe21. DOI : 10.1126 / stke.2832005pe21 . PMID 15886388 . S2CID 15301069 .
- Krallinger M, Erhardt RA, Valencia A (март 2005 г.). «Текстовые подходы в молекулярной биологии и биомедицине». Открытие наркотиков сегодня . 10 (6): 439–45. DOI : 10.1016 / S1359-6446 (05) 03376-3 . PMID 15808823 .
- Публикации по добыче биомедицинской литературы (BLIMP), заархивированные 29 августа 2004 г. на Wayback Machine : всеобъемлющий и регулярно обновляемый указатель публикаций по (био) исследованиям медицинских текстов
Внешние ссылки
- Био-НЛП ресурсы, системы и сбор данных приложений
- Архивы списков рассылки БиоНЛП
- Корпуса для биомедицинского интеллектуального анализа текста
- Оценка биомедицинских технологий интеллектуального анализа текста, проведенная компанией BioCreative
- Справочник людей, занимающихся БиоНЛП