Из Википедии, бесплатной энциклопедии
  (Перенаправлено с CTAKES )
Перейти к навигации Перейти к поиску

Apache cTAKES: система клинического анализа текста и извлечения знаний - это система обработки естественного языка (NLP) с открытым исходным кодом, которая извлекает клиническую информацию из неструктурированного текста электронных медицинских карт . Он обрабатывает клинические записи, идентифицируя типы клинических названий объектов - лекарства, заболевания / расстройства, признаки / симптомы, анатомические участки и процедуры. Каждая именованная сущность имеет атрибуты для диапазона текста, кода отображения онтологии, контекста (семейная история, текущая, не связанная с пациентом) и отрицание / неотрицание. [1]

cTAKES был построен с использованием инфраструктуры управления неструктурированной информацией UIMA и инструментария обработки естественного языка OpenNLP . [2] [3]

Компоненты [ править ]

Компоненты cTAKES специально обучены для клинической области и создают обширные лингвистические и семантические аннотации, которые могут использоваться системами поддержки принятия клинических решений и клиническими исследованиями. [4]

Эти компоненты включают:

  • Идентификатор именованного раздела
  • Детектор границы предложения
  • Токенизатор на основе правил
  • Идентификатор отформатированного списка
  • Нормализатор
  • Контекстно-зависимый токенизатор
  • Тегер части речи
  • Фразовый чункер
  • Аннотатор поиска в словаре
  • Аннотатор контекста
  • Детектор отрицания
  • Детектор неопределенности
  • Детектор предмета
  • Парсер зависимостей
  • идентификатор статуса курения пациента
  • Аннотатор упоминаний о лекарствах

История [ править ]

Разработка cTAKES началась в клинике Майо в 2006 году. В команду разработчиков во главе с доктором Гергана Савова и доктор Кристофер Чут входили врачи, компьютерные ученые и инженеры-программисты. После развертывания cTAKES стал неотъемлемой частью инфраструктуры управления клиническими данными Mayo, обрабатывая более 80 миллионов клинических записей. [5]

Когда в начале 2010 года доктор Савова переехала в Бостонскую детскую больницу , основная команда разработчиков расширилась, и в нее вошли члены. Дальнейшее внешнее сотрудничество включает: [5]

  • Колорадский университет
  • Университет Брандейса
  • Питтсбургский университет
  • Калифорнийский университет в Сан-Диего

Такое сотрудничество расширило возможности cTAKES на другие области, такие как временное рассуждение, ответы на клинические вопросы и разрешение кореференций для клинической области. [5]

В 2010 году cTAKES была принята программой i2b2 и является центральным компонентом области 4 SHARP . [5]

В 2013 году cTAKES выпустили свой первый релиз в качестве проекта инкубатора Apache: cTAKES 3.0 .

В марте 2013 года cTAKES стал проектом верхнего уровня Apache (TLP). [5]

См. Также [ править ]

  • OpenNLP
  • UIMA
  • Электронная медицинская карта
  • Единая система медицинского языка

Ссылки [ править ]

  1. ^ Денеке, Керстин (2015-08-31). «Инструменты и ресурсы для извлечения информации» . Health Web Science: данные социальных сетей для здравоохранения . Springer. п. 67 . ISBN 978-3-319-20582-3 - через Google Книги.
  2. Халифа, Абдулрахман; Мейстр, Стефан (01.12.2015). «Адаптация существующих ресурсов обработки естественного языка для идентификации факторов риска сердечно-сосудистых заболеваний в клинических заметках» . Журнал биомедицинской информатики . Труды 2014 i2b2 / UTHealth Shared-Tasks и семинара по проблемам обработки естественного языка для клинических данных. 58 (Приложение): S128 – S132. DOI : 10.1016 / j.jbi.2015.08.002 . PMC 4983192 . PMID 26318122 .  
  3. ^ Худаири, Салли (2017-04-25). «Фонд программного обеспечения Apache объявляет о выпуске Apache® cTAKES ™ v4.0» (пресс-релиз). Форест Хилл, доктор медицины: Фонд программного обеспечения Apache. Globe Newswire . Проверено 20 сентября 2017 .
  4. ^ Савова, Гургана К; Масанц, Джеймс Дж; Огрен, Филипп V; Чжэн, Цзяпин; Сон, Сунгван; Киппер-Шулер, Карин С; Chute, Кристофер G (2010). «Система клинического анализа текста и извлечения знаний Mayo (cTAKES): архитектура, оценка компонентов и приложения» . Журнал Американской ассоциации медицинской информатики . 17 (5): 507–513. DOI : 10.1136 / jamia.2009.001560 . ISSN 1067-5027 . PMC 2995668 . PMID 20819853 .   
  5. ^ a b c d e "История" . Apache cTAKES ™ - система извлечения знаний из клинического анализа текста . 2015-06-22 . Проверено 11 января 2018 .

Внешние ссылки [ править ]

  • Официальный сайт cTAKES
  • Страница информации о проекте Apache cTAKES от ASF
  • Аннотация (JAMIA)
  • Консорциум Open Health Natural Language Processing (OHNLP) Consortium
  • Программа перспективных исследовательских проектов в области стратегических информационных технологий в области здравоохранения (SHARP)
  • Область SHARP 4 - Вторичное использование данных ЭУЗ
  • Консоль автоматизированного поиска (ARC)
  • Извлечение текста информации о здоровье (HITEx) ) был разработан в рамках проекта i2b2. Это основанный на правилах конвейер НЛП, основанный на структуре GATE, разработанной информатикой для интеграции биологии и прикроватной среды .
  • Инструментарий компьютерных исследований языка и образования (cleartk) ( больше не поддерживается ) был разработан в Университете Колорадо в Боулдере и обеспечивает основу для разработки статистических компонентов НЛП на Java. Он построен на основе Apache UIMA .
  • NegEx - это инструмент, разработанный в Питтсбургском университете для обнаружения отрицательных терминов в клиническом тексте. Система использует триггерные термины как метод определения вероятных сценариев отрицания в предложении.
  • ConText ): расширение NegEx, также разработанное Питтсбургским университетом. ConText расширяет NegEx, чтобы не только обнаруживать отрицаемые концепции, но также находить временные (недавние, исторические или гипотетические сценарии) и то, кем является Субъект (опыта) (пациент или другой).
  • MetaMap ( Национальная медицинская библиотека США ): это комплексная система тегов, построенная на основе Единой системы медицинского языка . Для использования требуется активное лицензионное соглашение UMLS Metathesaurus (и учетная запись).
  • MedEx - инструмент для извлечения информации о лекарствах из клинического текста. MedEx обрабатывает клинические записи с произвольным текстом для распознавания названий лекарств и сигнатурной информации, такой как доза, частота, способ введения и продолжительность лекарств. Использование бесплатно с лицензией UMLS. Это отдельное приложение для Linux и Windows.
  • SecTag (иерархия тегов разделов): распознает заголовки разделов заметок с использованием методов НЛП, Байеса, исправления орфографии и оценки. Использование бесплатно с лицензией UMLS или LOINC.
  • ( Stanford Named Entity Recognizer (NER) ): Stanford NER - это модель последовательности условных случайных полей вместе с хорошо спроектированными функциями для распознавания именованных сущностей на английском и немецком языках.
  • ( Stanford CoreNLP ) - это интегрированный набор инструментов обработки естественного языка для английского языка в Java, включая токенизацию , тегирование части речи, распознавание именованных сущностей, синтаксический анализ и сопоставление.