Разработчики) | Фонд программного обеспечения Apache |
---|---|
Стабильный выпуск | 4.0.0 / 25 апреля 2017 г . |
Репозиторий | cTakes Репозиторий |
Написано в | Java , Scala |
Операционная система | Кроссплатформенность |
Тип | Обработка естественного языка , биоинформатика , интеллектуальный анализ текста , извлечение информации |
Лицензия | Лицензия Apache 2.0 |
Интернет сайт | ctakes |
Apache cTAKES: система клинического анализа текста и извлечения знаний - это система обработки естественного языка (NLP) с открытым исходным кодом, которая извлекает клиническую информацию из неструктурированного текста электронных медицинских карт . Он обрабатывает клинические записи, идентифицируя типы клинических названий объектов - лекарства, заболевания / расстройства, признаки / симптомы, анатомические участки и процедуры. Каждая именованная сущность имеет атрибуты для диапазона текста, кода отображения онтологии, контекста (семейная история, текущая, не связанная с пациентом) и отрицание / неотрицание. [1]
cTAKES был построен с использованием инфраструктуры управления неструктурированной информацией UIMA и инструментария обработки естественного языка OpenNLP . [2] [3]
Компоненты [ править ]
Компоненты cTAKES специально обучены для клинической области и создают обширные лингвистические и семантические аннотации, которые могут использоваться системами поддержки принятия клинических решений и клиническими исследованиями. [4]
Эти компоненты включают:
- Идентификатор именованного раздела
- Детектор границы предложения
- Токенизатор на основе правил
- Идентификатор отформатированного списка
- Нормализатор
- Контекстно-зависимый токенизатор
- Тегер части речи
- Фразовый чункер
- Аннотатор поиска в словаре
- Аннотатор контекста
- Детектор отрицания
- Детектор неопределенности
- Детектор предмета
- Парсер зависимостей
- идентификатор статуса курения пациента
- Аннотатор упоминаний о лекарствах
История [ править ]
Разработка cTAKES началась в клинике Майо в 2006 году. В команду разработчиков во главе с доктором Гергана Савова и доктор Кристофер Чут входили врачи, компьютерные ученые и инженеры-программисты. После развертывания cTAKES стал неотъемлемой частью инфраструктуры управления клиническими данными Mayo, обрабатывая более 80 миллионов клинических записей. [5]
Когда в начале 2010 года доктор Савова переехала в Бостонскую детскую больницу , основная команда разработчиков расширилась, и в нее вошли члены. Дальнейшее внешнее сотрудничество включает: [5]
- Колорадский университет
- Университет Брандейса
- Питтсбургский университет
- Калифорнийский университет в Сан-Диего
Такое сотрудничество расширило возможности cTAKES на другие области, такие как временное рассуждение, ответы на клинические вопросы и разрешение кореференций для клинической области. [5]
В 2010 году cTAKES была принята программой i2b2 и является центральным компонентом области 4 SHARP . [5]
В 2013 году cTAKES выпустили свой первый релиз в качестве проекта инкубатора Apache: cTAKES 3.0 .
В марте 2013 года cTAKES стал проектом верхнего уровня Apache (TLP). [5]
См. Также [ править ]
- OpenNLP
- UIMA
- Электронная медицинская карта
- Единая система медицинского языка
Ссылки [ править ]
- ^ Денеке, Керстин (2015-08-31). «Инструменты и ресурсы для извлечения информации» . Health Web Science: данные социальных сетей для здравоохранения . Springer. п. 67 . ISBN 978-3-319-20582-3 - через Google Книги.
- ↑ Халифа, Абдулрахман; Мейстр, Стефан (01.12.2015). «Адаптация существующих ресурсов обработки естественного языка для идентификации факторов риска сердечно-сосудистых заболеваний в клинических заметках» . Журнал биомедицинской информатики . Труды 2014 i2b2 / UTHealth Shared-Tasks и семинара по проблемам обработки естественного языка для клинических данных. 58 (Приложение): S128 – S132. DOI : 10.1016 / j.jbi.2015.08.002 . PMC 4983192 . PMID 26318122 .
- ^ Худаири, Салли (2017-04-25). «Фонд программного обеспечения Apache объявляет о выпуске Apache® cTAKES ™ v4.0» (пресс-релиз). Форест Хилл, доктор медицины: Фонд программного обеспечения Apache. Globe Newswire . Проверено 20 сентября 2017 .
- ^ Савова, Гургана К; Масанц, Джеймс Дж; Огрен, Филипп V; Чжэн, Цзяпин; Сон, Сунгван; Киппер-Шулер, Карин С; Chute, Кристофер G (2010). «Система клинического анализа текста и извлечения знаний Mayo (cTAKES): архитектура, оценка компонентов и приложения» . Журнал Американской ассоциации медицинской информатики . 17 (5): 507–513. DOI : 10.1136 / jamia.2009.001560 . ISSN 1067-5027 . PMC 2995668 . PMID 20819853 .
- ^ a b c d e "История" . Apache cTAKES ™ - система извлечения знаний из клинического анализа текста . 2015-06-22 . Проверено 11 января 2018 .
Внешние ссылки [ править ]
- Официальный сайт cTAKES
- Страница информации о проекте Apache cTAKES от ASF
- Аннотация (JAMIA)
- Консорциум Open Health Natural Language Processing (OHNLP) Consortium
- Программа перспективных исследовательских проектов в области стратегических информационных технологий в области здравоохранения (SHARP)
- Область SHARP 4 - Вторичное использование данных ЭУЗ
- Консоль автоматизированного поиска (ARC)
- Извлечение текста информации о здоровье (HITEx) ) был разработан в рамках проекта i2b2. Это основанный на правилах конвейер НЛП, основанный на структуре GATE, разработанной информатикой для интеграции биологии и прикроватной среды .
- Инструментарий компьютерных исследований языка и образования (cleartk) ( больше не поддерживается ) был разработан в Университете Колорадо в Боулдере и обеспечивает основу для разработки статистических компонентов НЛП на Java. Он построен на основе Apache UIMA .
- NegEx - это инструмент, разработанный в Питтсбургском университете для обнаружения отрицательных терминов в клиническом тексте. Система использует триггерные термины как метод определения вероятных сценариев отрицания в предложении.
- ConText ): расширение NegEx, также разработанное Питтсбургским университетом. ConText расширяет NegEx, чтобы не только обнаруживать отрицаемые концепции, но также находить временные (недавние, исторические или гипотетические сценарии) и то, кем является Субъект (опыта) (пациент или другой).
- MetaMap ( Национальная медицинская библиотека США ): это комплексная система тегов, построенная на основе Единой системы медицинского языка . Для использования требуется активное лицензионное соглашение UMLS Metathesaurus (и учетная запись).
- MedEx - инструмент для извлечения информации о лекарствах из клинического текста. MedEx обрабатывает клинические записи с произвольным текстом для распознавания названий лекарств и сигнатурной информации, такой как доза, частота, способ введения и продолжительность лекарств. Использование бесплатно с лицензией UMLS. Это отдельное приложение для Linux и Windows.
- SecTag (иерархия тегов разделов): распознает заголовки разделов заметок с использованием методов НЛП, Байеса, исправления орфографии и оценки. Использование бесплатно с лицензией UMLS или LOINC.
- ( Stanford Named Entity Recognizer (NER) ): Stanford NER - это модель последовательности условных случайных полей вместе с хорошо спроектированными функциями для распознавания именованных сущностей на английском и немецком языках.
- ( Stanford CoreNLP ) - это интегрированный набор инструментов обработки естественного языка для английского языка в Java, включая токенизацию , тегирование части речи, распознавание именованных сущностей, синтаксический анализ и сопоставление.