Биологические данные относятся к соединению или информации, полученной от живых организмов и их продуктов. Лекарственное соединение, полученное из живых организмов, такое как сыворотка или вакцина, можно охарактеризовать как биологические данные. Биологические данные очень сложны по сравнению с другими формами данных. Существует множество форм биологических данных, включая текст, данные о последовательностях, структуру белка, геномные данные и аминокислоты, а также ссылки среди прочего.
Биологические данные и биоинформатика
Биологические данные работают в тесном сотрудничестве с биоинформатикой , недавно появившейся дисциплиной, направленной на удовлетворение потребности в анализе и интерпретации огромных объемов геномных данных.
За последние несколько десятилетий скачки в геномных исследованиях привели к получению огромного количества биологических данных. В результате биоинформатика была создана как конвергенция геномики, биотехнологии и информационных технологий с упором на биологические данные.
Биологические данные также было трудно определить, поскольку биоинформатика - обширная область. Кроме того, вопрос о том, что считать живым организмом, вызывает споры, поскольку «живой» представляет собой туманный термин, охватывающий молекулярную эволюцию, биологическое моделирование, биофизику и системную биологию. Начиная с последнего десятилетия, биоинформатика и анализ биологических данных процветают в результате скачков в технологиях, необходимых для управления и интерпретации данных. В настоящее время это процветающая область, поскольку общество стало более сосредоточенным на получении, передаче и использовании биоинформатических и биологических данных.
Типы биологических данных
Биологические данные могут быть извлечены для использования в областях омики , био-визуализации и медицинской визуализации . Биологи ценят биологические данные, чтобы получить молекулярные данные о живых организмах. Инструменты для секвенирования ДНК, экспрессии генов (GE), био-визуализации, нейровизуализации и интерфейсов мозг-машина - все это области, которые используют биологические данные и моделируют биологические системы с высокой размерностью. [1]
Более того, необработанные данные о биологической последовательности обычно относятся к ДНК , РНК и аминокислотам . [1]
Биологические данные также можно описать как данные о биологических объектах. [2] Например, такие характеристики, как последовательности, графики, геометрическая информация, скалярные и векторные поля, шаблоны, ограничения, изображения и пространственная информация, могут быть охарактеризованы как биологические данные, поскольку они описывают особенности биологических существ. Во многих случаях биологические данные связаны с несколькими из этих категорий. Например, как описано в отчете Национального института здравоохранения о катализе исследований на стыке вычислений и биологии, структура белка может быть связана с одномерной последовательностью, двухмерным изображением и трехмерной структурой и т. Д. на. [2]
Биомедицинские базы данных
Биомедицинские базы данных часто называют базами данных электронных медицинских карт (EHR) , геномными данными в децентрализованных федеральных системах баз данных и биологическими данными, включая геномные данные, собранные в результате крупномасштабных клинических исследований. [3] [4]
Биохакинг и угрозы конфиденциальности
Биохакинг
Атаки на биокомпьютеры стали более распространенными, поскольку недавние исследования показали, что общие инструменты могут позволить злоумышленнику синтезировать биологическую информацию, которая может быть использована для перехвата информации из анализов ДНК. [5] Угроза биохакинга стала более очевидной, поскольку ДНК-анализ становится все более универсальным в таких областях, как судебная медицина, клинические исследования и геномика.
Биохакинг может осуществляться путем синтеза вредоносной ДНК и вставки в биологические образцы. Исследователи разработали сценарии, демонстрирующие угрозу биохакинга, например, когда хакер достигает биологического образца, скрывая вредоносную ДНК на обычных поверхностях, таких как лабораторные халаты, скамейки или резиновые перчатки, которые затем загрязняют генетические данные. [5]
Однако угрозу биохакинга можно снизить, используя аналогичные методы, которые используются для предотвращения обычных инъекционных атак. Клиницисты и исследователи могут смягчить последствия биохакерских атак, извлекая генетическую информацию из биологических образцов и сравнивая образцы для выявления неизвестных материалов. Исследования показали, что сравнение генетической информации с биологическими образцами для идентификации кода биохакерства было до 95% эффективным в обнаружении вредоносных вставок ДНК при атаках биохакерства. [5]
Генетические образцы как личные данные
Проблемы конфиденциальности в геномных исследованиях возникают в связи с тем, что геномные образцы содержат персональные данные или их следует рассматривать как физический предмет. [6] Кроме того, возникают опасения, поскольку некоторые страны признают геномные данные как персональные (и применяют правила защиты данных), в то время как другие страны рассматривают образцы с точки зрения физического вещества и не применяют те же законы о защите данных к геномным образцам. Предстоящий Общий регламент по защите данных ( GDPR ) был назван потенциальным правовым инструментом, который может лучше обеспечить соблюдение правил конфиденциальности в биобанкинговых и геномных исследованиях. [6]
Однако двусмысленность определения «персональных данных» в тексте GDPR, особенно в отношении биологических данных, привела к сомнениям в том, будет ли регулирование применяться к генетическим образцам. В статье 4 (1) говорится, что персональные данные определяются как «Любая информация, относящаяся к идентифицированному или идентифицируемому физическому лицу (« субъекту данных »)» [7]
Применение глубокого обучения к биологическим данным
В результате быстрого прогресса в области науки о данных и вычислительной мощности ученые-биологи смогли применить методы машинного обучения с интенсивным использованием данных к биологическим данным, такие как глубокое обучение (DL), обучение с подкреплением (RL) и их комбинация (deep RL). ). Эти методы, наряду с увеличением объема хранения данных и вычислений, позволили ученым-биологам добывать биологические данные и анализировать наборы данных, которые ранее были слишком большими или сложными. Глубокое обучение (DL) и обучение с подкреплением (RL) использовались в области исследований омики [1] (включая геномику, протеомику или метаболомику). Как правило, необработанные данные о биологических последовательностях (например, ДНК, РНК и аминокислоты) ) извлекается и используется для анализа свойств, функций, структур и молекулярной динамики из биологических данных. С этого момента и далее могут выполняться различные анализы, такие как прогнозирование соединения сплайсинга с помощью профилирования GE, и может выполняться оценка взаимодействия белок-белок. [1]
Обучение с подкреплением, термин, происходящий из поведенческой психологии, представляет собой метод решения проблем путем изучения вещей методом проб и ошибок. Обучение с подкреплением может применяться к биологическим данным в области омики, используя RL для прогнозирования бактериальных геномов. [8]
Другие исследования показали, что обучение с подкреплением можно использовать для точного прогнозирования аннотации биологической последовательности. [9]
Архитектуры глубокого обучения (DL) также полезны при обучении биологических данных. Например, архитектуры DL, нацеленные на уровни пикселей биологических изображений, использовались для идентификации процесса митоза в гистологических изображениях груди. Архитектуры DL также использовались для идентификации ядер на изображениях клеток рака груди. [10]
Проблемы интеллектуального анализа данных в биомедицинской информатике
Сложность
Основной проблемой, с которой сталкиваются модели биомедицинских данных, обычно является сложность, поскольку ученые-биологи в клинических условиях и биомедицинских исследованиях сталкиваются с возможностью информационной перегрузки. Однако информационная перегрузка часто вызывает споры в медицине. [11] Прогресс в области вычислительной техники позволил отдельным сообществам сформироваться в соответствии с различными философиями. Например, исследователи интеллектуального анализа данных и машинного обучения ищут соответствующие закономерности в биологических данных, а архитектура не зависит от вмешательства человека. Однако существуют риски, связанные с моделированием артефактов, когда вмешательство человека, такое как понимание и контроль конечного пользователя, уменьшается. [12]
Исследователи отметили, что с ростом затрат на здравоохранение и огромным объемом недостаточно используемых данных медицинские информационные технологии могут стать ключом к повышению эффективности и качества здравоохранения. [11]
Ошибки и злоупотребления в базе данных
Электронные медицинские карты (EHR) могут содержать геномные данные миллионов пациентов, и создание этих баз данных вызвало как похвалу, так и озабоченность. [4]
Ученые-юристы указали на три основные проблемы, вызывающие растущее число судебных разбирательств, касающихся биомедицинских баз данных. Во-первых, данные, содержащиеся в биомедицинских базах данных, могут быть неверными или неполными. Во-вторых, системные предубеждения, которые могут возникать из-за предубеждений исследователей или характера биологических данных, могут поставить под угрозу достоверность результатов исследования. В-третьих, наличие интеллектуального анализа данных в биологических базах данных может облегчить людям с политическими, социальными или экономическими интересами манипулирование результатами исследований, чтобы повлиять на общественное мнение. [13] [4]
Пример неправильного использования базы данных произошел в 2009 году, когда журнал психиатрических исследований опубликовал исследование, в котором аборт ассоциировался с психическими расстройствами. [14] Целью исследования было проанализировать связь между абортами в анамнезе и психическими расстройствами, такими как тревожные расстройства (включая паническое расстройство, посттравматическое стрессовое расстройство и агорафобию), а также расстройства, связанные со злоупотреблением психоактивными веществами и расстройствами настроения.
Тем не менее, исследование было дискредитировано в 2012 году, когда ученые тщательно изучили методологию исследования и обнаружили в нем серьезные недостатки. [15] Исследователи использовали «национальные наборы данных с репродуктивным анамнезом и переменными психического здоровья» [14], чтобы получить свои результаты. Однако исследователям не удалось сравнить женщин (которые имели незапланированную беременность и сделали аборты) с группой женщин, которые не делали абортов, сосредоточив внимание на психиатрических проблемах, возникших после прерывания беременности. В результате результаты, которые, казалось, внушали научную достоверность, привели к тому, что несколько штатов приняли законодательство [16] , требующее от женщин обращаться за консультацией до аборта из-за потенциальных долгосрочных последствий для психического здоровья.
Другая статья, опубликованная в New York Times, продемонстрировала, как врачи могут манипулировать системами электронных медицинских карт (EHR), чтобы преувеличить объем оказываемой ими помощи для целей возмещения расходов по программе Medicare. [17] [4]
Обмен биомедицинскими данными
Обмен биомедицинскими данными рекламируется как эффективный способ повышения воспроизводимости исследований и научных открытий. [13] [18]
В то время как исследователи борются с технологическими проблемами при обмене данными, социальные проблемы также являются препятствием для обмена биологическими данными. Например, клиницисты и исследователи сталкиваются с уникальными проблемами при обмене биологическими или медицинскими данными в рамках своего медицинского сообщества, такими как проблемы конфиденциальности и законы о конфиденциальности пациентов, такие как HIPAA. [19]
Отношение к обмену данными
Согласно исследованию 2015 года [19], в котором основное внимание уделялось отношению практикующих врачей и научно-исследовательского персонала, большинство респондентов отметили, что обмен данными важен для их работы, но отметили, что их опыт в этой области был низким. Из 190 респондентов, принявших участие в опросе, 135 назвали себя учеными-клиническими или фундаментальными исследователями, и в число участников опроса входили ученые-клинические и фундаментальные исследователи, участвовавшие в программе очных исследований в Национальном институте здравоохранения. Исследование также показало, что среди респондентов обмен данными напрямую с другими клиницистами был обычной практикой, но у субъектов исследования было мало практики загрузки данных в репозиторий.
В области биомедицинских исследований обмен данными продвигается [20] как важный способ для исследователей совместного использования и повторного использования данных, чтобы в полной мере воспользоваться преимуществами персонализированной и точной медицины . [19]
Проблемы с обменом данными
Обмен данными в здравоохранении остается проблемой по нескольким причинам. Несмотря на успехи исследований в области обмена данными в здравоохранении, многие медицинские организации по-прежнему неохотно или не желают публиковать медицинские данные из-за законов о конфиденциальности, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA) . Более того, обмен биологическими данными между учреждениями требует защиты конфиденциальности данных, которые могут относиться к нескольким организациям. Достижение синтаксической и семантической неоднородности данных при соблюдении разнообразных требований конфиденциальности - все это факторы, которые создают препятствия для совместного использования данных. [21]
Рекомендации
- ^ a b c d Махмуд, муфтий; Кайзер, Мохаммед Шамим; Хуссейн, Амир; Вассанелли, Стефано (июнь 2018 г.). «Приложения глубокого обучения и обучения с подкреплением к биологическим данным» . Транзакции IEEE в нейронных сетях и обучающих системах . 29 (6): 2063–2079. DOI : 10.1109 / tnnls.2018.2790388 . hdl : 1893/26814 . ISSN 2162-237X . PMID 29771663 . S2CID 9823884 .
- ^ а б Вули, Джон С .; Lin, Herbert S .; Биология, Комитет Национального исследовательского совета (США) по границам в интерфейсе вычислительной техники и (2005 г.). О природе биологических данных . Национальная академия прессы (США).
- ^ Надкарни, PM; Brandt, C .; Frawley, S .; Sayward, FG; Einbinder, R .; Zelterman, D .; Schacter, L .; Миллер, П.Л. (1998-03-01). «Управление данными клинических испытаний значений атрибутов с использованием системы базы данных клиент-сервер ACT / DB» . Журнал Американской ассоциации медицинской информатики . 5 (2): 139–151. DOI : 10.1136 / jamia.1998.0050139 . ISSN 1067-5027 . PMC 61285 . PMID 9524347 .
- ^ а б в г Хоффман, Шарона; Подгурский, Энди (2013). «Использование и неправильное использование биомедицинских данных: действительно ли больше лучше?» . Американский журнал права и медицины . 39 (4): 497–538. DOI : 10.1177 / 009885881303900401 . ISSN 0098-8588 . PMID 24494442 . S2CID 35371353 .
- ^ а б в Ислам, Мохд Сибли; Иванов, С .; Робсон, Э .; Dooley-Cullinane, T .; Coffey, L .; Дулин, К .; Баласубраманиам, С. (2019). «Генетическое сходство биологических образцов для противодействия биохимическому взлому функциональности ДНК-секвенирования» . Научные отчеты . 9 (1): 8684. Bibcode : 2019NatSR ... 9.8684I . DOI : 10.1038 / s41598-019-44995-6 . PMC 6581904 . PMID 31213619 . S2CID 190652460 .
- ^ а б Халлинан, Дара; Де Херт, Пол (2016), Миттельштадт, Брент Даниэль; Флориди, Лучиано (ред.), «Многие ошибаются - образцы действительно содержат личные данные: Положение о защите данных как лучшая основа для защиты интересов доноров в биобанкинге и геномных исследованиях» , Этика биомедицинских больших данных , закон, управление и Технология серии, Cham:. Springer International Publishing, стр 119-137, DOI : 10.1007 / 978-3-319-33525-4_6 , ISBN 978-3-319-33525-4, получено 9 декабря 2020 г.
- ^ "Statewatch.org" (PDF) . StateWatch.org . Дата обращения 3 июля 2015 .
- ^ Чуанг, Ли-Йе; Цай, Жуй-Хунг; Ян, Чэн-Хун (июль 2010 г.). «Оптимизация роя бинарных частиц для предсказания оперонов» . Исследования нуклеиновых кислот . 38 (12): e128. DOI : 10.1093 / NAR / gkq204 . ISSN 0305-1048 . PMC 2896535 . PMID 20385582 .
- ^ Ралха, CG; Шнайдер, HW; Уолтер, MEMT; Баззан, А.Л. (октябрь 2010 г.). «Метод обучения с подкреплением для биоагентов» . 2010 Одиннадцатый Бразильский симпозиум по нейронным сетям : 109–114. DOI : 10,1109 / SBRN.2010.27 . ISBN 978-1-4244-8391-4. S2CID 14685651 .
- ^ Сюй, Цзюнь; Сян, Лэй; Лю, Циншань; Гилмор, Ханна; Ву, Цзяньчжун; Тан, Цзинхай; Мадабхуши, Анант (январь 2016 г.). "Stacked Sparse Autoencoder (SSAE) для обнаружения ядер на изображениях гистопатологии рака молочной железы" . IEEE Transactions по медицинской визуализации . 35 (1): 119–130. DOI : 10,1109 / TMI.2015.2458702 . ISSN 0278-0062 . PMC 4729702 . PMID 26208307 .
- ^ а б Хольцингер, Андреас; Юрисица, Игорь (2014), Хольцингер, Андреас; Юрисица, Игорь (ред.), «Открытие знаний и интеллектуальный анализ данных в биомедицинской информатике: будущее за интегративными, интерактивными решениями для машинного обучения» , « Интерактивное обнаружение знаний и интеллектуальный анализ данных в биомедицинской информатике: современное состояние и будущие задачи» , Конспект лекций по информатике, Берлин, Гейдельберг: Springer, стр. 1–18, DOI : 10.1007 / 978-3-662-43968-5_1 , ISBN 978-3-662-43968-5, получено 9 декабря 2020 г.
- ^ Шнейдерман, Бен (март 2002). «Изобретая инструменты обнаружения: объединение визуализации информации с интеллектуальным анализом данных» . Визуализация информации . 1 (1): 5–12. DOI : 10,1057 / palgrave.ivs.9500006 . hdl : 1903/6484 . ISSN 1473-8716 . S2CID 208272047 .
- ^ а б Миттельштадт, Брент Дэниел; Флориди, Лучано (апрель 2016 г.). «Этика больших данных: текущие и прогнозируемые проблемы в биомедицинских контекстах» . Наука и инженерная этика . 22 (2): 303–341. DOI : 10.1007 / s11948-015-9652-2 . ISSN 1471-5546 . PMID 26002496 . S2CID 23142795 .
- ^ а б Coleman, Priscilla K .; Койл, Кэтрин Т .; Шупинг, Марта; Рю, Винсент М. (май 2009 г.). «Индуцированный аборт и тревожность, расстройства настроения и злоупотребления психоактивными веществами: выделение последствий аборта в национальном обследовании сопутствующих заболеваний» . Журнал психиатрических исследований . 43 (8): 770–776. DOI : 10.1016 / j.jpsychires.2008.10.009 . ISSN 1879-1379 . PMID 19046750 .
- ^ Кесслер, Рональд С.; Шацберг, Алан Ф. (март 2012 г.). «Комментарий к исследованиям абортов Стейнберга и Файнера (Social Science & Medicine 2011; 72: 72–82) и Коулмана (Journal of Psychiatric Research 2009; 43: 770–6 и Journal of Psychiatric Research 2011; 45: 1133–4)» . Журнал психиатрических исследований . 46 (3): 410–411. DOI : 10.1016 / j.jpsychires.2012.01.021 .
- ^ «Консультации и периоды ожидания для прерывания беременности» . Институт Гутмахера . 2016-03-14 . Проверено 9 декабря 2020 .
- ^ Абельсон, Рид; Кресвелл, Джули; Палмер, Грифф (22 сентября 2012 г.). «Счета Medicare растут по мере того, как записи становятся электронными (опубликовано в 2012 году)» . Нью-Йорк Таймс . ISSN 0362-4331 . Проверено 9 декабря 2020 .
- ^ Калкман, Шона; Мостерт, Менно; Герлингер, Кристоф; ван Делден, Йоханнес Дж. М.; ван Тиль, Гислен JMW (28 марта 2019 г.). «Ответственный обмен данными в международных исследованиях в области здравоохранения: систематический обзор принципов и норм» . BMC Medical Ethics . 20 (1): 21. DOI : 10,1186 / s12910-019-0359-9 . ISSN 1472-6939 . PMC 6437875 . PMID 30922290 .
- ^ а б в Федерер, Лиза М .; Лу, Я-Линг; Жубер, Дуглас Дж .; Валлийский, Юдифь; Брэндис, Барбара (2015-06-24). Канунго, Джётшна (ред.). «Обмен и повторное использование биомедицинских данных: отношение и практика сотрудников клинических и научных исследований» . PLOS ONE . 10 (6): e0129506. Bibcode : 2015PLoSO..1029506F . DOI : 10.1371 / journal.pone.0129506 . ISSN 1932-6203 . PMC 4481309 . PMID 26107811 .
- ^ Шнейдерман, Бен (21.07.2016). «Изобретая инструменты обнаружения: объединение визуализации информации с интеллектуальным анализом данных1» . Визуализация информации . 1 : 5–12. DOI : 10,1057 / palgrave.ivs.9500006 . hdl : 1903/6484 . S2CID 208272047 .
- ^ Виммер, Хайден; Юн, Виктория Ю .; Сугумаран, Виджаян (2016-08-01). «Многоагентная система для поддержки доказательной медицины и принятия клинических решений посредством обмена данными и конфиденциальности данных» . Системы поддержки принятия решений . 88 : 51–66. DOI : 10.1016 / j.dss.2016.05.008 . ISSN 0167-9236 .