Неструктурированные данные

Неструктурированные данные (или неструктурированная информация ) - это информация, которая либо не имеет заранее определенной модели данных, либо не организована заранее определенным образом. Неструктурированная информация обычно имеет объемный текст , но также может содержать такие данные, как даты, числа и факты. Это приводит к неточностям и двусмысленностям, которые затрудняют понимание использования традиционных программ по сравнению с данными, хранящимися в полевой форме в базах данных или аннотированных ( семантически помеченных ) в документах.

В 1998 году Merrill Lynch сказал, что «неструктурированные данные составляют подавляющее большинство данных, имеющихся в организации, по некоторым оценкам, до 80%». ^[1] Неясно, каков источник этого числа, но, тем не менее, некоторые принимают его. ^[2] Другие источники сообщают о таком же или более высоком проценте неструктурированных данных. ^[3]^[4]^[5]

По состоянию на 2012 год ^{[Обновить]}, IDC и Dell EMC проект, данные будут расти до 40 зеттабайтов к 2020 году, в результате чего 50-кратного роста с начала 2010 года ^[6] Совсем недавно, IDC и Seagate прогнозируют , что глобальный Инфосфера будет расти до 163 зеттабайт к 2025 г. ^[7], и большая часть из них будет неструктурированной. Журнал Computer World утверждает, что неструктурированная информация может составлять более 70–80% всех данных в организациях. ^[1]

Фон [ править ]

Самые ранние исследования бизнес-аналитики были сосредоточены на неструктурированных текстовых данных, а не на числовых данных. ^[8] Еще в 1958 году исследователи информатики, такие как HP Luhn, были особенно озабочены извлечением и классификацией неструктурированного текста. ^[8] Тем не менее, только на рубеже веков эта технология заинтересовала исследователей. В 2004 году институт SAS разработал программу SAS Text Miner, которая использует декомпозицию по сингулярным значениям (SVD) для сокращения гиперпространственного текстового пространства до меньших размеров для значительно более эффективного машинного анализа. ^[9]Математические и технологические достижения , зажженные машина анализ текстов побудили ряд предприятий в научно - исследовательские приложениях, что приводит к развитию таких областей , как анализ настроений , голос клиента добычи и оптимизация центра обработки вызовов. ^[10] Появление больших данных в конце 2000-х годов привело к повышенному интересу к приложениям аналитики неструктурированных данных в современных областях, таких как прогнозная аналитика и анализ первопричин . ^[11]

Проблемы с терминологией [ править ]

Термин неточен по нескольким причинам:

Структура , хотя формально не определена, все же может подразумеваться.
Данные с некоторой формой структуры могут по-прежнему характеризоваться как неструктурированные, если их структура не полезна для решаемой задачи обработки.
Неструктурированная информация может иметь некоторую структуру ( частично структурированную ) или даже сильно структурированную, но непредвиденным или необъявленным образом.

Работа с неструктурированными данными [ править ]

Такие методы, как интеллектуальный анализ данных , обработка естественного языка (NLP) и текстовая аналитика, предоставляют различные методы для поиска закономерностей или иной интерпретации этой информации. Общие методы структурирования текста обычно включают ручную маркировку метаданными или теги части речи для дальнейшего структурирования на основе интеллектуального анализа текста . Стандарт архитектуры управления неструктурированной информацией (UIMA) обеспечивает общую основу для обработки этой информации с целью извлечения смысла и создания структурированных данных об информации. ^[12]

Программное обеспечение, которое создает машинно-обрабатываемую структуру, может использовать лингвистическую, слуховую и визуальную структуру, которая существует во всех формах человеческого общения. ^[13] Алгоритмы могут вывести эту внутреннюю структуру из текста, например, исследуя морфологию слова , синтаксис предложения и другие мелкие и крупномасштабные шаблоны. Затем неструктурированная информация может быть обогащена и помечена для устранения двусмысленностей и методов, основанных на релевантности, а затем использоваться для облегчения поиска и обнаружения. Примеры «неструктурированных данных» могут включать книги, журналы, документы, метаданные , медицинские записи , аудио , видео , аналоговые данные , изображения, файлы и неструктурированный текст, такой как телосообщение электронной почты , веб-страница или документ текстового процессора . Хотя основной передаваемый контент не имеет определенной структуры, он обычно поставляется упакованным в объекты (например, в файлы или документы, ...), которые сами имеют структуру и, таким образом, представляют собой смесь структурированных и неструктурированных данных, но в совокупности это все еще называются «неструктурированными данными». ^[14] Например, веб-страница HTML помечена тегами, но разметка HTML обычно служит исключительно для визуализации. Он не фиксирует значение или функцию помеченных элементов способами, которые поддерживают автоматическую обработку информационного содержания страницы. XHTML Теги действительно позволяют машинную обработку элементов, хотя обычно не фиксируют и не передают семантическое значение тегированных терминов.

Поскольку неструктурированные данные обычно встречаются в электронных документах , использование системы управления содержанием или документами, которая может классифицировать документы целиком, часто предпочтительнее передачи данных и манипулирования ими из документов. Таким образом, управление документами предоставляет средства для передачи структуры коллекциям документов .

Поисковые системы стали популярными инструментами для индексации и поиска таких данных, особенно текста.

Подходы к обработке естественного языка [ править ]

Были разработаны специальные вычислительные рабочие процессы, чтобы наложить структуру на неструктурированные данные, содержащиеся в текстовых документах. Эти рабочие процессы обычно предназначены для обработки наборов из тысяч или даже миллионов документов, или гораздо большего количества, чем может позволить ручной подход к аннотации. Некоторые из этих подходов основаны на концепции онлайн-аналитической обработки или OLAP и могут поддерживаться моделями данных, такими как текстовые кубы. ^[15] Как только метаданные документа становятся доступными через модель данных, генерация сводок подмножеств документов (т. Е. Ячеек в текстовом кубе) может выполняться с помощью подходов, основанных на фразах. ^[16]

Подходы в медицине и биомедицинских исследованиях [ править ]

Биомедицинские исследования являются одним из основных источников неструктурированных данных, поскольку исследователи часто публикуют свои выводы в научных журналах. Хотя язык в этих документах сложно вывести из структурных элементов (например, из-за сложного технического словаря, содержащегося внутри, и знаний предметной области, необходимых для полной контекстуализации наблюдений), результаты этих действий могут установить связь между техническими и медицинскими исследованиями ^{[17 ]} и подсказки относительно новых методов лечения болезней. ^[18] Недавние усилия по обеспечению структуры в биомедицинских документах включают подходы к самоорганизующейся карте для определения тем среди документов, ^[19] универсальные неконтролируемые алгоритмы , ^[20]и применение рабочего процесса CaseOLAP ^[16] для определения связи между названиями белков и темами о сердечно-сосудистых заболеваниях в литературе. ^[21] CaseOLAP определяет отношения фраза-категория точным (идентифицирующим отношения), непротиворечивым (легко воспроизводимым) и эффективным способом. Эта платформа предлагает расширенную доступность и предоставляет биомедицинскому сообществу инструменты для анализа фраз для широко распространенных приложений биомедицинских исследований. ^[21]

См. Также [ править ]

Кластеризация
Распознавание образов
Список программного обеспечения для интеллектуального анализа текста

Заметки [ править ]

^ Сегодняшняя проблема в правительстве: что делать с неструктурированной информацией и почему ничего не делать - не вариант, Ноэль Юханна, главный аналитик,Forrester Research, ноябрь 2010 г.

Ссылки [ править ]

^ Шилакс, Кристофер С .; Тилман, Джули (16 ноября 1998 г.). «Корпоративные информационные порталы» (PDF) . Merrill Lynch . Архивировано из оригинального (PDF) 24 июля 2011 года.
↑ Граймс, Сет (1 августа 2008 г.). «Неструктурированные данные и правило 80 процентов» . Прорывный анализ - Точки мостов . Кларабридж.
^ Гандоми, Амир; Хайдер, Муртаза (апрель 2015 г.). «Вне шумихи: концепции, методы и аналитика больших данных» . Международный журнал управления информацией . 35 (2): 137–144. DOI : 10.1016 / j.ijinfomgt.2014.10.007 . ISSN 0268-4012 .
^ «Самые большие проблемы с данными, о которых вы, возможно, даже не подозреваете - Ватсон» . Ватсон . 2016-05-25 . Проверено 2 октября 2018 .
^ «Структурированные и неструктурированные данные» . www.datamation.com . Проверено 2 октября 2018 .
^ «Пресс-релиз EMC News: новое исследование цифровой вселенной выявляет пробелы в больших данных: анализируется менее 1% мировых данных; защищено менее 20%» . www.emc.com . Корпорация EMC. Декабрь 2012 г.
^ «Тенденции | Seagate US» . Seagate.com . Проверено 1 октября 2018 .
^ a b Граймс, Сет. «Краткая история текстовой аналитики» . Сеть B Eye . Проверено 24 июня, 2016 .
^ Олбрайт, Расс. «Укрощение текста с помощью СВД» (PDF) . SAS . Проверено 24 июня, 2016 .
↑ Desai, Manish (09.08.2009). «Приложения текстовой аналитики» . Моя бизнес-аналитика @ Blogspot . Проверено 24 июня, 2016 .
^ Чакраборти, Гаутам. «Анализ неструктурированных данных: приложения текстовой аналитики и анализа настроений» (PDF) . SAS . Проверено 24 июня, 2016 .
^ Хольцингер, Андреас; Стокер, Кристоф; Офнер, Бернхард; Прохаска, Готфрид; Брабенец, Альберто; Хофманн-Велленхоф, Райнер (2013). «Сочетание HCI, обработки естественного языка и обнаружения знаний - потенциал IBM Content Analytics как вспомогательной технологии в биомедицинской сфере» . В Хольцингере, Андреас; Паси, Габриэлла (ред.). Взаимодействие человека и компьютера и открытие знаний в сложных, неструктурированных, больших данных . Конспект лекций по информатике. Springer. С. 13–24. DOI : 10.1007 / 978-3-642-39146-0_2 . ISBN 978-3-642-39146-0.
^ "Структура, модели и значение:" неструктурированные "данные просто немоделированы?" . Информационная неделя . 1 марта 2005 г.
↑ Мэлоун, Роберт (5 апреля 2007 г.). «Структурирование неструктурированных данных» . Forbes .
^ Лин, Синди Сиде; Дин, Болин; Хан, Цзявэй; Чжу, Фейда; Чжао, Бо (декабрь 2008 г.). Текстовый куб: вычисление показателей IR для анализа многомерной текстовой базы данных . 2008 Восьмая Международная конференция IEEE по интеллектуальному анализу данных . IEEE. CiteSeerX 10.1.1.215.3177 . DOI : 10.1109 / icdm.2008.135 . ISBN 9780769535029.
^ а б Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное обобщение на основе фраз в текстовых кубах» (PDF) .
^ Кольер, Найджел; Назаренко, Аделина; Бод, Роберт; Рух, Патрик (июнь 2006 г.). «Последние достижения в обработке естественного языка для биомедицинских приложений». Международный журнал медицинской информатики . 75 (6): 413–417. DOI : 10.1016 / j.ijmedinf.2005.06.008 . ISSN 1386-5056 . PMID 16139564 .
^ Гонсалес, Грасиела Х .; Тахсин, Тасния; Goodale, Britton C .; Грин, Анна С .; Грин, Кейси С. (январь 2016 г.). «Последние достижения и новые приложения в области интеллектуального анализа текста и данных для биомедицинских открытий» . Брифинги по биоинформатике . 17 (1): 33–42. DOI : 10.1093 / нагрудник / bbv087 . ISSN 1477-4054 . PMC 4719073 . PMID 26420781 .
^ Скупин, Андре; Biberstine, Joseph R .; Бёрнер, Кэти (2013). «Визуализация тематической структуры медицинских наук: подход самоорганизующейся карты» . PLOS ONE . 8 (3): e58779. DOI : 10.1371 / journal.pone.0058779 . ISSN 1932-6203 . PMC 3595294 . PMID 23554924 .
^ Кила, Дуве; Го, Юфань; Стениус, Улла; Корхонен, Анна (01.04.2015). «Неконтролируемое обнаружение информационной структуры в биомедицинских документах» . Биоинформатика . 31 (7): 1084–1092. DOI : 10.1093 / биоинформатики / btu758 . ISSN 1367-4811 . PMID 25411329 .
^ a b Liem, Дэвид А .; Мурали, Санджана; Сигдел, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзяминь; Чой, Ховард; Caufield, John H .; Ван, Вэй; Пинг, Пейпей; Хан, Цзявэй (1 октября 2018 г.). «Анализ фраз текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Сердце и физиология кровообращения . 315 (4): H910 – H924. DOI : 10.1152 / ajpheart.00175.2018 . ISSN 1522-1539 . PMC 6230912 . PMID 29775406 .

Внешние ссылки [ править ]

Сопоставление неструктурированных и структурированных данных
краткое описание структурированных данных

[1] Шилакс, Кристофер С .; Тилман, Джули (16 ноября 1998 г.). «Корпоративные информационные порталы» (PDF) . Merrill Lynch . Архивировано из оригинального (PDF) 24 июля 2011 года.

[Clarabridge-2] Граймс, Сет (1 августа 2008 г.). «Неструктурированные данные и правило 80 процентов» . Прорывный анализ - Точки мостов . Кларабридж.

[3] Гандоми, Амир; Хайдер, Муртаза (апрель 2015 г.). «Вне шумихи: концепции, методы и аналитика больших данных» . Международный журнал управления информацией . 35 (2): 137–144. DOI : 10.1016 / j.ijinfomgt.2014.10.007 . ISSN 0268-4012 .

[4] «Самые большие проблемы с данными, о которых вы, возможно, даже не подозреваете - Ватсон» . Ватсон . 2016-05-25 . Проверено 2 октября 2018 .

[5] «Структурированные и неструктурированные данные» . www.datamation.com . Проверено 2 октября 2018 .

[idc-6] «Пресс-релиз EMC News: новое исследование цифровой вселенной выявляет пробелы в больших данных: анализируется менее 1% мировых данных; защищено менее 20%» . www.emc.com . Корпорация EMC. Декабрь 2012 г.

[7] «Тенденции | Seagate US» . Seagate.com . Проверено 1 октября 2018 .

[History-8] Граймс, Сет. «Краткая история текстовой аналитики» . Сеть B Eye . Проверено 24 июня, 2016 .

[SVD-9] Олбрайт, Расс. «Укрощение текста с помощью СВД» (PDF) . SAS . Проверено 24 июня, 2016 .

[Applications-10] Desai, Manish (09.08.2009). «Приложения текстовой аналитики» . Моя бизнес-аналитика @ Blogspot . Проверено 24 июня, 2016 .

[11] Чакраборти, Гаутам. «Анализ неструктурированных данных: приложения текстовой аналитики и анализа настроений» (PDF) . SAS . Проверено 24 июня, 2016 .

[IBMContentAnalytics-12] Хольцингер, Андреас; Стокер, Кристоф; Офнер, Бернхард; Прохаска, Готфрид; Брабенец, Альберто; Хофманн-Велленхоф, Райнер (2013). «Сочетание HCI, обработки естественного языка и обнаружения знаний - потенциал IBM Content Analytics как вспомогательной технологии в биомедицинской сфере» . В Хольцингере, Андреас; Паси, Габриэлла (ред.). Взаимодействие человека и компьютера и открытие знаний в сложных, неструктурированных, больших данных . Конспект лекций по информатике. Springer. С. 13–24. DOI : 10.1007 / 978-3-642-39146-0_2 . ISBN 978-3-642-39146-0.

[IntelligentEnterprise-13] "Структура, модели и значение:" неструктурированные "данные просто немоделированы?" . Информационная неделя . 1 марта 2005 г.

[14] Мэлоун, Роберт (5 апреля 2007 г.). «Структурирование неструктурированных данных» . Forbes .

[15] Лин, Синди Сиде; Дин, Болин; Хан, Цзявэй; Чжу, Фейда; Чжао, Бо (декабрь 2008 г.). Текстовый куб: вычисление показателей IR для анализа многомерной текстовой базы данных . 2008 Восьмая Международная конференция IEEE по интеллектуальному анализу данных . IEEE. CiteSeerX 10.1.1.215.3177 . DOI : 10.1109 / icdm.2008.135 . ISBN 9780769535029.

[textcubes-16] а б Тао, Фангбо; Чжуан, Хунлей; Ю, Чи Ван; Ван, Ци; Кэссиди, Тейлор; Каплан, Лэнс; Восс, Клэр; Хан, Цзявэй (2016). «Многомерное обобщение на основе фраз в текстовых кубах» (PDF) .

[17] Кольер, Найджел; Назаренко, Аделина; Бод, Роберт; Рух, Патрик (июнь 2006 г.). «Последние достижения в обработке естественного языка для биомедицинских приложений». Международный журнал медицинской информатики . 75 (6): 413–417. DOI : 10.1016 / j.ijmedinf.2005.06.008 . ISSN 1386-5056 . PMID 16139564 .

[18] Гонсалес, Грасиела Х .; Тахсин, Тасния; Goodale, Britton C .; Грин, Анна С .; Грин, Кейси С. (январь 2016 г.). «Последние достижения и новые приложения в области интеллектуального анализа текста и данных для биомедицинских открытий» . Брифинги по биоинформатике . 17 (1): 33–42. DOI : 10.1093 / нагрудник / bbv087 . ISSN 1477-4054 . PMC 4719073 . PMID 26420781 .

[19] Скупин, Андре; Biberstine, Joseph R .; Бёрнер, Кэти (2013). «Визуализация тематической структуры медицинских наук: подход самоорганизующейся карты» . PLOS ONE . 8 (3): e58779. DOI : 10.1371 / journal.pone.0058779 . ISSN 1932-6203 . PMC 3595294 . PMID 23554924 .

[20] Кила, Дуве; Го, Юфань; Стениус, Улла; Корхонен, Анна (01.04.2015). «Неконтролируемое обнаружение информационной структуры в биомедицинских документах» . Биоинформатика . 31 (7): 1084–1092. DOI : 10.1093 / биоинформатики / btu758 . ISSN 1367-4811 . PMID 25411329 .

[caseolapCV-21] Liem, Дэвид А .; Мурали, Санджана; Сигдел, Дибакар; Ши, Ю; Ван, Сюань; Шен, Цзяминь; Чой, Ховард; Caufield, John H .; Ван, Вэй; Пинг, Пейпей; Хан, Цзявэй (1 октября 2018 г.). «Анализ фраз текстовых данных для анализа паттернов белков внеклеточного матрикса при сердечно-сосудистых заболеваниях» . Американский журнал физиологии. Сердце и физиология кровообращения . 315 (4): H910 – H924. DOI : 10.1152 / ajpheart.00175.2018 . ISSN 1522-1539 . PMC 6230912 . PMID 29775406 .

[1]