Неструктурированные данные

Неструктури́рованные да́нные — данные, которые не соответствуют заранее определённой модели данных, и, как правило, представлены в форме текста с датами, цифрами, фактами, расположенными в нём в произвольной форме^[1]^[2]. Такие данные трудно анализировать, особенно при помощи традиционных программ, предназначенных для работы со структурированными данными (аннотированными или хранящимися в базах).

По оценкам Merrill Lynch 1998 года около 80—90 % от всей потенциально полезной деловой информации было представлено в неструктурированной форме^[1], однако это соотношение не было основано на статистике или количественных исследованиях, а являлось предположением^[2]. Computerworld оценивает объём неструктурированных данных в организациях в 70—80 % от всех данных^[3].

Самые ранние исследования в области бизнес-аналитики были сосредоточены не на числовых данных, а на неструктурированных текстовых данных. Уже в 1958 году такие исследователи в области информационных технологий, как Х. П. Лун, изучали способы извлечения и классификации данных в неструктурированном тексте.^[3]Тем не менее, только с начала 2000-х годов имеющиеся технологии догнали исследовательский интерес. В 2004 году SAS Institute разработал SAS Text Miner, который использует сингулярное разложение, чтобы факторизовать текстовое пространство высокой размерности на подпространства меньшей размерности для значительного упрощения машинного анализа^[4]^{[неавторитетный источник]}. Достижения в области математики и технологий машинной обработки текстов стимулировали проведения исследований коммерческими организациями в таких областях, как анализ тональности текста (сентимент-анализ), сбор и анализ мнений потребителей, автоматизация центров обработки вызовов^[5]^{[неавторитетный источник]}. Появление технологий больших данных в конце 2000-х годов стимулировало повышенный интерес к программам для анализа неструктурированных данных в современных областях, таких как прогнозирование и причинно-следственный анализ (root cause analysis)^[6].

Такие техники, как интеллектуальный анализ данных (data mining), обработка естественного языка (Natural Language Processing) и интеллектуальный анализ текста, предоставляют методы поиска закономерностей с целью так или иначе интерпретировать неструктурированную информацию.