Сети совместного возникновения обычно используются для графической визуализации потенциальных отношений между людьми , организациями, концепциями, биологическими организмами, такими как бактерии [1] или другими объектами, представленными в письменных материалах. Создание и визуализация сетей совместного возникновения стало практичным с появлением хранимого в электронном виде текста, совместимого с интеллектуальным анализом текста .
По определению, сети совместного появления - это коллективная взаимосвязь терминов, основанная на их парном присутствии в указанной единице текста. Сети создаются путем соединения пар терминов с использованием набора критериев, определяющих совместную встречаемость. Например, можно сказать, что термины A и B «встречаются одновременно», если они оба встречаются в определенном артикле. Другая статья может содержать термины B и C. Связывание A с B и B с C создает сеть совместного появления этих трех терминов. Правила для определения совместной встречаемости в текстовом корпусе могут быть установлены в соответствии с желаемыми критериями. Например, более строгие критерии одновременного появления могут потребовать, чтобы пара терминов появилась в одном предложении .
Методы и развитие
Сети совместного появления могут быть созданы для любого заданного списка терминов (любого словаря ) по отношению к любому собранию текстов (любому корпусу текстов ). Параллельно встречающиеся пары терминов можно назвать «соседями», и они часто группируются в «окрестности» на основе их взаимосвязей. Отдельные термины могут иметь несколько соседей. Окрестности могут соединяться друг с другом через хотя бы один индивидуальный термин или могут оставаться несвязанными.
Отдельные термины в контексте интеллектуального анализа текста символически представлены в виде текстовых строк . В реальном мире сущность, определяемая термином, обычно имеет несколько символических представлений. Поэтому полезно рассматривать термины как представленные одним основным символом и несколькими синонимичными альтернативными символами. Появление отдельного термина устанавливается путем поиска каждого известного символического представления термина. Процесс может быть расширен с помощью алгоритмов NLP ( обработки естественного языка ), которые опрашивают сегменты текста на предмет возможных альтернатив, таких как порядок слов , интервалы и расстановка переносов . NLP также может использоваться для определения структуры предложения и категоризации текстовых строк в соответствии с грамматикой (например, категоризация строки текста как существительного на основе предыдущей строки текста, известной как статья ).
Графическое представление сетей совместного появления позволяет визуализировать их и делать выводы относительно отношений между объектами в домене, представленном словарем терминов, применяемым к текстовому корпусу. Значимая визуализация обычно требует упрощения сети. Например, сети могут быть построены так, что количество соседей, подключающихся к каждому элементу, ограничено. Критерии ограничения соседей могут быть основаны на абсолютном количестве совпадений или более тонких критериях, таких как «вероятность» совпадения или наличие промежуточного описательного термина.
Количественные аспекты базовой структуры сети совместного возникновения также могут быть информативными, например, общее количество соединений между объектами, кластеризация объектов, представляющих субдомены, обнаружение синонимов, [3] и т. Д.
Приложения и использование
Некоторые рабочие приложения подхода совместного возникновения доступны общественности через Интернет . PubGene - это пример приложения, которое отвечает интересам биомедицинского сообщества, представляя сети, основанные на совместном появлении связанных с генетикой терминов, как они появляются в записях MEDLINE . [4] [5] Веб-сайт NameBase является примером того, как человеческие отношения могут быть выведены путем изучения сетей, построенных на совместном использовании личных имен в газетах и других текстах (как в Ozgur et al. [6] ).
Информационные сети также используются для облегчения усилий по организации и фокусированию общедоступной информации для правоохранительных и разведывательных целей (так называемая « разведка с открытым исходным кодом » или OSINT). Связанные методы включают сети совместного цитирования, а также анализ гиперссылок и структуры контента в Интернете (например, при анализе веб-сайтов, связанных с терроризмом [7] ).
Смотрите также
Рекомендации
- ^ Фрейлих, Шири; Креймер, Анат; Meilijson, Isacc; Гофна, Ури; Шаран, Родед; Руппин, Эйтан (27 февраля 2010 г.). «Масштабная организация бактериальной сети совместных экологических взаимодействий» . Исследования нуклеиновых кислот . 38 (12): 3857–3868. DOI : 10.1093 / NAR / gkq118 . ISSN 1362-4962 . PMC 2896517 . PMID 20194113 .
- ^ Лю, Ян; Цюй, Сяодун; Эльзер, Джеймс Дж .; Пэн, Вэньци; Чжан, Мин; Рен, Зе; Чжан, Хайпин; Чжан, Юхан; Ян, Хуа (2019). «Влияние градиентов питательных веществ и стехиометрии на микробные сообщества в озере Эрхай и его входные потоки» . Вода . 11 (8): 1711. DOI : 10,3390 / w11081711 .
- ^ Коэн, AM; Hersh, WR; Dubay, C; Спакман, К. (2005). «Использование совместной сетевой структуры для извлечения синонимичных названий генов и белков из рефератов MEDLINE» . BMC Bioinformatics . 6 (1): 103. DOI : 10,1186 / 1471-2105-6-103 . ISSN 1471-2105 . PMC 1090552 . PMID 15847682 .
- ^ Йенссен, Тор-Кристиан; Лэгрейд, Астрид; Коморовский, Ян; Ховиг, Эйвинд (01.05.2001). «Литературная сеть человеческих генов для высокопроизводительного анализа экспрессии генов». Генетика природы . 28 (1): 21–28. DOI : 10.1038 / ng0501-21 . ISSN 1061-4036 . PMID 11326270 . S2CID 8889284 .
- ^ Гривелл, Л. (2002-03-01). «Копание библиомы: поиск иголки в стоге сена ?: Новые компьютерные инструменты необходимы для эффективного сканирования растущего количества научной литературы в поисках полезной информации» . EMBO Reports . 3 (3): 200–203. DOI : 10.1093 / embo-reports / kvf059 . ISSN 1469-221X . PMC 1084023 . PMID 11882534 .
- ^ Ozgur A, B Четин, Бингол H: «Со встречаемость сеть Reuters News» (15 декабря 2007) https://arxiv.org/abs/0712.2491
- ^ Илу Чжоу; Reid, E .; Цзялунь Цинь; Синьчунь Чен; Гуанпи Лай (22.05.2018). «Внутренние экстремистские группировки США в сети: анализ ссылок и содержания». Интеллектуальные системы IEEE . 20 (5): 44–51. DOI : 10.1109 / MIS.2005.96 . S2CID 15687907 .
- Лю, Чуа Т.С. (2001). «Построение семантической сети перцептронов для определения темы» . Труды 39-го ежегодного собрания ассоциации компьютерной лингвистики : 378–385. DOI : 10.3115 / 1073012.1073061 .