Культуромика - это форма вычислительной лексикологии, которая изучает поведение людей и культурные тенденции посредством количественного анализа оцифрованных текстов. [1] [2] Исследователи собирают данные в больших цифровых архивах, чтобы исследовать культурные явления, отраженные в языке и употреблении слов. [3] Термин американский неологизм впервые описан в 2010 Science статью под названием Количественный анализ культуры , используя миллионы оцифрованных книг , в соавторстве с Гарвардским исследователей Жан-Батист Мишель и Эрез Либерман Aiden. [4]
Мишель и Эйдено помогли создать Google Labs проект Google Ngram просмотр , который использует п-граммы для анализа Google Книга цифровой библиотеки для культурных моделей в использовании языка с течением времени.
Поскольку набор данных Google Ngram не является беспристрастной выборкой [5] и не включает метаданные, [6] существует несколько подводных камней при его использовании для изучения языка или популярности терминов. [7] Медицинская литература составляет большую, но постоянно меняющуюся долю корпуса [8], которая не принимает во внимание, как часто литература печатается или читается.
Исследования
В исследовании под названием « Культуромика 2.0» Калев Х. Литару исследовал архивы новостей, включая печатные и радиовещательные СМИ (теле- и радиоканалы), на предмет слов, передающих тон или «настроение», а также географических данных. [10] [11] Исследование задним числом предсказало арабскую весну 2011 года и успешно оценило окончательное местонахождение Усамы бен Ладена с точностью до 124 миль (200 км). [10] [11]
В статье 2012 года Александра М. Петерсена и соавторов [12] они обнаружили «резкий сдвиг в уровне рождаемости и смертности слов» [13]. Смертность увеличилась, а рождаемость замедлилась. Авторы также определили универсальный «переломный момент» в жизненном цикле новых слов примерно через 30–50 лет после их возникновения: они либо попадают в долговременную лексику, либо выходят из употребления. [13]
Культурологические подходы использовались при анализе газетного содержания в ряде исследований И. Флаунаса с соавторами. Эти исследования показали макроскопические тенденции в разных новостных агентствах и странах. В 2012 году исследование 2,5 миллионов статей показало, что гендерная предвзятость в освещении новостей зависит от темы и того, как читаемость газетных статей связана с темой. [14] Отдельное исследование, проведенное теми же исследователями, охватившее 1,3 миллиона статей из 27 стран [15], показало макроскопические закономерности в выборе статей для освещения. В частности, страны сделали аналогичный выбор, когда они были связаны экономическими, географическими и культурными связями. Культурные связи выявили схожесть голосования на песенном конкурсе « Евровидение» . Это исследование было выполнено в широком масштабе с использованием методов статистического машинного перевода , категоризации текста и извлечения информации .
Возможность обнаружения смены настроения у огромного населения путем анализа контента Twitter была продемонстрирована в исследовании T. Lansdall-Welfare и соавторов. [16] В исследовании было рассмотрено 84 миллиона твитов, сгенерированных более чем 9,8 миллионами пользователей из Соединенного Королевства за 31 месяц, что показывает, как изменилось общественное мнение в Великобритании после объявления о сокращении расходов.
В исследовании 2013 года, проведенном S Sudhahar и соавторами, автоматический анализ текстовых корпусов позволил извлекать акторов и их реляционные сети в широком масштабе, превращая текстовые данные в сетевые. Полученные сети, которые могут содержать тысячи узлов, затем анализируются с использованием инструментов теории сетей для определения ключевых участников, ключевых сообществ или сторон и общих свойств, таких как надежность или структурная стабильность всей сети или центральность определенных узлы. [17]
В исследовании 2014 года, проведенном T Lansdall-Welfare и соавторами, за 5 лет было собрано 5 миллионов новостных статей [18], а затем проанализировано, чтобы указать на существенный сдвиг в настроениях по отношению к освещению ядерной энергетики, связанный с катастрофой на Фукусиме . В исследовании также были извлечены концепции, которые были связаны с ядерной энергетикой до и после катастрофы, объясняя изменение настроений изменением повествования.
В 2015 году исследование выявило предвзятость набора данных Google Книги, который «страдает рядом ограничений, которые делают его неясной маской культурной популярности» [5], и ставит под сомнение значимость многих из более ранних результатов.
Культурологические подходы также могут способствовать развитию науки о сохранении за счет лучшего понимания взаимоотношений человека и природы. В 2016 году в публикации Ричарда Лэдла и его коллег doi : 10.1002 / fee.1260 были выделены пять ключевых областей, в которых культуромика может быть использована для развития практики и науки сохранения, включая признание сторонников сохранения природы и демонстрацию общественности. интерес к природе, определение природоохранных эмблем, предоставление новых показателей и инструментов для мониторинга окружающей среды в режиме, близком к реальному времени, и поддержка принятия решений по сохранению, оценка культурного воздействия природоохранных мероприятий, а также постановка вопросов сохранения и содействие пониманию общественности.
В 2017 году исследование коррелировало боль в суставах с поисковой активностью в Google и температурой. [19] Несмотря на то, что исследование показало более высокую активность поиска боли в бедрах и коленях (но не артрита ) при более высоких температурах, оно не учитывает (и не может) контролировать другие важные факторы, такие как активность. Средства массовой информации неверно истолковали это как «развенчанный миф: дождь не усиливает боль в суставах» [20] [21], в то время как авторы предполагают, что наблюдаемая корреляция связана с «изменениями уровней физической активности». [22]
Критика
Лингвисты и лексикографы выразили скептицизм относительно методов и результатов некоторых из этих исследований, в том числе исследования Petersen et al. [23] Другие продемонстрировали предвзятость в наборе данных Ngram. Их результаты «ставят под сомнение подавляющее большинство существующих утверждений, взятых из корпуса Google Книг»: [5] «Вместо того, чтобы говорить об общих языковых или культурных изменениях, кажется предпочтительным явно ограничить результаты лингвистическими или культурными изменениями» как это представлено в данных Google Ngram » [6], потому что неясно, что вызвало наблюдаемое изменение в выборке.
Смотрите также
- -комикс
Рекомендации
- Рианна Коэн, Патрисия (16 декабря 2010 г.). «500 миллиардов слов, новое окно в культуру» . Нью-Йорк Таймс .
- ^ Хейс, Брайан (май – июнь 2011 г.). "Bit Lit" . Американский ученый . 99 (3): 190. DOI : 10,1511 / 2011.90.190 . Архивировано из оригинала на 2016-10-18 . Проверено 9 сентября 2011 .
- ^ Летчер, Дэвид В. (6 апреля 2011 г.). «Культоромика: новый способ увидеть временные изменения в преобладании слов и фраз» (PDF) . Труды 6-й Международной конференции Американского института высшего образования . 4 (1): 228. Архивировано из оригинального (PDF) 3 марта 2016 года . Проверено 9 сентября 2011 года .
- ^ Мишель, Жан-Батист; Либерман Эйден, Эрез (16 декабря 2010 г.). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–82. DOI : 10.1126 / science.1199644 . PMC 3279742 . PMID 21163965 .
- ^ а б в Печеник, Эйтан Адам; Данфорт, Кристофер М .; Доддс, Питер Шеридан (07.10.2015). «Характеристика корпуса Google Книги: строгие ограничения для выводов о социокультурной и лингвистической эволюции» . PLOS ONE . 10 (10): e0137041. arXiv : 1501.00960 . Bibcode : 2015PLoSO..1037041P . DOI : 10.1371 / journal.pone.0137041 . ISSN 1932-6203 . PMC 4596490 . PMID 26445406 .
- ^ а б Коплениг, Александр (апрель 2017). «Влияние отсутствия метаданных для измерения культурных и языковых изменений с использованием наборов данных Google Ngram - реконструкция состава немецкого корпуса во времена Второй мировой войны». Цифровая стипендия в области гуманитарных наук . 32 (1): 169–188. DOI : 10,1093 / ооо / fqv037 . ISSN 2055-7671 .
- ^ Чжан, Сара. «Ловушки использования Google Ngram для изучения языка» . ПРОВОДНОЙ . Проверено 24 мая 2017 .
- ^ Сравнение примеров терминов
- ^ Судхахар, Саатвига; Велтри, Джузеппе А .; Кристианини, Нелло (2015). «Автоматизированный анализ президентских выборов в США с использованием Big Data и сетевого анализа» . Большие данные и общество . 2 . DOI : 10.1177 / 2053951715572916 . S2CID 62188746 .
- ^ а б Литару, Калев Х. (5 сентября 2011 г.). «Культуромика 2.0: крупномасштабное прогнозирование человеческого поведения с использованием тона глобальных СМИ во времени и пространстве» . Первый понедельник . 16 (9). DOI : 10.5210 / fm.v16i9.3663 . Архивировано из оригинала 4 апреля 2012 года . Проверено 9 сентября 2011 года .
- ^ а б Быстро, Даррен (7 сентября 2011 г.). «Культуромические исследования используют четверть века освещения в СМИ для прогнозирования человеческого поведения» . Gizmag.com . Проверено 9 сентября 2011 года .
- ^ Петерсен, Александр М. (15 марта 2012 г.). «Статистические законы, регулирующие колебания в использовании слов от рождения слова до смерти слова» . Научные отчеты . 2 : 313. arXiv : 1107.3707 . Bibcode : 2012NatSR ... 2E.313P . DOI : 10.1038 / srep00313 . PMC 3304511 . PMID 22423321 .
- ^ a b «Новая наука о рождении и смерти слов» , КРИСТОФЕР ШИ, Wall Street Journal , 16 марта 2012 г.
- ^ Флаунас, Илиас; Али, Омар; Lansdall-Welfare, Томас; Де Би, Тейл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2013). «Методы исследования в эпоху цифровой журналистики». Цифровая журналистика . 1 : 102–116. DOI : 10.1080 / 21670811.2012.714928 . S2CID 61080552 .
- ^ Флаунас, Илиас; Турчи, Марко; Али, Омар; Файсон, Ник; Де Би, Тейл; Мосделл, Ник; Льюис, Джастин; Кристианини, Нелло (2010). «Структура медиасферы ЕС» . PLOS ONE . 5 (12): e14243. Bibcode : 2010PLoSO ... 514243F . DOI : 10.1371 / journal.pone.0014243 . PMC 2999531 . PMID 21170383 .
- ^ Lansdall-Welfare, Томас; Лампос, Василиос; Кристианини, Нелло (2012). «Влияние рецессии на общественное настроение в Великобритании». Материалы 21-й международной конференции-спутника World Wide Web - WWW '12 Companion . п. 1221. DOI : 10,1145 / 2187980,2188264 . ISBN 9781450312301. S2CID 1825992 .
- ^ Судхахар, Саатвига; Де Фацио, Джанлука; Франзози, Роберто; Кристианини, Нелло (2015). «Сетевой анализ повествовательного контента в больших корпусах» . Инженерия естественного языка . 21 : 81–112. DOI : 10.1017 / S1351324913000247 .
- ^ Lansdall-Welfare, Томас; Судхахар, Саатвига; Велтри, Джузеппе А .; Кристианини, Нелло (2014). «Об освещении науки в СМИ: исследование больших данных о последствиях аварии на Фукусиме». 2014 IEEE Международная конференция по большим данным (Big Data) . С. 60–66. DOI : 10.1109 / BigData.2014.7004454 . ЛВП : 2381/31439 . ISBN 978-1-4799-5666-1. S2CID 7686818 .
- ^ Телфер, Скотт; Обрадович, Ник (2017-08-09). «Местная погода связана с тем, что в Интернете часто ищут симптомы скелетно-мышечной боли» . PLOS ONE . 12 (8): e0181266. Bibcode : 2017PLoSO..1281266T . DOI : 10.1371 / journal.pone.0181266 . ISSN 1932-6203 . PMC 5549896 . PMID 28792953 .
- ^ «Болезненные суставы связаны с дождем? Google предполагает иное» . NBC News . Проверено 10 августа 2017 .
- ^ «Этот миф о боли в суставах - полная чушь» . Мужское здоровье . 2017-08-10 . Проверено 10 августа 2017 .
- ^ «Дождь усиливает боль в суставах? Google предполагает иное: уровень активности людей, повышающийся до определенного предела с повышением температуры, с большей вероятностью, чем сама погода, может вызвать боль, которая мотивирует поиски в Интернете, - говорят исследователи» . ScienceDaily . Проверено 10 августа 2017 .
- ^ «Когда физики занимаются лингвистикой» , БЕН ЦИММЕР, Boston Globe , 10 февраля 2013 г.
дальнейшее чтение
- Мишель, Жан-Батист; Либерман Эйден, Эрез ; Aiden, AP; Верес, А .; Серый, МК; Пикетт, JP; Hoiberg, D .; Clancy, D .; Norvig, P .; Орван, Джон; Новак, Мартин ; Пинкер, Стивен (16 декабря 2010 г.). «Количественный анализ культуры с использованием миллионов оцифрованных книг» . Наука . 331 (6014): 176–82. DOI : 10.1126 / science.1199644 . PMC 3279742 . PMID 21163965 .
- Литару, Калев Х. (5 сентября 2011 г.). «Культуромика 2.0: крупномасштабное прогнозирование человеческого поведения с использованием тона глобальных СМИ во времени и пространстве» . Первый понедельник . 16 (9). DOI : 10.5210 / fm.v16i9.3663 . Архивировано из оригинала 4 апреля 2012 года . Проверено 9 сентября 2011 года .
- Боханнон, Джон (14 января 2011 г.). «Google Книги, Википедия и будущее культуромики». Наука . 331 (6014): 135. Bibcode : 2011Sci ... 331..135B . DOI : 10.1126 / science.331.6014.135 . PMID 21233356 .
- Шварц, Тим (1 апреля 2011 г.). «Культуромика: периодические издания, измеряющие пульс культуры». Наука . 332 (6025): 35–36. Bibcode : 2011Sci ... 332S..35S . DOI : 10.1126 / science.332.6025.35-c . PMID 21454770 .
- Морс-Ганье, Элиза Э. (1 апреля 2011 г.). «Культуромика: статистические ловушки запутывают данные». Наука . 332 (6025): 35, ответ автора 36–7. Bibcode : 2011Sci ... 332R..35S . DOI : 10.1126 / science.332.6025.35-b . PMID 21454771 .
- Петерсен, Александр М .; Тененбаум, Джоэл; Хавлин, Шломо ; Стэнли, Х. Юджин (15 марта 2012 г.). «Статистические законы, регулирующие колебания в использовании слов от рождения слова до смерти слова» . Научные отчеты . 2 : 313. arXiv : 1107.3707 . Bibcode : 2012NatSR ... 2E.313P . DOI : 10.1038 / srep00313 . PMC 3304511 . PMID 22423321 .
- Петерсен, Александр М .; Тененбаум, Джоэл; Хавлин, Шломо ; Стэнли, Х. Юджин ; Перк, Матяз (10 декабря 2012 г.). «Языки круты по мере их расширения: аллометрическое масштабирование и уменьшение потребности в новых словах» . Научные отчеты . 2 : 943. arXiv : 1212.2616 . Bibcode : 2012NatSR ... 2E.943P . DOI : 10.1038 / srep00943 . PMC 3517984 . PMID 23230508 .
- Ши, Кристофер. «Новая наука о рождении и смерти слов» . Wall Street Journal . Проверено 15 января 2013 года .
- Ачерби, Альберто; Лампос, Василиос; Гарнетт, Филипп; Бентли, Александр (20 марта 2013 г.). «Выражение эмоций в книгах ХХ века» . PLoS ONE . 8 (3): e59030. Bibcode : 2013PLoSO ... 859030A . DOI : 10.1371 / journal.pone.0059030 . PMC 3604170 . PMID 23527080 .
- Бентли, Александр; Ачерби, Альберто; Ормерод, Пол; Лампос, Василиос (8 января 2014 г.). «Среднее количество книг за предыдущее десятилетие экономических бедствий» . PLoS ONE . 9 (1): e83147. Bibcode : 2014PLoSO ... 983147B . DOI : 10.1371 / journal.pone.0083147 . PMC 3885402 . PMID 24416159 .
- Lansdall-Welfare, Томас; Судхахар, Саатвига; Томпсон, Джеймс; Льюис, Джастин; Кристианини, Нелло (2017). «Контент-анализ британских периодических изданий за 150 лет» . Труды Национальной академии наук Соединенных Штатов Америки . 114 (4): E457 – E465. DOI : 10.1073 / pnas.1606380114 . PMC 5278459 . PMID 28069962 .
Внешние ссылки
- Culturomics.org , веб-сайт Культурной обсерватории Гарварда под руководством Эреза Либермана Эйдена и Жан-Батиста Мишеля