Анализ онлайн-контента

Онлайн-анализ контента или онлайн-текстовый анализ - это совокупность исследовательских методов, используемых для описания онлайн-материалов и выводов о них посредством систематического кодирования и интерпретации. Онлайн-анализ контента - это форма контент-анализа для анализа интернет-коммуникаций.

История и определение

Контент-анализ как систематическое изучение и интерпретация коммуникации восходит как минимум к 17 веку. Однако только с появлением газет в начале 20 века массовое производство печатных материалов вызвало потребность в количественном анализе печатных слов. ^[1]

Определение Берельсона (1952) обеспечивает основу для текстового анализа как «исследовательской техники для объективного, систематического и количественного описания явного содержания коммуникации». ^[2] Контент-анализ состоит из категоризации единиц текстов (например, предложений, квази-предложений, абзацев, документов, веб-страниц и т. Д.) В соответствии с их существенными характеристиками для создания набора данных, который позволяет аналитику интерпретировать тексты и делать выводы. . Хотя контент-анализ часто бывает количественным , исследователи концептуализируют этот метод как смешанные по своей сути методы, поскольку текстовое кодирование требует высокой степени качественной интерпретации. ^[3] Социальные ученые использовали этот метод для изучения вопросов исследования , касающиеся средств массовой информации , ^[1] эффекты СМИ ^[4] и настройка повестки дня . ^[5]

С развитием онлайн-коммуникации методы контент-анализа были адаптированы и применены к интернет-исследованиям . Как и с появлением газет, распространение онлайн-контента предоставляет расширенные возможности для исследователей, заинтересованных в контент-анализе. В то время как использование онлайн-источников создает новые исследовательские проблемы и возможности, основная исследовательская процедура онлайн-анализа контента, описанная McMillan (2000), практически неотличима от контент-анализа с использованием офлайн-источников:

Сформулируйте исследовательский вопрос с акцентом на выявление проверяемых гипотез, которые могут привести к теоретическому прогрессу.
Определите рамку выборки, из которой будет взята выборка, и создайте выборку (часто называемую «корпусом») контента для анализа.
Разработайте и внедрите схему кодирования, которая может использоваться для категоризации контента, чтобы ответить на вопрос, определенный на шаге 1. Это требует указания периода времени, единицы контекста, в которую внедряется контент, и единицы кодирования, которая классифицирует контент.
Обучите кодировщиков последовательному внедрению схемы кодирования и проверке надежности кодировщиков. Это ключевой шаг в обеспечении воспроизводимости анализа.
Анализируйте и интерпретируйте данные. Проверьте гипотезы, выдвинутые на шаге 1, и сделайте выводы о содержании, представленном в наборе данных.

Контент-анализ в интернет-исследованиях

С момента появления онлайн-общения ученые обсуждали, как адаптировать методы текстового анализа для изучения веб-контента. Природа онлайн-источников требует особой осторожности на многих этапах контент-анализа по сравнению с офлайн-источниками.

В то время как офлайн-контент, такой как печатный текст, остается статичным после создания, онлайн-контент может часто меняться. Динамический характер онлайн-материалов в сочетании с большим и постоянно увеличивающимся объемом онлайн-контента может затруднить построение основы выборки, на основе которой можно составить случайную выборку. Содержание сайта также может различаться для разных пользователей, что требует тщательного определения основы выборки. Некоторые исследователи использовали поисковые системы для построения рамок выборки. Этот метод имеет недостатки, потому что результаты поисковых систем несистематичны и не случайны, что делает их ненадежными для получения объективной выборки. Проблему основы выборки можно обойти, используя в качестве основы выборки всю интересующую нас совокупность, например твиты определенных пользователей Twitter ^[6] или архивный контент в Интернете определенных газет. ^[7] Изменения в онлайн-материалах могут усложнить категоризацию контента (шаг 3). Поскольку онлайн-контент может часто меняться, особенно важно отметить период времени, в течение которого собирается образец. Полезный шаг - заархивировать образец содержимого, чтобы предотвратить внесение изменений.

Интернет-контент также является нелинейным. Печатный текст имеет четко очерченные границы, которые можно использовать для определения единиц контекста (например, газетная статья). Границы онлайн-контента, который будет использоваться в выборке, определить труднее. Ранние аналитики онлайн-контента часто определяли «веб-сайт» в качестве единицы контекста, не имея четкого определения того, что они имели в виду. ^[2] Исследователи рекомендуют четко и последовательно определять, из чего состоит «веб-страница», или уменьшать размер единицы контекста до функции на веб-сайте. ^[2]^[3] Исследователи также использовали более дискретные элементы онлайн-коммуникации, такие как веб-комментарии ^[8] или твиты. ^[6]

Кинг (2008) использовал онтологию терминов, полученную из многих тысяч предварительно классифицированных документов, для анализа тематики ряда поисковых систем. ^[9]

Автоматический контент-анализ

Рост онлайн-контента резко увеличил количество цифрового текста, который можно использовать в исследованиях. Количество доступного текста побудило к методологическим инновациям, чтобы разобраться в текстовых наборах данных, которые слишком велики, чтобы их можно было практически вручную кодировать, как это было в традиционной методологической практике. ^[3]^[7] Достижения в методологии вместе с увеличением емкости и уменьшением затрат на вычисления позволили исследователям использовать методы, которые ранее были недоступны для анализа больших наборов текстового контента.

Автоматический контент-анализ представляет собой небольшое отклонение от процедуры онлайн-контент-анализа McMillan в том, что человеческие кодеры дополняются вычислительным методом, и некоторые из этих методов не требуют предварительного определения категорий. В моделях количественного анализа текста часто используются методы `` мешка слов '', которые удаляют порядок слов, удаляют слова, которые очень распространены и очень необычны, и упрощают слова с помощью лемматизации или выделения корней , что снижает размерность текста, сокращая сложные слова до их корневого слова. ^[10] Хотя эти методы принципиально редукционистские в том, как они интерпретируют текст, они могут быть очень полезны, если они правильно применяются и проверяются.

Гриммер и Стюарт (2013) выделяют две основные категории автоматического анализа текста: контролируемые и неконтролируемые методы. Контролируемые методы включают создание схемы кодирования и ручное кодирование подвыборки документов, которые исследователь хочет проанализировать. В идеале подвыборка, называемая «обучающей выборкой», является репрезентативной для выборки в целом. Кодированный обучающий набор затем используется для «обучения» алгоритма тому, как слова в документах соответствуют каждой категории кодирования. Алгоритм может применяться для автоматического анализа оставшихся в корпусе документов. ^[10]

Методы словаря: исследователь предварительно выбирает набор ключевых слов ( n-грамм ) для каждой категории. Затем машина использует эти ключевые слова для классификации каждой текстовой единицы по категории.
Индивидуальные методы: исследователь предварительно маркирует образец текстов и обучает алгоритм машинного обучения (то есть алгоритм SVM ), используя эти ярлыки. Машина маркирует оставшиеся наблюдения, экстраполируя информацию из обучающей выборки.
Методы ансамбля: вместо использования только одного алгоритма машинного обучения исследователь обучает их набор и использует полученные несколько меток для маркировки остальных наблюдений (подробнее см. Collingwood and Wiklerson 2011). ^[11]
Контролируемое идеологическое масштабирование (т.е. баллы по словам) используется для размещения различных текстовых единиц вдоль идеологического континуума. Исследователь выбирает два набора текстов, представляющих каждую идеологическую крайность, которые алгоритм может использовать для определения слов, принадлежащих каждой экстремальной точке. Остальные тексты в корпусе масштабируются в зависимости от того, сколько слов каждой крайней ссылки они содержат. ^[12]

Неконтролируемые методы могут использоваться, когда набор категорий для кодирования не может быть четко определен до анализа. В отличие от контролируемых методов, люди-программисты не обязаны обучать алгоритм. Одним из ключевых вариантов для исследователей при применении неконтролируемых методов является выбор количества категорий для сортировки документов, а не определение категорий заранее.

Модели единого членства: эти модели автоматически группируют тексты в разные категории, которые являются взаимоисключающими, а документы кодируются в одну и только одну категорию. Как указали Гриммер и Стюарт (16), «каждый алгоритм имеет три компонента: (1) определение сходства документов или расстояния; (2) целевая функция, которая реализует идеальную кластеризацию; и (3) алгоритм оптимизации». ^[10]
Модели смешанного членства: согласно также Гриммеру и Стюарту (17), модели смешанного членства «улучшают результаты моделей с одним членством, включая дополнительную структуру, специфичную для конкретной задачи». ^[10] Модели FAC со смешанным членством классифицируют отдельные слова в каждом документе по категориям, что позволяет документу в целом быть частью нескольких категорий одновременно. Тематические модели представляют собой один пример FAC со смешанным членством, который можно использовать для анализа изменений в фокусе политических деятелей ^[6] или газетных статей. ^[7] Одним из наиболее часто используемых методов тематического моделирования является LDA .
Неконтролируемое идеологическое масштабирование (то есть словесная рыба): алгоритмы, которые выделяют текстовые единицы в идеологический континуум в зависимости от общего грамматического содержания. В отличие от контролируемых методов масштабирования, таких как оценка слов, такие методы, как wordfish ^[13] , не требуют, чтобы исследователь предоставил образцы крайних идеологических текстов.

Проверка

Результаты контролируемых методов могут быть подтверждены путем рисования отдельной подвыборки корпуса, называемой «набором проверки». Документы в наборе для проверки можно кодировать вручную и сравнивать с результатами автоматического кодирования, чтобы оценить, насколько хорошо алгоритм воспроизводит кодирование человека. Это сравнение может принимать форму оценок надежности между кодировщиками, подобных тем, которые используются для проверки согласованности кодировщиков, выполняемых людьми, в традиционном текстовом анализе.

Проверка неконтролируемых методов может осуществляться несколькими способами.

Семантическая (или внутренняя ) достоверность показывает, насколько хорошо документы в каждом идентифицированном кластере представляют отдельную категориальную единицу. В тематической модели это будет степень, в которой документы в каждом кластере представляют одну и ту же тему. Это можно проверить, создав набор проверки, который люди-программисты используют для ручной проверки выбора темы или взаимосвязи документов внутри кластера по сравнению с документами из разных кластеров.
Прогностическая (или внешняя ) достоверность - это степень, в которой изменения частоты каждого кластера могут быть объяснены внешними событиями. Если группы тем действительны, наиболее заметные темы должны реагировать с течением времени предсказуемым образом в результате происходящих внешних событий.

Проблемы онлайн-анализа текста

Несмотря на непрерывную эволюцию анализа текста в социальных науках, все еще остаются нерешенными некоторые методологические проблемы. Это (неисключительный) список некоторых из этих проблем:

Когда исследователи должны определять свои категории? Ex-ante , туда-сюда или ad-hoc ? Некоторые социологи утверждают, что исследователи должны разработать свою теорию, ожидания и методы (в данном случае конкретные категории, которые они будут использовать для классификации различных текстовых единиц), прежде чем они начнут собирать и изучать данные ^[14], тогда как некоторые другие поддерживают это определение набора категорий. это возвратно-поступательный процесс. ^[15]^[16]
Проверка. Хотя большинство исследователей сообщают об измерениях валидации своих методов (например, оценки межкодерной надежности, точности и запоминания, матрицы неточностей и т. Д.), Некоторые другие этого не делают. В частности, все большее количество ученых обеспокоены тем, что некоторые методы тематического моделирования вряд ли могут быть проверены. ^[17]
Случайные выборки. С одной стороны, чрезвычайно сложно узнать, сколько единиц одного типа текстов (например, сообщений в блогах) находится в Интернете в определенное время. Таким образом, поскольку большую часть времени Вселенная неизвестна, как исследователь может выбрать случайную выборку? Если в некоторых случаях практически невозможно получить случайную выборку, должны ли исследователи работать с выборками или они должны попытаться собрать все текстовые единицы, которые они наблюдают? И, с другой стороны, иногда исследователям приходится работать с образцами, которые им предоставляют некоторые поисковые системы (например, Google) и онлайн-компании (например, Twitter), но исследователи не имеют доступа к тому, как эти образцы были созданы и были ли они созданы. случайны или нет. Следует ли исследователям использовать такие образцы?

Смотрите также

Анализ содержания
Текстовый майнинг