Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Анализ настроений (также известный как анализ мнений или ИИ эмоций ) - это использование обработки естественного языка , анализа текста , компьютерной лингвистики и биометрии для систематической идентификации, извлечения, количественной оценки и изучения аффективных состояний и субъективной информации. Анализ настроений широко применяется для озвучивания материалов клиентов, таких как обзоры и ответы на опросы, онлайн и социальные сети, а также медицинские материалы для приложений, которые варьируются от маркетинга до обслуживания клиентов и клинической медицины.

Примеры [ править ]

Цели и проблемы анализа настроений можно показать на нескольких простых примерах.

Простые случаи [ править ]

  • Coronet предлагает лучшие линии круизных лайнеров на целый день.
  • Bertram имеет глубокий V-образный корпус и легко перемещается по морям.
  • Однодневные круизеры 80-х из Флориды в пастельных тонах уродливы.
  • Я не люблю старые круизеры с каютами .

Более сложные примеры [ править ]

  • Я не люблю круизеры с каютами. ( Обработка отрицания )
  • Ненависть к гидроциклам - не мое. (Отрицание, обратный порядок слов )
  • Иногда я действительно ненавижу RIB . ( Наречие изменяет настроение)
  • Мне действительно очень нравится гулять в такую ​​погоду! (Возможно саркастический )
  • Крис Крафт выглядит лучше, чем Известняк. (Два торговых наименования , определить цель отношения сложно).
  • Chris Craft выглядит лучше, чем Limestone, но Limestone демонстрирует мореходные качества и надежность. (Два отношения, два бренда).
  • Фильм удивляет множеством тревожных поворотов сюжета. (Отрицательный термин, используемый в определенных областях в положительном смысле).
  • Вы должны увидеть их декадентское десертное меню. (В некоторых областях отношение к терминам отношения изменилось в последнее время)
  • Я люблю свой мобильный телефон, но не рекомендую его никому из моих коллег. (Однозначно положительное мнение, трудно классифицировать)
  • На следующей неделе будет концерт правого koide9! («Quoi de neuf?» Фр .: «Что нового?». Новые термины могут быть очень отношениями, но непостоянны по полярности и часто выходят за рамки известного словаря.)

Типы [ править ]

Основная задача в анализе тональности - это классификация полярности данного текста на уровне документа, предложения или характеристики / аспекта - независимо от того, является ли выраженное мнение в документе, предложении или характеристике / аспекте объекта положительным, отрицательным или нейтральным. Продвинутая классификация настроений «за пределами полярности» рассматривает, например, эмоциональные состояния, такие как удовольствие, гнев, отвращение, печаль, страх и удивление. [1]

Предшественники сентиментального анализа включают General Inquirer [2], который дает подсказки для количественной оценки закономерностей в тексте и, отдельно, психологическое исследование, которое изучает психологическое состояние человека на основе анализа его вербального поведения. [3]

Впоследствии метод, описанный в патенте Volcani и Fogel, [4] специально рассматривал сантименты и идентифицировал отдельные слова и фразы в тексте по разным эмоциональным шкалам. Текущая система, основанная на их работе, под названием EffectCheck, представляет синонимы, которые можно использовать для увеличения или уменьшения уровня вызванных эмоций в каждой шкале.

Многие другие последующие попытки были менее сложными, с использованием простого полярного взгляда на настроения, от положительного к отрицательному, например, работы Терни [5] и Пэнга [6], которые применили различные методы для определения полярности обзоров продуктов и обзоров фильмов соответственно. . Эта работа находится на уровне документов. Можно также классифицировать полярность документа по многосторонней шкале, что, среди прочего , было предпринято Пангом [7] и Снайдером [8] : Панг и Ли [7] расширили основную задачу классификации обзора фильма как положительного или отрицательного. прогнозировать звездные рейтинги по 3- или 4-звездочной шкале, в то время как Снайдер [8] провел углубленный анализ отзывов о ресторанах, прогнозируя рейтинги по различным аспектам данного ресторана, таким как еда и атмосфера (по пятизвездочной шкале).

Первые шаги к объединению различных подходов - обучающего, лексического, основанного на знаниях и т. Д. - были предприняты на весеннем симпозиуме AAAI 2004 г., на котором лингвисты, компьютерные ученые и другие заинтересованные исследователи сначала согласовали интересы и предложили общие задачи и наборы контрольных данных для систематические компьютерные исследования аффекта, привлекательности, субъективности и настроения в тексте. [9]

Несмотря на то, что в большинстве методов статистической классификации нейтральный класс игнорируется в предположении, что нейтральные тексты лежат рядом с границей бинарного классификатора, некоторые исследователи предполагают, что, как и в любой проблеме полярности, необходимо идентифицировать три категории. Более того, можно доказать, что определенные классификаторы, такие как максимальная энтропия [10] и SVM [11], могут выиграть от введения нейтрального класса и повысить общую точность классификации. В принципе, существует два способа работы с нейтральным классом. Либо алгоритм сначала определяет нейтральный язык, отфильтровывает его, а затем оценивает остальные с точки зрения положительных и отрицательных настроений, либо строит трехстороннюю классификацию за один шаг.[12] Этот второй подход часто включает оценку распределения вероятностей по всем категориям (например, наивные байесовские классификаторы, реализованные NLTK ). Использование нейтрального класса и способ его использования зависит от характера данных: если данные четко сгруппированы по нейтральному, отрицательному и положительному языкам, имеет смысл отфильтровать нейтральный язык и сосредоточиться на полярности между положительными и отрицательными настроениями. Если, напротив, данные в основном нейтральны с небольшими отклонениями в сторону положительного и отрицательного аффекта, эта стратегия затруднит четкое различие между двумя полюсами.

Другой метод определения настроения - это использование системы шкалы, при которой словам, обычно ассоциируемым с негативным, нейтральным или позитивным настроением, присваивается соответствующее число по шкале от -10 до +10 (от самого отрицательного до самого положительного). или просто от 0 до положительного верхнего предела, например +4. Это позволяет регулировать тональность данного термина относительно его окружения (обычно на уровне предложения). Когда фрагмент неструктурированного текста анализируется с использованием обработки естественного языка , каждому понятию в указанной среде присваивается оценка, основанная на том, как эмоциональные слова соотносятся с понятием и связанной с ним оценкой. [13] [14] [15]Это позволяет перейти к более сложному пониманию настроения, потому что теперь можно регулировать значение тональности концепции относительно модификаций, которые могут ее окружать. Например, слова, которые усиливают, ослабляют или отрицают чувство, выраженное концепцией, могут повлиять на его оценку. В качестве альтернативы текстам можно присвоить положительную и отрицательную оценку силы настроения, если цель состоит в том, чтобы определить тональность в тексте, а не общую полярность и силу текста. [16]

Существуют различные другие типы анализа настроений, такие как анализ настроений на основе аспектов, анализ настроений (положительный, отрицательный, нейтральный), многоязычный анализ настроений и обнаружение эмоций.

Определение субъективности / объективности [ править ]

Эта задача обычно определяется как классификация данного текста (обычно предложения) на один из двух классов: объективный или субъективный. [17] Иногда эта проблема может быть сложнее классификации полярности. [18] Субъективность слов и фраз может зависеть от их контекста, а объективный документ может содержать субъективные предложения (например, новостная статья, цитирующая мнения людей). Более того, как упоминал Су, [19] результаты во многом зависят от определения субъективности, используемого при аннотировании текстов. Однако Панг [20] показал, что удаление объективных предложений из документа перед классификацией его полярности помогает повысить производительность.

Субъективная и объективная идентификация, возникающие подзадачи анализа настроений для использования синтаксических, семантических функций и знания машинного обучения для идентификации предложения или документа - это факты или мнения. Осведомленность о признании фактических и мнения не недавно, будучи , возможно , первым представил Карбонелл в Йельском университете в 1979 году [ уточнить ]

Термин «цель» относится к инциденту, несущему фактическую информацию. [21]

  • Пример объективного предложения: «Чтобы быть избранным президентом Соединенных Штатов, кандидат должен быть не моложе тридцати пяти лет».

Термин «субъективный» описывает инцидент, содержащий не фактическую информацию в различных формах, например личные мнения, суждения и прогнозы, также известный как «частные состояния», упомянутый Quirk et al. [22] В приведенном ниже примере он отражает частное состояние «Мы, американцы». Более того, целевая сущность, прокомментированная мнениями, может принимать сервальные формы от материального продукта до нематериальных тематических вопросов, указанных в Liu (2010). [23] Кроме того, Лю (2010) наблюдал три типа отношения: 1) положительное мнение, 2) нейтральное мнение и 3) отрицательное мнение. [23]

  • Пример субъективного предложения: «Нам, американцам, нужно избрать зрелого президента, способного принимать мудрые решения».

Этот анализ представляет собой проблему классификации. [24]

Наборы слов или индикаторов фаз для каждого класса определены для нахождения желаемых закономерностей в неаннотированном тексте. Для субъективного выражения был создан другой список слов. Списки субъективных показателей в словах или фразах были разработаны множеством исследователей в области лингвистики и обработки естественного языка в работе Riloff et al. (2003). [25] Для измерения заданных выражений необходимо создать словарь правил извлечения. С годами, при субъективном обнаружении, извлечение признаков прогрессировало от курирования признаков вручную в 1999 году до автоматического обучения признаков в 2005 году. [26] В настоящее время автоматизированные методы обучения можно разделить на контролируемое и неконтролируемое машинное обучение.. Извлечение шаблонов с помощью процесса машинного обучения аннотированного и неаннотированного текста широко изучается академическими исследователями.

Однако исследователи выявили несколько проблем в разработке фиксированных наборов правил для респектабельных выражений. Многие проблемы при разработке правил проистекают из природы текстовой информации. Исследователи сервалов признали шесть проблем: 1) метафорические выражения, 2) расхождения в письмах, 3) контекстно-зависимые, 4) представленные слова с меньшим количеством употреблений, 5) чувствительные ко времени и 6) постоянно растущий объем.

  1. Метафорические выражения. Текст, содержащий метафорическое выражение, может повлиять на производительность при извлечении. [27] Кроме того, метафоры принимают разные формы, что, возможно, способствовало увеличению обнаружения.
  2. Неточности в сочинениях. Для текста, полученного из Интернета, несоответствия в стиле написания целевых текстовых данных связаны с разными жанрами и стилями письма.
  3. Контекстно-зависимый. Классификация может варьироваться в зависимости от субъективности или объективности предыдущих и следующих предложений. [24]
  4. Чувствительный ко времени атрибут. Задача усложняется атрибутом чувствительности ко времени некоторых текстовых данных. Если группа исследователей хочет подтвердить факт в новостях, им требуется больше времени для перекрестной проверки, чем новость устареет.
  5. Ключевые слова с меньшим количеством употреблений.
  6. Постоянно растущий объем. Задача также осложняется огромным объемом текстовых данных. Постоянно растущий характер текстовых данных делает задачу чрезвычайно сложной для исследователей, чтобы выполнить ее вовремя.

Раньше исследования в основном фокусировались на классификации на уровне документов. Однако классификация уровня документа страдает меньшей точностью, поскольку в статье могут использоваться различные типы выражений. Исследования доказательств предполагают набор новостных статей, в которых, как ожидается, будет преобладать объективное выражение, тогда как результаты показывают, что он состоит более чем на 40% из субъективного выражения. [21]

Чтобы преодолеть эти проблемы, исследователи приходят к выводу, что эффективность классификатора зависит от точности обучаемых моделей. Кроме того, учащиеся получают большие объемы аннотированных обучающих данных, чем те, кто обучен менее комплексным субъективным характеристикам. Однако одним из основных препятствий для выполнения этого типа работы является создание большого набора данных с аннотированными предложениями вручную. Ручной метод аннотации менее предпочтителен, чем автоматическое обучение, по трем причинам:

  1. Вариации в понимании. В задаче ручного аннотирования среди аннотаторов сервалов может возникнуть разногласие по поводу того, является ли один экземпляр субъективным или объективным, из-за двусмысленности языков.
  2. Человеческие ошибки. Ручное аннотирование - это кропотливая задача, для выполнения которой требуется большая концентрация.
  3. Кропотливый. Ручное аннотирование - кропотливая работа. Рилофф (1996) показывает, что работа одного аннотатора стоит 8 часов для 160 текстов. [28]

Все перечисленные причины могут повлиять на эффективность и результативность субъективной и объективной классификации. Соответственно, были разработаны два метода начальной загрузки для изучения лингвистических паттернов на основе неаннотированных текстовых данных. Оба метода начинаются с нескольких начальных слов и неаннотированных текстовых данных.

  1. Мета-бутстрапирование, разработанное Рилоффом и Джонсом в 1999 году. [29] Уровень первый: создание шаблонов извлечения на основе заранее определенных правил и извлеченных шаблонов по количеству исходных слов, которые содержит каждый шаблон. Второй уровень: 5 лучших слов будут отмечены и добавлены в словарь. Повторить.
  2. Василиск ( Б ootstrapping pproach к S emantIc L exicon Я nduction с помощью S emantic К nowledge) с помощью Thelen и Riloff. [30] Шаг первый: создание шаблонов извлечения. Шаг второй: перемещение лучших шаблонов из пула образцов в пул слов-кандидатов. Шаг третий: 10 лучших слов будут отмечены и добавлены в словарь. Повторить.

В целом, эти алгоритмы подчеркивают необходимость автоматического распознавания и извлечения образов в субъективных и объективных задачах.

Субъективный и объектный классификаторы могут улучшить сервальные приложения обработки естественного языка. Одним из основных преимуществ классификатора является популяризация процессов принятия решений на основе данных в различных отраслях. По словам Лю, применение субъективной и объективной идентификации было реализовано в бизнесе, рекламе, спорте и социальных науках. [31]

  • Классификация онлайн-обзоров: в сфере бизнеса классификатор помогает компании лучше понимать отзывы о продукте и аргументы, лежащие в основе обзоров.
  • Прогнозирование цен на акции: в финансовой отрасли классификатор помогает модели прогнозирования, обрабатывая вспомогательную информацию из социальных сетей и другую текстовую информацию из Интернета. Предыдущие исследования цен на японские акции, проведенные Dong et.al. указывает, что модель с субъективным и объективным модулем может работать лучше, чем модели без этой части. [32]
  • Анализ социальных сетей.
  • Классификация отзывов студентов. [33]
  • Обобщение документа: классификатор может извлекать целевые комментарии и собирать мнения, сделанные одной конкретной организацией.
  • Сложный ответ на вопрос. Классификатор может анализировать сложные вопросы, классифицируя языковой предмет или объективную и целевую цель. В исследовании Yu et al. (2003) исследователь разработал уровень предложения и документа, сгруппировавший эти части мнения. [34]
  • Доменные приложения.
  • Анализ электронной почты: субъективный и объективный классификатор обнаруживает спам, отслеживая языковые шаблоны с помощью целевых слов.

На основе характеристик / аспектов [ править ]

Это относится к определению мнений или настроений, выраженных в отношении различных характеристик или аспектов сущностей, например сотового телефона, цифровой камеры или банка. [35] Характеристика или аспект - это атрибут или компонент объекта, например экран сотового телефона, услуга ресторана или качество изображения камеры. Преимущество анализа тональности на основе характеристик заключается в возможности улавливать нюансы об объектах, представляющих интерес. Различные функции могут вызывать разные эмоциональные реакции, например, у отеля может быть удобное расположение, но посредственная еда. [36]Эта проблема включает в себя несколько подзадач, например, определение соответствующих сущностей, извлечение их характеристик / аспектов и определение того, является ли мнение, выраженное по каждой характеристике / аспекту, положительным, отрицательным или нейтральным. [37] Автоматическая идентификация функций может быть выполнена с синтаксическими методами, с темой моделированием , [38] [39] , либо с углубленным изучением . [40] [41] Более подробное обсуждение этого уровня анализа настроений можно найти в работе Лю. [23]

Методы и особенности [ править ]

Существующие подходы к анализу настроений можно разделить на три основные категории: методы, основанные на знаниях, статистические методы и гибридные подходы. [42] Приемы, основанные на знаниях, классифицируют текст по категориям аффекта на основе наличия однозначных слов аффекта, таких как счастливый, грустный, испуганный и скучающий. [43] Некоторые базы знаний не только перечисляют очевидные аффективные слова, но также приписывают произвольным словам вероятную «близость» к определенным эмоциям. [44] Статистические методы используют элементы машинного обучения, такие как скрытый семантический анализ , опорные векторные машины , « набор слов », « точечная взаимная информация».«для семантической ориентации [5] и глубокого обучения . Более сложные методы пытаются обнаружить носителя настроения (т. е. человека, который поддерживает это аффективное состояние) и цель (т. е. сущность, в отношении которой ощущается аффект). [45] Чтобы проанализировать мнение в контексте и получить характеристику, о которой высказал говорящий, используются грамматические отношения слов. Грамматические отношения зависимости получаются путем глубокого анализа текста. [46] Гибридные подходы используют как машинное обучение, так и элементы из представления знаний, такие как онтологии и семантические сетидля обнаружения семантики, которая выражается тонко, например, посредством анализа концепций, которые явно не передают релевантную информацию, но которые неявно связаны с другими концепциями, которые это делают. [47]

Программные инструменты с открытым исходным кодом, а также ряд бесплатных и платных инструментов анализа настроений используют машинное обучение , статистику и методы обработки естественного языка для автоматизации анализа настроений в больших коллекциях текстов, включая веб-страницы, онлайн-новости, группы обсуждения в Интернете, онлайн-обзоры и т. Д. веб-блоги и социальные сети. [48] Системы, основанные на знаниях, с другой стороны, используют общедоступные ресурсы для извлечения семантической и аффективной информации, связанной с концепциями естественного языка. Система может помочь в аффективном рассуждении на основе здравого смысла. [49] Анализ тональности также может выполняться для визуального контента, например изображений и видео (см. Мультимодальный анализ тональности.). Одним из первых подходов в этом направлении является SentiBank [50], использующий пару прилагательных существительных для представления визуального контента. Кроме того, подавляющее большинство подходов к классификации настроений опирается на модель набора слов, которая игнорирует контекст, грамматику и даже порядок слов . Подходы, которые анализируют тональность на основе того, как слова составляют значение более длинных фраз, показали лучший результат [51], но они несут дополнительные накладные расходы на аннотацию.

Компонент человеческого анализа необходим для анализа настроений, поскольку автоматизированные системы не могут анализировать исторические тенденции отдельного комментатора или платформы и часто неправильно классифицируются по выраженному ими настроению. Автоматизация влияет примерно на 23% комментариев, которые правильно классифицируются людьми. [52] Однако люди часто не соглашаются, и утверждается, что межчеловеческое соглашение обеспечивает верхнюю границу, которую в конечном итоге могут достичь автоматические классификаторы настроений. [53]

Оценка [ править ]

В принципе, точность системы анализа настроений зависит от того, насколько хорошо она согласуется с человеческими суждениями. Обычно это измеряется вариативными мерами, основанными на точности и запоминании двух целевых категорий отрицательного и положительного текста. Однако, согласно исследованиям, оценщики-люди обычно соглашаются только в 80% [54] случаев (см. «Надежность между оценщиками» ). Таким образом, программа, которая достигает 70% точности классификации настроений, работает почти так же хорошо, как и люди, хотя такая точность может показаться не впечатляющей. Если бы программа была «правильной» в 100% случаев, люди все равно не соглашались бы с ней примерно в 20% случаев, поскольку они не согласны с любым ответом. [55]

С другой стороны, компьютерные системы будут делать ошибки, сильно отличающиеся от ошибок, сделанных людьми-оценщиками, и поэтому цифры не совсем сопоставимы. Например, компьютерная система будет иметь проблемы с отрицаниями, преувеличениями, шутками или сарказмом, с которыми обычно легко справиться человеку-читателю: некоторые ошибки, которые делает компьютерная система, будут казаться человеку слишком наивными. В целом, полезность анализа настроений, как это определяется в академических исследованиях, для практических коммерческих задач была поставлена ​​под сомнение, в основном потому, что простая одномерная модель настроения от отрицательного к положительному дает довольно мало действенной информации для клиента, беспокоясь о своих проблемах. влияние публичного дискурса, например, на бренд или корпоративную репутацию. [56] [57] [58]

Чтобы лучше соответствовать потребностям рынка, оценка анализа настроений перешла к более целевым показателям, сформулированным совместно с представителями PR-агентств и профессионалами в области маркетинговых исследований. Например, в наборе оценочных данных RepLab акцент делается не столько на содержании рассматриваемого текста, сколько на его влиянии на репутацию бренда . [59] [60] [61]

Поскольку оценка тональности анализа становится все более и более основанной на задачах, каждая реализация требует отдельной обучающей модели, чтобы получить более точное представление настроения для данного набора данных.

Web 2.0 [ править ]

Рост социальных сетей, таких как блоги и социальные сети , подогревает интерес к анализу сантиментов. С распространением обзоров, рейтингов, рекомендаций и других форм онлайн-выражения мнения в Интернете превратились в своего рода виртуальную валюту для компаний, которые стремятся продавать свои продукты, выявлять новые возможности и управлять своей репутацией. По мере того, как компании стремятся автоматизировать процесс фильтрации шума, понимания разговоров, определения релевантного контента и соответствующих действий, многие теперь обращаются к анализу настроений. [62] Еще больше усложняет ситуацию рост анонимных социальных сетей, таких как 4chan и Reddit.. [63] Если веб 2.0 был направлен на демократизацию публикации, то следующий этап Интернета вполне может быть основан на демократизации интеллектуального анализа данных всего публикуемого контента. [64]

Один шаг к этой цели делается в исследованиях. Несколько исследовательских групп в университетах по всему миру в настоящее время сосредоточены на понимании динамики настроений в электронных сообществах с помощью анализа настроений. [65] Проект CyberEmotions , например, недавно определил роль отрицательных эмоций в стимулировании дискуссий в социальных сетях. [66]

Проблема в том, что большинство алгоритмов анализа настроений используют простые термины, чтобы выразить мнение о продукте или услуге. Однако культурные факторы, лингвистические нюансы и разные контексты чрезвычайно затрудняют превращение строки письменного текста в простое за или против. [62] Тот факт, что люди часто расходятся во мнениях относительно тональности текста, показывает, насколько велика задача компьютеров, чтобы понять это правильно. Чем короче строка текста, тем сложнее она становится.

Несмотря на то, что короткие текстовые строки могут быть проблемой, анализ настроений в рамках микроблогов показал, что Twitter можно рассматривать как действительный онлайн-индикатор политических настроений. Политические настроения твитов демонстрируют близкое соответствие политическим позициям партий и политиков, указывая на то, что содержание сообщений Твиттера достоверно отражает политический ландшафт офлайн. [67] Кроме того, было показано , что анализ настроений в Твиттере отражает общественное настроение, стоящее за циклами воспроизводства человека в планетарном масштабе [ термин павлин ] , [68], а также другие проблемы, имеющие значение для общественного здравоохранения, такие как побочные реакции на лекарства. [69]

Применение в рекомендательных системах [ править ]

Для рекомендательной системы анализ тональности оказался ценным методом. Система рекомендаций направлена ​​на прогнозирование предпочтения элемента целевого пользователя. Основные рекомендательные системы работают с явным набором данных. Например, совместная фильтрация работает с оценочной матрицей, а фильтрация на основе содержимого работает с метаданными элементов.

Во многих социальных сетях или на веб- сайтах электронной коммерции пользователи могут предоставлять текстовый обзор, комментарии или отзывы о товарах. Этот текст, созданный пользователями, является богатым источником мнений пользователей о многочисленных продуктах и ​​предметах. Потенциально для элемента такой текст может раскрыть как связанные функции / аспекты элемента, так и мнения пользователей по каждой функции. [70] Характеристики / аспекты элемента, описанные в тексте, играют ту же роль с метаданными в контентной фильтрации., но первые более ценны для рекомендательной системы. Поскольку эти функции широко упоминаются пользователями в их обзорах, их можно рассматривать как наиболее важные функции, которые могут существенно повлиять на восприятие пользователем товара, в то время как метаданные товара (обычно предоставляемые производителями, а не потребителями) может игнорировать функции, которые беспокоят пользователей. К разным предметам с общими характеристиками пользователь может относиться по-разному. Кроме того, функция одного и того же элемента может получать разные мнения от разных пользователей. Мнение пользователей о функциях можно рассматривать как многомерный рейтинг, отражающий их предпочтения по элементам.

На основе характеристик / аспектов и настроений, извлеченных из пользовательского текста, может быть построена гибридная рекомендательная система. [71] Есть два типа мотивации рекомендовать элемент кандидата пользователю. Первая мотивация состоит в том, что элементы-кандидаты имеют множество общих черт с элементами, предпочитаемыми пользователем [72]в то время как вторая мотивация заключается в том, что объект-кандидат получает высокую оценку своих характеристик. Для предпочтительного элемента разумно полагать, что элементы с одинаковыми функциями будут иметь аналогичную функцию или полезность. Таким образом, эти предметы также, вероятно, будут предпочтительнее для пользователя. С другой стороны, для общей характеристики двух элементов-кандидатов другие пользователи могут дать положительный отзыв одному из них, а другому - отрицательно. Ясно, что пользователю следует рекомендовать предмет с высокой оценкой. Основываясь на этих двух мотивах, для каждого элемента-кандидата может быть построена комбинация рейтингового балла сходства и рейтинга настроений. [71]

За исключением сложности самого анализа настроений, применение анализа настроений к отзывам или отзывам также сталкивается с проблемой спама и предвзятых отзывов. Одно направление работы сосредоточено на оценке полезности каждого обзора. [73] Плохо написанные рецензии или отзывы вряд ли полезны для рекомендательной системы. Кроме того, обзор может быть направлен на то, чтобы препятствовать продажам целевого продукта и, таким образом, нанести вред рекомендательной системе, даже если она хорошо написана.

Исследователи также обнаружили, что длинные и короткие формы текста, создаваемого пользователем, следует рассматривать по-разному. Интересный результат показывает, что краткие обзоры иногда более полезны, чем подробные [74], потому что в кратком тексте легче отфильтровать шум. Для длинного текста увеличивающаяся длина текста не всегда приводит к пропорциональному увеличению количества функций или настроений в тексте.

Ламба и Мадхусудхан [75] представляют зарождающийся способ удовлетворения информационных потребностей сегодняшних пользователей библиотеки путем переупаковки результатов анализа настроений платформ социальных сетей, таких как Twitter, и предоставления их в виде консолидированной временной службы в различных форматах. Кроме того, они предлагают новый способ проведения маркетинга в библиотеках с использованием анализа социальных сетей и анализа настроений.

См. Также [ править ]

  • Распознавание эмоций
  • Настроение рынка
  • Поведенческий анализ рынков
  • Стилометрия

Ссылки [ править ]

  1. ^ Вонг Ань Хо, Зыонг Хюинь-Конг Нгуен, Danh Hoang Nguyen, Линх Thi-Ван Фам, дык-Vu Nguyen, Kiet Ван Нгуен, нган Luu-Туи Нгуен. «Распознавание эмоций для текста вьетнамских социальных сетей». В материалах Международной конференции Тихоокеанской ассоциации компьютерной лингвистики 2019 г. (PACLING 2019), Ханой, Вьетнам (2019).
  2. ^ Стоун, Филип Дж., Декстер С. Данфи и Маршалл С. Смит. «Общий исследователь: компьютерный подход к контент-анализу». MIT Press, Кембридж, Массачусетс (1966).
  3. ^ Готшальк Луи августа и Goldine С. Глезер. Измерение психологических состояний посредством контент-анализа вербального поведения. Университет Калифорнии Press, 1969.
  4. ^ США Выпущено 7136877 , Volcani, Yanon; И Фогель, Дэвид Б., «Система и метод определения и контроля воздействия текста», опубликовано 28 июня 2001 г. 
  5. ^ a b Терни, Питер (2002). «Пальцы вверх или пальцы вниз? Семантическая ориентация, применяемая к неконтролируемой классификации обзоров». Труды ассоциации компьютерной лингвистики . С. 417–424. arXiv : cs.LG / 0212032 .
  6. ^ Панг, Бо; Ли, Лилиан ; Вайтхьянатан, Шивакумар (2002). «Недурно? Классификация настроений с использованием методов машинного обучения» . Труды конференции по эмпирическим методам обработки естественного языка (EMNLP) . С. 79–86.
  7. ^ а б Панг, Бо; Ли, Лилиан (2005). «Видеть звезды: использование классовых отношений для категоризации настроений по шкале оценок» . Труды Ассоциации компьютерной лингвистики (ACL) . С. 115–124.
  8. ^ а б Снайдер, Бенджамин; Барзилай, Регина (2007). «Множественное ранжирование аспектов с использованием алгоритма хорошего горя» . Труды Объединенного отделения Human Language Technology / Североамериканского отделения конференции ACL (HLT-NAACL) . С. 300–307.
  9. ^ Qu, Ян, Джеймс Shanahan и Janyce Вибе. «Изучение отношения и влияния в тексте: теории и приложения». В весеннем симпозиуме AAAI) Технический отчет SS-04-07. AAAI Press, Менло-Парк, Калифорния. 2004 г.
  10. ^ Vryniotis, Василисы (2013). Важность нейтрального класса в анализе настроений .
  11. ^ Коппель, Моше; Шлер, Джонатан (2006). «Важность нейтральных примеров для изучения настроений». Вычислительный интеллект 22 . С. 100–109. CiteSeerX 10.1.1.84.97 35 . 
  12. ^ Рибейро, Филипе Нуньес; Араужо, Матеус (2010). «Сравнительное сравнение современных методов анализа настроений» . Транзакции по встроенным вычислительным системам . 9 (4).
  13. ^ Табоада, Майте; Брук, Джулиан (2011). «Лексические методы анализа настроений» . Компьютерная лингвистика . 37 (2): 272–274. CiteSeerX 10.1.1.188.5517 . DOI : 10,1162 / coli_a_00049 . S2CID 3181362 .  
  14. ^ Августыняк, Лукаш; Шиманский, Петр; Kajdanowicz, Tomasz; Тулиглович, Влодзимеж (25 декабря 2015 г.). «Комплексное исследование по ансамблевому анализу тональности на основе лексики» . Энтропия . 18 (1): 4. Bibcode : 2015Entrp..18 .... 4A . DOI : 10.3390 / e18010004 .
  15. ^ Mehmood Ясир; Балакришнан, Вимала (01.01.2020). «Подход на основе расширенной лексики для анализа настроений: тематическое исследование нелегальной иммиграции» . Обзор онлайн-информации . 44 (5): 1097–1117. DOI : 10,1108 / ОИР-10-2018-0295 . ISSN 1468-4527 . 
  16. ^ Thelwall, Майк; Бакли, Кеван; Палтоглу, Георгиос; Цай, Ди; Каппас, Арвид (2010). «Определение силы настроения в кратком неформальном тексте» . Журнал Американского общества информационных наук и технологий . 61 (12): 2544–2558. CiteSeerX 10.1.1.278.3863 . DOI : 10.1002 / asi.21416 . 
  17. ^ Панг, Бо; Ли, Лилиан (2008). «4.1.2 Выявление субъективности и идентификация мнения» . Анализ мнений и настроений . Теперь Publishers Inc.
  18. ^ Михалча, Рада; Банеа, Кармен; Wiebe, Janyce (2007). «Изучение многоязычного субъективного языка через кросс-языковые проекции» (PDF) . Труды Ассоциации компьютерной лингвистики (ACL) . С. 976–983. Архивировано из оригинального (PDF) 08.07.2010.
  19. ^ Су, Фангчжун; Маркерт, Катя (2008). «От слов к смыслам: пример распознавания субъективности» (PDF) . Proceedings of Coling 2008, Манчестер, Великобритания .
  20. ^ Панг, Бо; Ли, Лилиан (2004). «Сентиментальное образование: анализ настроений с использованием обобщения субъективности на основе минимальных сокращений» . Труды Ассоциации компьютерной лингвистики (ACL) . С. 271–278.
  21. ^ a b Wiebe, Janyce; Рилофф, Эллен (2005). Гельбух Александр (ред.). «Создание субъективных и объективных классификаторов предложений из неаннотированных текстов» . Компьютерная лингвистика и интеллектуальная обработка текста . Конспект лекций по информатике. Берлин, Гейдельберг: Springer. 3406 : 486–497. DOI : 10.1007 / 978-3-540-30586-6_53 . ISBN 978-3-540-30586-6.
  22. ^ Причуда, Рэндольф; Гринбаум, Сидней; Джеффри, Пиявка; Ян, Свартвик (1985). Комплексная грамматика английского языка (Общая грамматика) . Лонгман . С. 175–239. ISBN 1933108312.
  23. ^ a b c Лю, Бинг (2010). «Анализ настроений и субъективность» (PDF) . In Indurkhya, N .; Дамерау, FJ (ред.). Справочник по обработке естественного языка (второе изд.).
  24. ^ а б Панг, Бо; Ли, Лилиан (06.07.2008). «Анализ мнений и настроений» . Основы и тенденции в поиске информации . 2 (1–2): 1–135. DOI : 10.1561 / 1500000011 . ISSN 1554-0669 . 
  25. ^ Рилофф, Эллен; Вибе, Джанис (11 июля 2003 г.). «Изучение паттернов извлечения субъективных выражений» . Труды конференции 2003 г. по эмпирическим методам обработки естественного языка . ЕМНЛП '03. США: Ассоциация компьютерной лингвистики. 10 : 105–112. DOI : 10.3115 / 1119355.1119369 . S2CID 6541910 . 
  26. ^ Чатурведи, Ити; Камбрия, Эрик; Уэлш, Рой Э .; Эррера, Франсиско (ноябрь 2018 г.). «Отличие фактов от мнений для анализа настроений: обзор и проблемы» (PDF) . Информационный фьюжн . 44 : 65–77. DOI : 10.1016 / j.inffus.2017.12.006 - через Elsevier Science Direct.
  27. ^ Wiebe, Janyce; Рилофф, Эллен (июль 2011 г.). «Поиск взаимной выгоды между субъективным анализом и извлечением информации» . IEEE Transactions on Affective Computing . 2 (4): 175–191. DOI : 10.1109 / T-AFFC.2011.19 . ISSN 1949-3045 . S2CID 16820846 .  
  28. ^ Рилофф, Эллен (1996-08-01). «Эмпирическое исследование автоматизированного построения словаря для извлечения информации в трех областях» . Искусственный интеллект . 85 (1): 101–134. DOI : 10.1016 / 0004-3702 (95) 00123-9 . ISSN 0004-3702 . 
  29. ^ Рилофф, Эллен; Джонс, Рози (июль 1999 г.). «Обучающие словари для извлечения информации с помощью многоуровневой начальной загрузки» (PDF) . AAAI '99 / IAAI '99: Материалы шестнадцатой национальной конференции по искусственному интеллекту и одиннадцатой конференции по инновационным приложениям искусственного интеллекта «Инновационные приложения искусственного интеллекта» : 474–479.
  30. ^ Телен, Майкл; Рилофф, Эллен (2002-07-06). «Метод начальной загрузки для изучения семантических лексиконов с использованием контекстов шаблонов извлечения» . Труды конференции ACL-02 по эмпирическим методам обработки естественного языка - Том 10 . ЕМНЛП '02. США: Ассоциация компьютерной лингвистики. 10 : 214–221. DOI : 10.3115 / 1118693.1118721 . S2CID 137155 . 
  31. ^ Лю, Бинг (2012-05-23). «Анализ настроений и извлечение мнений» . Синтез лекций по технологиям человеческого языка . 5 (1): 1–167. DOI : 10.2200 / S00416ED1V01Y201204HLT016 . ISSN 1947-4040 . 
  32. ^ Дэн, Шанкунь; Мицубучи, Такаши; Сиода, Кей; Симада, Тацуро; Сакураи, Акито (декабрь 2011 г.). «Сочетание технического анализа с анализом настроений для прогнозирования цен на акции» . 2011 Девятая международная конференция IEEE по надежным, автономным и безопасным вычислениям . IEEE: 800–807. DOI : 10.1109 / dasc.2011.138 . ISBN 978-1-4673-0006-3. S2CID  15262023 .
  33. ^ Нгуен, Киет Ван; Нгуен, Ву Дык; Нгуен, Фу XV; Truong, Tham TH; Нгуен, Нган LT. (2018-10-01). "UIT-VSFC: Корпус отзывов вьетнамских студентов для анализа настроений" . 2018 10-я Международная конференция по знаниям и системной инженерии (KSE) . Вьетнам: IEEE.
  34. ^ Ю, Хун; Хацивассилоглу, Василиос (11 июля 2003 г.). «На пути к ответам на вопросы мнения: отделение фактов от мнений и определение полярности высказываний мнений» . Труды конференции 2003 г. по эмпирическим методам обработки естественного языка . ЕМНЛП '03. США: Ассоциация компьютерной лингвистики: 129–136. DOI : 10.3115 / 1119355.1119372 .
  35. ^ Ху, Миньцин; Лю, Бинг (2004). «Анализ и обобщение отзывов клиентов» . Материалы KDD 2004 .
  36. ^ Катальди, Марио; Баллаторе, Андреа; Тидди, Илария; Aufaure, Мари-Од (22.06.2013). «Хорошее расположение, ужасная еда: определение настроения в пользовательских обзорах». Анализ социальных сетей и майнинг . 3 (4): 1149–1163. CiteSeerX 10.1.1.396.93 13 . DOI : 10.1007 / s13278-013-0119-7 . ISSN 1869-5450 . S2CID 5025282 .   
  37. ^ Лю, Бинг; Ху Миньцин; Ченг, Цзюньшэн (2005). «Наблюдатель за мнениями: анализ и сравнение мнений в сети» . Материалы WWW 2005 .
  38. ^ Чжай, Чжунву; Лю, Бинг; Сюй, Хуа; Цзя, Пейфа (01.01.2011). Хуанг, Джошуа Чжэсуэ; Цао, Лунбин; Шривастава, Джайдип (ред.). Ограниченный LDA для группировки характеристик продукта в Opinion Mining . Конспект лекций по информатике. Springer Berlin Heidelberg. С. 448–459. CiteSeerX 10.1.1.221.5178 . DOI : 10.1007 / 978-3-642-20841-6_37 . ISBN  978-3-642-20840-9.
  39. ^ Титов, Иван; Макдональд, Райан (01.01.2008). Моделирование онлайн-обзоров с помощью многоуровневых тематических моделей . Материалы 17-й Международной конференции по всемирной паутине . WWW '08. Нью-Йорк, Нью-Йорк, США: ACM. С. 111–120. arXiv : 0801.1063 . DOI : 10.1145 / 1367497.1367513 . ISBN 978-1-60558-085-2. S2CID  13609860 .
  40. ^ Пория, Суджанья; и другие. (2016). «Извлечение аспектов для интеллектуального анализа мнений с помощью глубокой сверточной нейронной сети». Системы, основанные на знаниях . 108 : 42–49. DOI : 10.1016 / j.knosys.2016.06.009 .
  41. ^ Ма, Юкун; и другие. (2018). «Целенаправленный аспектно-ориентированный анализ настроений посредством встраивания здравого смысла в внимательный LSTM». Труды AAAI . С. 5876–5883.
  42. ^ Камбрия, E; Шуллер, Б; Ся, Y; Хаваси, К. (2013). «Новые возможности в изучении общественного мнения и анализе настроений». Интеллектуальные системы IEEE . 28 (2): 15–21. CiteSeerX 10.1.1.688.1384 . DOI : 10.1109 / MIS.2013.30 . S2CID 12104996 .  
  43. ^ Ортони, Эндрю; Clore, G; Коллинз, А (1988). Когнитивная структура эмоций (PDF) . Cambridge Univ. Нажмите. Архивировано из оригинального (PDF) 23 ноября 2015 года.
  44. ^ Стивенсон, Райан; Микелс, Джозеф; Джеймс, Томас (2007). «Характеристика аффективных норм английских слов по дискретным эмоциональным категориям» (PDF) . Методы исследования поведения . 39 (4): 1020–1024. DOI : 10.3758 / bf03192999 . PMID 18183921 . S2CID 6673690 .   
  45. ^ Ким, SM; Хови, EH (2006). «Выявление и анализ суждений». (PDF) . Труды конференции Human Language Technology / Североамериканской ассоциации компьютерной лингвистики (HLT-NAACL 2006). Нью-Йорк, штат Нью-Йорк . Архивировано из оригинального (PDF) 29 июня 2011 года.
  46. ^ Дей, Липика; Хак, СК Мираджул (2008). «Извлечение мнений из зашумленных текстовых данных» . Материалы второго семинара по аналитике зашумленных неструктурированных текстовых данных, с.83-90 .
  47. ^ Камбрия, E; Хуссейн, А (2015). Sentic Computing: основанная на здравом смысле структура для анализа настроений на уровне концепций . Springer. ISBN 9783319236544.
  48. ^ Akcora, Cuneyt gürcan; Байир, Мурат Али; Демирбас, Мурат; Ферхатосманоглу, Хакан (2010). «Определение точек останова в общественном мнении» . SigKDD, Труды первого семинара по аналитике социальных сетей .
  49. ^ Sasikala, P .; Мэри Непорочная Шила, Л. (декабрь 2020 г.). «Анализ настроений онлайн-обзоров продуктов с использованием DLMNN и прогнозирование будущего онлайн-продуктов с использованием IANFIS» . Журнал больших данных . 7 (1): 33. DOI : 10,1186 / s40537-020-00308-7 . ISSN 2196-1115 . 
  50. ^ Борт, Дамиан; Джи, Ронгронг; Чен, Дао; Бреуэл, Томас; Чанг, Ши-Фу (2013). «Крупномасштабная онтология визуальных чувств и детекторы с использованием пар прилагательных и существительных» . Материалы ACM Int. Конференция по мультимедиа . С. 223–232.
  51. ^ Сохер, Ричард; Перелыгин Алексей; Wu, Jean Y .; Чуанг, Джейсон; Мэннинг, Кристофер Д.; Ng, Andrew Y .; Поттс, Кристофер (2013). «Рекурсивные глубинные модели семантической композиционности на банке дерева настроений». В трудах ЕМНЛП : 1631–1642. CiteSeerX 10.1.1.593.7427 . 
  52. ^ «Пример: расширенный анализ настроений» . Проверено 18 октября 2013 года .
  53. ^ Mozetič, Игорь; Грчар, Миха; Смаилович, Ясмина (05.05.2016). «Многоязычная классификация настроений в Twitter: роль аннотаторов-людей» . PLOS ONE . 11 (5): e0155036. arXiv : 1602.07563 . Bibcode : 2016PLoSO..1155036M . DOI : 10.1371 / journal.pone.0155036 . ISSN 1932-6203 . PMC 4858191 . PMID 27149621 .   
  54. ^ Огнева, М. "Как компании могут использовать анализ настроений для улучшения своего бизнеса" . Mashable . Проверено 13 декабря 2012 .
  55. ^ Робак, К. (2012-10-24). Анализ настроений: высокоэффективные стратегии - что вам нужно знать: определения, принятие, влияние, выгоды, зрелость, поставщики . ISBN 9781743049457.
  56. ^ Karlgren, Юсси , Магнус Салгрен , Фредрик Олссон, Фредрик Эспиноза и Ола Hamfors. «Полезность анализа настроений». В Европейской конференции по поиску информации, стр. 426-435. Springer Berlin Heidelberg, 2012 г.
  57. ^ Карлгрен, Юсси . «Связь между настроением автора и аффектом к тональности текста и текстового жанра». В материалах четвертого семинара по использованию семантических аннотаций в поиске информации, стр. 9-10. ACM, 2011.
  58. ^ Карлгрен, Юсси . « Влияние, привлекательность и настроение как факторы, влияющие на взаимодействие с мультимедийной информацией ». В Трудах Тесея / Семинар ImageCLEF по оценке поиска визуальной информации, стр. 8-11. 2009 г.
  59. ^ Amigo, Энрике, Адольфо Corujo, Хулио Гонсало, Эдгар Meij и Маартен де Rijke . «Обзор RepLab 2012: оценка систем управления репутацией в Интернете». В CLEF (онлайн-рабочие заметки / лабораторные работы / семинар). 2012 г.
  60. ^ Amigo, Энрике, Хорхе Каррильо де Альборнос, Ирина Chugur, Адольфо Corujo, Хулио Гонсало, Тамара Мартин, Эдгар Meij, Маартен де Rijke и Дамиано Spina. «Обзор replab 2013: оценка систем мониторинга репутации в Интернете». В Международной конференции Форума межъязыковой оценки европейских языков, стр. 333-352. Springer Berlin Heidelberg, 2013 г.
  61. ^ Amigo, Энрике, Хорхе Каррильо-де-Альборнос, Ирина Chugur, Адольфо Corujo, Хулио Гонсало, Эдгар Meij, Маартен де Rijke и Дамиано Spina. «Обзор replab 2014: профилирование авторов и параметры репутации для управления репутацией в Интернете». В Международной конференции Форума межъязыковой оценки европейских языков, стр. 307-322. Издательство Springer International, 2014.
  62. ^ a b Райт, Алекс. «Поиск в сети ощущений, а не фактов» , New York Times , 23.08.2009. Проверено 1 октября 2009.
  63. ^ «Анализ настроений на Reddit» . 2014-09-30 . Проверено 10 октября 2014 года .
  64. ^ Киркпатрик, Маршалл. " , ReadWriteWeb, 15 апреля 2009 г. Проверено 1 октября 2009 г.
  65. ^ КОРДИС. «Коллективные эмоции в киберпространстве (CYBEREMOTIONS)» , Европейская Комиссия , 2009-02-03. Проверено 13 декабря 2010.
  66. ^ Кондлифф, Джейми. «Флейминг движет социальными сетями в Интернете» , New Scientist , 2010-12-07. Проверено 13 декабря 2010.
  67. ^ Тумасян, Андраник; О. Спренджер, Тимм; Г. Санднер, Филипп; М. Велпе, Изабель (2010). «Предсказание выборов с помощью Twitter: что говорят 140 персонажей о политических настроениях» . «Труды Четвертой Международной конференции AAAI по блогам и социальным сетям»
  68. ^ Вуд, Ян Б .; Varela, Pedro L .; Боллен, Йохан; Rocha, Luis M .; Гонсалвеш-Са, Жоана (2017). «Сексуальные циклы человека определяются культурой и соответствуют коллективным настроениям» . Научные отчеты . 7 (1): 17973. arXiv : 1707.03959 . Bibcode : 2017NatSR ... 717973W . DOI : 10.1038 / s41598-017-18262-5 . PMC 5740080 . PMID 29269945 .  
  69. ^ Korkontzelos, Иоаннис; Никфарджам, Азаде; Шардлоу, Мэтью; Саркер, Абид; Ананиаду, София; Гонсалес, Грасиела Х. (2016). «Анализ влияния анализа настроений на извлечение побочных эффектов лекарств из твитов и сообщений на форуме» . Журнал биомедицинской информатики . 62 : 148–158. DOI : 10.1016 / j.jbi.2016.06.007 . PMC 4981644 . PMID 27363901 .  
  70. ^ Тан, Хуэйфэн; Тан, Сонгбо; Ченг, Сюэци (2009). «Обзор по выявлению настроений в обзорах» (PDF) . Экспертные системы с приложениями . 36 (7): 10760–10773. DOI : 10.1016 / j.eswa.2009.02.063 . S2CID 2178380 .  
  71. ^ a b Якоб, Никлас и др. «За гранью звезд: использование пользовательских обзоров с произвольным текстом для повышения точности рекомендаций по фильмам». Материалы 1-го международного семинара CIKM по тематическому анализу для массового мнения . ACM, 2009.
  72. ^ Minqing, Ху; Лю, Бинг (2004). «Особенности мнений горнодобывающих компаний в отзывах клиентов» (PDF) . AAAI . 4 (4). S2CID 5724860 .  
  73. ^ Лю, Ян; Хуанг, Сянцзи; Ан, Айджун; Ю, Сяохуэй (2008). «Моделирование и прогнозирование полезности онлайн-обзоров» (PDF) . ICDM'08. Восьмая международная конференция IEEE по интеллектуальному анализу данных . IEEE. С. 443–452. DOI : 10.1109 / ICDM.2008.94 . ISBN  978-0-7695-3502-9. S2CID  18235238 .
  74. ^ Бермингем, Адам; Смитон, Алан Ф. (2010). Классификация настроений в микроблогах: преимущество ли краткости? (PDF) . Материалы 19-й Международной конференции ACM по управлению информацией и знаниями . п. 1833 DOI : 10,1145 / 1871437,1871741 . ISBN  9781450300995. S2CID  2084603 .
  75. ^ Ламба, Маника; Мадхусудхан, Маргам (2018). «Применение анализа настроений в библиотеках для предоставления услуг временной информации: тематическое исследование различных аспектов продуктивности». Анализ социальных сетей и майнинг . 8 (1): 1–12. DOI : 10.1007 / s13278-018-0541-у . S2CID 53047128 .