Профилирование авторов

PSM V37 D594 Томас Корвин Менденхолл

Профилирование авторов - это анализ заданного набора текстов с целью выявления различных характеристик автора на основе стилистических и содержательных особенностей. Анализируемые характеристики обычно включают возраст и пол , хотя в более поздних исследованиях рассматривались и другие характеристики, такие как личностные черты и род занятий ^[1]

Профилирование авторов - одно из трех основных направлений автоматической идентификации авторства (AAI), двумя другими являются указание авторства и идентификация авторства. Процесс AAI возник в конце 19 века. Томас Корвин Менденхолл , американский физик- самоучка и метеоролог , был первым, кто применил этот процесс к работам Фрэнсиса Бэкона , Уильяма Шекспира и Кристофера Марлоу . Из этих трех исторических фигур Менденхолл стремился выявить их количественные стилистические различия, исследуя длину слов. ^[2]

Хотя в 21 веке был достигнут значительный прогресс, задача профилирования авторов остается нерешенной проблемой из-за своей сложности.

Методы [ править ]

Посредством анализа текстов можно применять различные методы профилирования авторов для прогнозирования информации об авторе. Например, можно использовать служебные слова, а также анализ части речи, чтобы определить пол автора и истинность текста. ^[3]

Процесс профилирования авторов обычно включает следующие этапы: ^[4]

Определение конкретных функций, которые нужно извлечь из текста
Построение принятого стандартного представления (например, модели набора слов ) для целевого профиля.
Построение модели классификации с использованием стандартного классификатора (например, опорных векторных машин ) для целевого профиля.

Алгоритмы машинного обучения для профилирования авторов со временем становятся все более сложными. Алгоритмы, используемые при профилировании авторов, включают:

Машины опорных векторов ^[5]
Наивные байесовские классификаторы ^[5]
Сети с глубоким усреднением ^[6], многоуровневые циклы машинного обучения, использующие встраивание слов в текст ^[7]
Долговременная кратковременная память ^[8]

В прошлом профилирование авторов ограничивалось физическими документами, часто в форме книг и газетных статей . Различные комбинации текстовых атрибутов, принадлежащих авторам, были идентифицированы и проанализированы с использованием профилирования авторов, включая лексические и синтаксические особенности. ^[4] Новаторские исследования в области профилирования авторов были сосредоточены в основном на одном жанре, пока не произошел сдвиг в сторону профилирования авторов в социальных сетях и Интернете . ^[9] Пока атрибуты, такие как слова содержимого и теги POS, эффективны при прогнозировании профиля автора на физических документах, их эффективность при прогнозировании профиля автора на цифровых текстах субъективна и зависит от типа анализируемого онлайн-контента. ^[4]

С развитием технологий профилирование авторов в Интернете становится все более распространенным явлением. Сейчас используются цифровые тексты, такие как сообщения в социальных сетях, сообщения в блогах и электронные письма . ^[4] Это вызвало большие исследовательские усилия, поскольку анализ цифровых текстов может принести такие преимущества, как маркетинг и бизнес . ^[8] Профилирование авторов цифровых текстов также позволило прогнозировать более широкий спектр характеристик автора, таких как личность , ^[8] доход и род занятий. ^[10]

Наиболее эффективные атрибуты для профилирования авторов цифровых текстов включают сочетание стилистических характеристик и особенностей содержания. ^[4] Профилирование авторов цифровых текстов фокусируется на кросс-жанровом профилировании авторов, при котором один жанр используется для обучающих данных, а другой - для тестирования данных, хотя оба должны быть относительно схожими для получения хороших результатов. ^[9]

При использовании методов профилирования авторов в онлайн-текстах возникают некоторые проблемы ^[4] . К этим проблемам относятся:

Большой выбор длины используемых текстов
Несбалансированность классов в данных

Профилирование авторов и Интернет [ править ]

Рост Интернета в 20–21 веках стимулировал рост исследований по профилированию авторов, поскольку данные можно было добывать из Интернета, включая платформы социальных сетей, электронную почту и блоги. Контент из Интернета был проанализирован в задачах профилирования авторов для определения возраста, пола, географического происхождения, национальности и психометрических характеристик пользователей Интернета. Полученная информация использовалась для обслуживания различных приложений, включая маркетинг и криминалистику .

Социальные сети [ править ]

Растущая интеграция социальных сетей в повседневную жизнь людей сделала их богатым источником текстовых данных для профилирования авторов. Это происходит главным образом потому, что пользователи часто загружают и обмениваются контентом для различных целей, включая самовыражение, общение и личный бизнес. Социальный бот также является частым признаком социальных медиа - платформ, в частности Twitter , генерирующего контент , который может быть проанализирован для автора профилирования. ^[11] Хотя разные платформы содержат похожие данные, они также могут содержать разные функции в зависимости от формата и структуры конкретной платформы.

По-прежнему существуют ограничения в использовании социальных сетей в качестве источников данных для профилирования авторов, поскольку полученные данные не всегда могут быть надежными или точными. Пользователи иногда предоставляют ложную информацию о себе или скрывают информацию. ^[12] В результате обучение алгоритмов профилирования авторов может быть затруднено из-за менее точных данных. Еще одно ограничение - нерегулярность текста в социальных сетях. Особенности неправильности включают отклонения от нормальных лингвистических стандартов, такие как орфографические ошибки, нестандартная транслитерация, например, замена букв цифрами, сокращениями, сокращениями, созданными пользователями для фраз, и т. Д., Что может затруднить профилирование авторов. ^[13]Исследователи использовали методы для преодоления этих ограничений при обучении своих алгоритмов профилирования авторов. ^[13]

Facebook [ править ]

Facebook полезен для профилирования авторов как социальная сеть . Это связано с тем, как социальная сеть может быть построена, расширена и использована для социальных действий на сайте. ^[14] В таких процессах пользователи обмениваются личным контентом, который может использоваться для профилирования авторов. Текстовые данные получают из Facebook для профилирования авторов из личных сообщений пользователя, таких как «обновления статуса». ^[15] Они приобретаются для создания корпуса на выбранном языке (ах) для профилирования авторов, для создания двуязычной или многоязычной базы данных слов содержания ^[15]^[16], которые затем могут использоваться для профилирования авторов.

В контексте Facebook, автор профилирование в основном включает в себя английский текстовые данные, но и использует не английские языки , которые включают в себя: Roman урду , арабский , бразильский португальский , испанский . ^[16]^[11] В то время как исследования профилей авторов в Facebook были в основном для определения пола и возрастной группы, были попытки получить атрибуты для прогнозирования религиозности , ИТ-фона пользователей и даже основных эмоций (как определено Полом Экманом) ) среди других. ^[15]^[17]

Weibo [ править ]

Sina Weibo - одна из немногих азиатских платформ социальных сетей, содержащих тексты на азиатских языках, которые были проанализированы для определения профиля авторов. Основное внимание при профилировании авторов контента Weibo включает классические китайские символы, хэштеги , смайлики , каомодзи, однородную пунктуацию , латинские последовательности (из-за многоязычия текста) и даже поэтические форматы. Особо популярные китайские выражения, теги POS и типы слов также отслеживаются для профилирования авторов. ^[18]

Профилирование авторов контента Weibo требует алгоритмов, отличных от алгоритмов, используемых для других платформ социальных сетей, в основном из-за лингвистических различий между китайским и западными языками. Например, китайские эмоции включают китайские иероглифы, описывающие жест или выражение лица в скобках, такие как: например, [哈哈] «смех», [tear] «слезы», [g] «хихикать», [爱你] «любовь» , [心] 'сердце'. ^[18] Это отличается от использования знаков препинания для смайлов на западных языках или от обычного использования смайликов Unicode на других платформах, таких как Facebook, Instagram и т. Д. Кроме того, хотя существует около 161 западных смайлов, в материковом Китае, как и в Weibo, регулярно используется около 2900 смайлов для веб-контента. ^[19]Чтобы устранить эти различия, алгоритмы профилирования авторов были обучены на китайских смайликах и лингвистических особенностях. Например, алгоритмы профилирования авторов были разработаны для обнаружения китайских стилистических выражений, выражающих формальность и сантименты , вместо алгоритмов, определяющих английские лингвистические особенности, такие как заглавные буквы. ^[19]

По сравнению с другими, более популярными, глобализированными платформами, тексты на Weibo не так часто используются для профилирования авторов. Вероятно, это связано с централизацией Weibo среди китайского населения материкового Китая , ограничивающей его использование преимущественно гражданами Китая. В исследованиях, проведенных для этой платформы, использовались боты и алгоритмы машинного обучения для определения возраста и пола авторов. Данные собираются из сообщений микроблогов Weibo желающих проанализировать участников и используются для обучения алгоритмов, которые создают профили пользователей на основе концепций с определенной точностью. ^[18]

Журналы чата [ править ]

Журналы чатов были изучены для профилирования авторов, поскольку они включают в себя много текстового дискурса , анализ которого способствовал прикладным исследованиям, включая социальные тенденции и судебную медицину . Источники данных для профилирования авторов из журналов чатов включают такие платформы, как Yahoo! , AIM (программное обеспечение) и WhatsApp . ^[20] Вычислительные системы были разработаны для создания профилей на основе концепций, перечисляющих темы чата, обсуждаемые в одной комнате чата или независимыми пользователями. ^[21]

Блоги [ править ]

Профилирование авторов может использоваться для определения характеристик авторов блогов, таких как их возраст, пол и географическое положение , на основе их различных стилей письма ^[22]. Это особенно полезно, когда речь идет об анонимных блогах . Выбор слов содержания, особенности стиля и особенности темы анализируются, чтобы выявить характеристики автора. ^[23]

В целом, в блогах часто встречаются особенности, в том числе высокое распределение глаголов в каждом письме и относительно высокое использование местоимений . Частота употребления глаголов, местоимений и других классов слов используется для профилирования и классификации эмоций в трудах авторов, а также их пола и возраста. ^[24] Профилирование авторов с использованием моделей классификации, которые использовались в прошлом для физических документов, таких как Support Vector Machines, также было протестировано в блогах. Однако оказалось, что он не подходит для последнего из-за его низкой производительности. ^[22]

Алгоритмы машинного обучения, которые хорошо работают для профилирования авторов в блогах ^[22], включают:

Обучение на основе экземпляров
Леса со случайным решением

Электронная почта [ редактировать ]

Электронная почта всегда была в центре внимания при профилировании авторов благодаря богатым текстовым данным, которые можно найти в различных разделах типичной платформы электронной почты. Эти разделы включают папки «Отправленные», «Входящие», «Спам», «Корзина» и «Заархивированные». ^[25] Многоязычные подходы к составлению профилей авторов электронных писем включают, среди прочего, электронные письма на английском, испанском и арабском языках в качестве источников данных. ^[25]^[12] С помощью профилирования авторов можно идентифицировать данные пользователей электронной почты, такие как их возраст, пол, географическое происхождение, уровень образования , национальность и даже психометрические характеристики личности, включая невротизм , доброжелательность , добросовестность.а также экстраверсия и интроверсия от черт личности Большой пятерки . ^{[ необходима цитата ]}

При профилировании авторов для электронной почты содержимое обрабатывается для получения важных текстовых данных , в то время как неважные функции, такие как метаданные и другие избыточности языка гипертекстовой разметки (HTML), исключаются. Важные части многоцелевых расширений электронной почты (MIME), которые содержат содержимое электронных писем, также включены в анализ. Полученные данные часто разбиваются на различные разделы контента, включая текст автора, текст подписи , рекламу , цитируемый текст и строки ответа . ^[25] Дальнейший анализ текстового содержания электронной почты в задачах профилирования авторов включает извлечение тонаголоса, тональности , семантики и других лингвистических характеристик, подлежащих обработке.

Приложения [ править ]

Профилирование авторов имеет приложения в различных областях, где необходимо определить конкретные характеристики автора текста, что приобретает все большее значение в таких областях, как судебная экспертиза и маркетинг. ^[26] В зависимости от применения задача профилирования авторов может варьироваться с точки зрения идентифицируемых характеристик, количества изученных авторов и количества текстов, доступных для анализа.

Хотя его приложения традиционно ограничивались письменными текстами, такими как литературные произведения, с развитием компьютеров и Интернета это распространилось на онлайн-тексты.

Судебная лингвистика [ править ]

В контексте судебной лингвистики профилирование авторов используется для определения характеристик автора анонимного, псевдонимного или поддельного текста на основе использования автором языка. С помощью лингвистического анализа судебные лингвисты стремятся определить мотивацию и идеологию подозреваемого, а также другие классовые особенности, такие как этническая принадлежность или профессия подозреваемого. Хотя это не всегда приводит к окончательной идентификации автора, такая информация может помочь правоохранительным органам сузить круг подозреваемых. ^[27]

В большинстве случаев профилирование авторов в контексте судебной лингвистики включает единственную текстовую проблему, в которой либо нет, либо мало доступных сравнительных текстов, а также отсутствуют внешние свидетельства, указывающие на автора. ^[28] Примеры текста, проанализированного судебными лингвистами, включают письма с шантажом , признания , завещания , письма о самоубийстве и плагиат . ^[29] Это также распространилось на онлайн-тексты, такие как онлайн-чаты откровенно сексуального характера между мужчинами среднего возраста и несовершеннолетними девушками ^[28], с увеличением числа киберпреступлений, совершаемых в Интернете. ^[30]

Один из самых ранних и наиболее известных примеров использования профилирования авторов - это Роджер Шуй , которого попросили изучить записку о выкупе, связанную с печально известным делом о похищении людей в 1979 году. На основе своего анализа идиолекта похитителя Шай смог понять определить ключевые элементы личности похитителя по его орфографическим ошибкам и диалектному пункту, то есть похититель был хорошо образован и из Акрона, штат Огайо . ^[31] Это в конечном итоге привело к успешному аресту и признанию подозреваемого.

Тем не менее, есть критика в отношении того, что методам профилирования авторов не хватает объективности, поскольку эти методы зависят от субъективной идентификации критически важных социолингвистических маркеров судебным лингвистом . Эти методы, такие как методы, принятые литературным критиком Дональдом Уэйном Фостером , считаются спекулятивными и полностью основаны на субъективном опыте и поэтому не могут быть проверены эмпирически . ^[32]

Обнаружение ботов [ править ]

Профилирование авторов используется при идентификации социальных ботов, наиболее распространенными из которых являются боты Twitter . Социальные боты считаются угрозой, учитывая их коммерческое, политическое и идеологическое влияние, как, например, президентские выборы в США в 2016 году , в ходе которых они поляризовали политические разговоры и распространяли дезинформацию и непроверенную информацию. В контексте маркетинга социальные боты могут искусственно завышать популярность продукта, публикуя положительные отзывы, и негативными отзывами подрывать репутацию конкурентных продуктов. ^[33] Таким образом, обнаружение ботов с точки зрения профилирования авторов является очень важной задачей. ^[33]^[34]

Созданные так, чтобы они выглядели как человеческие учетные записи, ботов можно в основном идентифицировать по информации в их профилях, такой как имя пользователя, фото профиля и время публикации. ^[34] Однако задача идентификации ботов исключительно по текстовым данным (т. Е. Без метаданных) является значительно более сложной задачей, требующей методов профилирования авторов. ^[34] Обычно это включает задачу классификации, основанную на семантических и синтаксических характеристиках. ^[35]^[36]

Задача бота и гендерного профилирования была одной из четырех общих задач, организованных PAN, которая в своей редакции 2019 года организует серию научных мероприятий и общих задач судебной экспертизы цифрового текста и стилометрии. ^[33] Участвующие команды добились большого успеха, с лучшими результатами по обнаружению ботов для английских и испанских твитов - 95,95% и 93,33% соответственно. ^[35]

Маркетинг [ править ]

Профилирование авторов также полезно с точки зрения маркетинга, поскольку позволяет предприятиям определять демографические данные людей, которым нравятся или не нравятся их продукты, на основе анализа блогов, онлайн-обзоров продуктов и контента социальных сетей. ^[26] Это важно, поскольку большинство людей публикуют отзывы о товарах анонимно. Методы профилирования авторов помогают бизнес-экспертам принимать более обоснованные стратегические решения на основе демографических характеристик своей целевой группы. ^[37] Кроме того, компании могут нацеливать свои маркетинговые кампании на группы потребителей, которые соответствуют демографическим характеристикам и профилю текущих клиентов. ^[38]

Литературные произведения [ править ]

Распятие, Розарий и Библия с апокрифом NRSV

Методы профилирования авторов используются для изучения традиционных средств массовой информации и литературы для определения стиля письма различных авторов, а также их письменных тем содержания. Профилирование авторов по литературе также проводится для выявления социальных сетей авторов и их литературного влияния на основе их библиографических записей о соавторстве.

Некоторые примеры профильных исследований авторов по литературе и традиционным СМИ включают исследования по следующим темам: ^[39]^[40]

Библия
Евангелиях о Новом Завете
Произведения Шекспира ^[41]
Записки федералиста 1990-х и 1960-х годов
Профилирование авторов литовских литературных текстов ^[40]

Каталогизация библиотеки [ править ]

Еще одно применение профилирования авторов - разработка стратегий каталогизации библиотечных ресурсов на основе стандартных атрибутов. ^[42] При таком подходе методы профилирования авторов могут повысить эффективность библиотечной каталогизации, при которой библиотечные ресурсы автоматически классифицируются на основе библиографических записей авторов . Это было серьезной проблемой в начале 21 века, когда большая часть библиотечной каталогизации все еще выполнялась вручную.

Используя профилирование авторов для каталогизации библиотеки, исследователи использовали машинное обучение для автоматических процессов в библиотеке, таких как опорные векторные машинные алгоритмы (SVM). С использованием SVM для профилирования авторов библиографические записи авторов в существующих базах данных могут быть идентифицированы, отслежены и обновлены для идентификации автора на основе его тематики литературного содержания и опыта, как указано в его или ее библиографических записях. В этом случае при профилировании авторов используются социальные структуры авторов, которые могут быть получены из физических копий опубликованных носителей в каталог библиотечных ресурсов. ^[42]

В популярной культуре [ править ]

Профилирование авторов широко используется в массовой культуре. Мини-сериал Discovery Channel 2017 года Manhunt: Unabomber - это вымышленный отчет о расследовании ФБР вокруг Унабомбера . В нем есть криминальный специалист, который определяет определяющие характеристики личности Унабомбера на основе его анализа идиолекта Унабомбера в его опубликованном манифесте и письмах. Шоу подчеркнуло важность профилирования авторов в криминалистической криминалистике, поскольку это имело решающее значение при поимке настоящего виновника Унабомбера в 1996 году ^[43].

См. Также [ править ]

Связанные темы

Компьютерная лингвистика
Судебная лингвистика
Идентификация на родном языке
Социальный бот
Стилометрия

Ссылки [ править ]

^ Вигмана, М., Штейн, Б. & Potthast, М. (2019). « Обзор задачи по профилированию знаменитостей на PAN 2019 ». CLEF .
^ Микрос, ГК, и Perifanos, К. (2013). « Авторство атрибуция в греческих твитах с использованием профилей многоуровневой энграмм автора. » 2013 AAAI Spring Symposium Series.
^ Коппел, М., Argamon, С., & Шимони, AR (2013). « Автоматическая категоризация письменных текстов по полу автора ». Литературные и лингвистические вычисления, 17 , стр. 401–412.
^ Б с д е е Lopez-Монроя, AP, Монтес-у-Гомес, М., Эскаланте, HJ, Villaseñor-Пинеда, L. & Stamatatos, E. (2015). «Дискриминационные представления о субпрофилях для профилирования авторов в социальных сетях». В: Системы, основанные на знаниях, 89, 134 - 147.
^ a b Лундеквист, Э. и Свенссон, М. (2017). «Профилирование авторов: подход машинного обучения для определения пола, возраста и родного языка пользователей в социальных сетях». В кн .: Кафедра информационных технологий.
^ Франко-Сальвадор, М., Плотникова, Н., Павар, Н., & Benajiba, Y. (2017). «Сети глубокого усреднения на основе подслов для профилирования авторов в социальных сетях». КЛЕФ .
^ Курита, К. (2018). «Анализ статьи: глубокая неупорядоченная композиция соперничает с синтаксическими методами классификации текста». Объяснение машинного обучения.
^ а б в Бси, Б. и Зригуи, М. (2018). «Методы глубокого обучения для профилирования авторов в контенте социальных сетей». В: 31-я конференция IBIMA.
^ a b Билан И. и Жекова Д. (2016). «CAPS: кросс-жанровая система профилирования авторов». КЛЮЧ.
^ Schler J., Коппел, М., Argamon, С., & Пеннбейкер, JW (2005). «Влияние возраста и пола на ведение блога». Весенний симпозиум AAAI: вычислительные подходы к анализу веб-журналов.
^ a b Рангель, Ф., и Руссо, П. (2019). « Обзор 7 - го автора профилирования задания на ПАНЫХ 2019: Боты и гендерное профилирование в Twitter. » Ключи.
^ a b Россо, П., Ранжел, Ф., Фариас, И. Х., Каньина, Л., Загуани, В., и Чарфи, А. (2018). « Обследование автора профилирования, обман и обнаружение иронии арабского языка. » Язык и лингвистика компас, 12 (4).
^ a b Гомес-Адорно, Х., Марков, И., Сидоров, Г., Посадас-Дуран, Ж.-П., Санчес-Перес, Массачусетс, и Чанона-Эрнандес, Л. (2016). «Улучшение представления функций на основе нейронной сети для профилирования авторов в текстах социальных сетей» . В: Вычислительный интеллект и нейробиология , стр. 1–13.
^ Dam, JWV, и Фельден, MVD (2015). «Онлайн-профилирование и кластеризация пользователей Facebook» . В: Системы поддержки принятия решений, 70 , 60–72.
^ a b c Hsieh, FC, Sandroni, RF, & Paraboni, I. (2018). « Профилирование авторов из Корпорации Facebook ». LREC.
^ a b Фатима, М., Хасан, К., Анвар, С., и Наваб, RMA (2017). «Многоязычное профилирование авторов на Facebook» . В: Обработка информации и управление, 53 (4) , 886–904.
Перейти ↑ Rangel, F., & Rosso, P. (2013). « Использование языка и профилирование авторов: определение пола и возраста ».
^ a b c Чжан, В., Кейнс, А., Аликаниотис, Д., и Баттери, П. (2015). «Прогнозирование возраста автора на основе сообщений в микроблоге Weibo». LREC.
^ а б Чен, Л., Цянь, Т., Ван, Ф., Ю, З., Пэн, К., и Чжун, М. (2015). « Определение возраста для китайских пользователей в Weibo ». WAIM 2015, LNCS 9098 , 83–95.
Перейти ↑ Lin, J. (2007). « Автоматическое профилирование авторов журналов онлайн-чата »
^ Bengel J., Gauch С., Mittur Е., Виджайарагхаван R. (2004) ChatTrack: " Chat Room Тема Detection Использование классификации ." В: Чен Х., Мур Р., Цзэн Д.Д., Ливитт Дж. (Ред.) Разведка и информатика безопасности. ISI 2004. Lecture Notes in Computer Science, 3073. Springer, Berlin, Heidelberg.
^ a b c Фам, Д. Д., Тран, Великобритания, и Фам, С. Б. (2009). Профилирование авторов для вьетнамских блогов. 2009 Международная конференция по обработке азиатских языков, 190–194.
^ Сантош, К., Bansal, Р., Шекхар, М. & Варма, В. (2013). Профилирование авторов: прогнозирование возраста и пола из блокнота блогов для PAN на CLEF 2013. CLEF.
Перейти ↑ Rangel, F. & Rosso, P. (2013). Профилирование использования языка и авторов: определение пола и возраста. Обработка естественного языка и когнитивная наука, 2013 г.
^ a b c Эстиваль, Д., Гаустад, Т., Фам, С.Б., Рэдфорд, В., и Хатчинсон, Б. (2007). Профиль авторов английских писем .
^ a b Профилирование авторов 2018 . (nd).
Перейти ↑ Foster, D. (2000). Автор неизвестен: По следам анонима . Генри Холт и компания
^ a b Грант, TD (2008). « Подходящие вопросы в судебно-медицинской экспертизе авторства ». В Gibbons, J. & Turell, MT (Eds.). Измерения судебной лингвистики. Джон Бенджаминс.
^ Котце, EF (2010). « Идентификация автора с противоположных точек зрения в судебной лингвистике ». Южноафриканская лингвистика и прикладные языковые исследования . 28 (2). 185–197
^ Янг, М. и Чоу, КП (2014) « Указание авторства для судебных расследований с тысячами авторов ». В: Cuppens-Boulahia N., Cuppens F., Jajodia S., Abou El Kalam A., Sans T. (eds) Безопасность систем ИКТ и защита конфиденциальности. SEC 2014. Достижения ИФИП в области информационных и коммуникационных технологий , том 428. Шпрингер, Берлин, Гейдельберг.
^ Леонард, РА (2005). « Применение научных принципов языкового анализа к вопросам права ». Международный гуманитарный журнал. 3. 1–9
^ Часки, CE (2001). « Эмпирические оценки языковых методов идентификации авторов ». Судебная лингвистика , 8, 1-65.
^ a b c « Боты и гендерное профилирование 2019 ». (nd).
^ a b c Губен, Режис и Лефевр, Дориан и Альхамзех, Алаа и Митрович, Елена и Эгид-Зигмонд, Элу и Фосси, Леопольд. (2019). « Боты и гендерное профилирование с использованием блокнота многоуровневой архитектуры для PAN на CLEF 2019 ».
^ a b Daelemans W. et al. (2019) « Обзор PAN 2019: боты и гендерное профилирование, профилирование знаменитостей, междоменная атрибуция авторства и обнаружение изменения стиля ». В: Crestani F. et al. (eds) Экспериментальный IR встречает многоязычность, мультимодальность и взаимодействие. CLEF 2019. Lecture Notes in Computer Science , vol 11696. Springer, Cham.
↑ Ковач, Г., Балог, В., Мехта, П., Шридхар, К., Алонсо, П., и Ливицки, М. (2019). « Профилирование авторов с использованием семантических и синтаксических функций: Блокнот для PAN на CLEF 2019 ».
^ Рагхунадха Редди Т., Лакшминараяна М., Вишну Вардхан Б., Сай Прасад К., Амарнатх Редди Э. (2019) « Новый подход к представлению документов для гендерного прогнозирования с использованием профилей авторов ». В: Бапи Р., Рао К., Прасад М. (ред.) Первая международная конференция по искусственному интеллекту и когнитивным вычислениям. Достижения в интеллектуальных системах и вычислениях , том 815. Спрингер, Сингапур
^ Махарджан, Сурадж & Шрест Prasha & Солорио, Тамары и Хасан, Рагиб. (2014). « Простой подход к профилированию авторов в MapReduce ». LNCS (LNAI).
^ Компания, JS, и Wanner, L. (2017). « О релевантности синтаксических и дискурсивных характеристик для профилирования и идентификации авторов ». Труды 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики , 2, 681–687.
^ а б Дзикиене. JK, Utka, A., & Šarkute, L. (2015). « Указание авторства и составление профилей авторов литовских литературных текстов », 96–105.
^ Леджер, Г. (1994). « Шекспир, Флетчер и два благородных родственника ». Литературные и лингвистические вычисления, 9 (3) , 235–247.
^ a b Номото, Т. (2009). « Классификация библиотечных каталогов по профилированию авторов ». В: Материалы 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска - SIGIR 09 .
^ Дэвис, Д. (2017, 22 августа). « Профайлер ФБР говорит, что лингвистическая работа сыграла решающую роль в поимке Унабомбера ».

[1] Вигмана, М., Штейн, Б. & Potthast, М. (2019). « Обзор задачи по профилированию знаменитостей на PAN 2019 ». CLEF .

[2] Микрос, ГК, и Perifanos, К. (2013). « Авторство атрибуция в греческих твитах с использованием профилей многоуровневой энграмм автора. » 2013 AAAI Spring Symposium Series.

[3] Коппел, М., Argamon, С., & Шимони, AR (2013). « Автоматическая категоризация письменных текстов по полу автора ». Литературные и лингвистические вычисления, 17 , стр. 401–412.

[doi.org-4] Б с д е е Lopez-Монроя, AP, Монтес-у-Гомес, М., Эскаланте, HJ, Villaseñor-Пинеда, L. & Stamatatos, E. (2015). «Дискриминационные представления о субпрофилях для профилирования авторов в социальных сетях». В: Системы, основанные на знаниях, 89, 134 - 147.

[pdfs.semanticscholar.org-5] Лундеквист, Э. и Свенссон, М. (2017). «Профилирование авторов: подход машинного обучения для определения пола, возраста и родного языка пользователей в социальных сетях». В кн .: Кафедра информационных технологий.

[6] Франко-Сальвадор, М., Плотникова, Н., Павар, Н., & Benajiba, Y. (2017). «Сети глубокого усреднения на основе подслов для профилирования авторов в социальных сетях». КЛЕФ .

[7] Курита, К. (2018). «Анализ статьи: глубокая неупорядоченная композиция соперничает с синтаксическими методами классификации текста». Объяснение машинного обучения.

[ibima.org-8] а б в Бси, Б. и Зригуи, М. (2018). «Методы глубокого обучения для профилирования авторов в контенте социальных сетей». В: 31-я конференция IBIMA.

[CAPS-9] Билан И. и Жекова Д. (2016). «CAPS: кросс-жанровая система профилирования авторов». КЛЮЧ.

[10] Schler J., Коппел, М., Argamon, С., & Пеннбейкер, JW (2005). «Влияние возраста и пола на ведение блога». Весенний симпозиум AAAI: вычислительные подходы к анализу веб-журналов.

[Rangel-11] Рангель, Ф., и Руссо, П. (2019). « Обзор 7 - го автора профилирования задания на ПАНЫХ 2019: Боты и гендерное профилирование в Twitter. » Ключи.

[Rosso-12] Россо, П., Ранжел, Ф., Фариас, И. Х., Каньина, Л., Загуани, В., и Чарфи, А. (2018). « Обследование автора профилирования, обман и обнаружение иронии арабского языка. » Язык и лингвистика компас, 12 (4).

[Gómez-Adorno-13] Гомес-Адорно, Х., Марков, И., Сидоров, Г., Посадас-Дуран, Ж.-П., Санчес-Перес, Массачусетс, и Чанона-Эрнандес, Л. (2016). «Улучшение представления функций на основе нейронной сети для профилирования авторов в текстах социальных сетей» . В: Вычислительный интеллект и нейробиология , стр. 1–13.

[14] Dam, JWV, и Фельден, MVD (2015). «Онлайн-профилирование и кластеризация пользователей Facebook» . В: Системы поддержки принятия решений, 70 , 60–72.

[Hsieh_et_al-15] Hsieh, FC, Sandroni, RF, & Paraboni, I. (2018). « Профилирование авторов из Корпорации Facebook ». LREC.

[Fatima_et_al-16] Фатима, М., Хасан, К., Анвар, С., и Наваб, RMA (2017). «Многоязычное профилирование авторов на Facebook» . В: Обработка информации и управление, 53 (4) , 886–904.

[Rangel_&_Rosso-17] Перейти ↑ Rangel, F., & Rosso, P. (2013). « Использование языка и профилирование авторов: определение пола и возраста ».

[Zhang-18] Чжан, В., Кейнс, А., Аликаниотис, Д., и Баттери, П. (2015). «Прогнозирование возраста автора на основе сообщений в микроблоге Weibo». LREC.

[Chen-19] а б Чен, Л., Цянь, Т., Ван, Ф., Ю, З., Пэн, К., и Чжун, М. (2015). « Определение возраста для китайских пользователей в Weibo ». WAIM 2015, LNCS 9098 , 83–95.

[20] Перейти ↑ Lin, J. (2007). « Автоматическое профилирование авторов журналов онлайн-чата »

[21] Bengel J., Gauch С., Mittur Е., Виджайарагхаван R. (2004) ChatTrack: " Chat Room Тема Detection Использование классификации ." В: Чен Х., Мур Р., Цзэн Д.Д., Ливитт Дж. (Ред.) Разведка и информатика безопасности. ISI 2004. Lecture Notes in Computer Science, 3073. Springer, Berlin, Heidelberg.

[ieeexplore.ieee.org.remotexs.ntu.edu.sg-22] Фам, Д. Д., Тран, Великобритания, и Фам, С. Б. (2009). Профилирование авторов для вьетнамских блогов. 2009 Международная конференция по обработке азиатских языков, 190–194.

[23] Сантош, К., Bansal, Р., Шекхар, М. & Варма, В. (2013). Профилирование авторов: прогнозирование возраста и пола из блокнота блогов для PAN на CLEF 2013. CLEF.

[24] Перейти ↑ Rangel, F. & Rosso, P. (2013). Профилирование использования языка и авторов: определение пола и возраста. Обработка естественного языка и когнитивная наука, 2013 г.

[Estival-25] Эстиваль, Д., Гаустад, Т., Фам, С.Б., Рэдфорд, В., и Хатчинсон, Б. (2007). Профиль авторов английских писем .

[pan.webis.de-26] Профилирование авторов 2018 . (nd).

[27] Перейти ↑ Foster, D. (2000). Автор неизвестен: По следам анонима . Генри Холт и компания

[Grant_2008-28] Грант, TD (2008). « Подходящие вопросы в судебно-медицинской экспертизе авторства ». В Gibbons, J. & Turell, MT (Eds.). Измерения судебной лингвистики. Джон Бенджаминс.

[29] Котце, EF (2010). « Идентификация автора с противоположных точек зрения в судебной лингвистике ». Южноафриканская лингвистика и прикладные языковые исследования . 28 (2). 185–197

[30] Янг, М. и Чоу, КП (2014) « Указание авторства для судебных расследований с тысячами авторов ». В: Cuppens-Boulahia N., Cuppens F., Jajodia S., Abou El Kalam A., Sans T. (eds) Безопасность систем ИКТ и защита конфиденциальности. SEC 2014. Достижения ИФИП в области информационных и коммуникационных технологий , том 428. Шпрингер, Берлин, Гейдельберг.

[31] Леонард, РА (2005). « Применение научных принципов языкового анализа к вопросам права ». Международный гуманитарный журнал. 3. 1–9

[32] Часки, CE (2001). « Эмпирические оценки языковых методов идентификации авторов ». Судебная лингвистика , 8, 1-65.

[Bots_and_Gender_Profiling_2019-33] « Боты и гендерное профилирование 2019 ». (nd).

[Goubin_et_al_Notebook-34] Губен, Режис и Лефевр, Дориан и Альхамзех, Алаа и Митрович, Елена и Эгид-Зигмонд, Элу и Фосси, Леопольд. (2019). « Боты и гендерное профилирование с использованием блокнота многоуровневой архитектуры для PAN на CLEF 2019 ».

[Daelmans_2019-35] Daelemans W. et al. (2019) « Обзор PAN 2019: боты и гендерное профилирование, профилирование знаменитостей, междоменная атрибуция авторства и обнаружение изменения стиля ». В: Crestani F. et al. (eds) Экспериментальный IR встречает многоязычность, мультимодальность и взаимодействие. CLEF 2019. Lecture Notes in Computer Science , vol 11696. Springer, Cham.

[36] Ковач, Г., Балог, В., Мехта, П., Шридхар, К., Алонсо, П., и Ливицки, М. (2019). « Профилирование авторов с использованием семантических и синтаксических функций: Блокнот для PAN на CLEF 2019 ».

[37] Рагхунадха Редди Т., Лакшминараяна М., Вишну Вардхан Б., Сай Прасад К., Амарнатх Редди Э. (2019) « Новый подход к представлению документов для гендерного прогнозирования с использованием профилей авторов ». В: Бапи Р., Рао К., Прасад М. (ред.) Первая международная конференция по искусственному интеллекту и когнитивным вычислениям. Достижения в интеллектуальных системах и вычислениях , том 815. Спрингер, Сингапур

[38] Махарджан, Сурадж & Шрест Prasha & Солорио, Тамары и Хасан, Рагиб. (2014). « Простой подход к профилированию авторов в MapReduce ». LNCS (LNAI).

[39] Компания, JS, и Wanner, L. (2017). « О релевантности синтаксических и дискурсивных характеристик для профилирования и идентификации авторов ». Труды 15-й конференции Европейского отделения Ассоциации компьютерной лингвистики , 2, 681–687.

[Dzikiene_et._al-40] а б Дзикиене. JK, Utka, A., & Šarkute, L. (2015). « Указание авторства и составление профилей авторов литовских литературных текстов », 96–105.

[41] Леджер, Г. (1994). « Шекспир, Флетчер и два благородных родственника ». Литературные и лингвистические вычисления, 9 (3) , 235–247.

[Nomoto-42] Номото, Т. (2009). « Классификация библиотечных каталогов по профилированию авторов ». В: Материалы 32-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска - SIGIR 09 .

[43] Дэвис, Д. (2017, 22 августа). « Профайлер ФБР говорит, что лингвистическая работа сыграла решающую роль в поимке Унабомбера ».

[1]