Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Стилометрия - это приложение изучения лингвистического стиля , обычно к письменному языку, но оно успешно применяется и к музыке [1], и к живописи [2] . [3] Другая концептуализация определяет его как лингвистическую дисциплину, которая оценивает стиль автора посредством применения статистического анализа к основной части их работ. [4]

Стилометрия часто используется для атрибутов авторства на анонимный или оспариваемые документы. [5] Он имеет юридическое, а также академическое и литературное применение, начиная от вопроса об авторстве произведений Шекспира и заканчивая судебной лингвистикой .

История [ править ]

Стилометрия выросла из более ранних методов анализа текстов на предмет аутентичности, идентичности автора и других вопросов.

Современная практика дисциплины получила известность благодаря исследованию проблем авторства в английской драматургии эпохи Возрождения. Исследователи и читатели заметили, что у некоторых драматургов той эпохи были отличительные модели языковых предпочтений, и попытались использовать эти модели для определения авторов сомнительных или совместных работ. Ранние попытки не всегда были успешными: в 1901 году один исследователь попытался использовать предпочтение Джона Флетчера «⁠ ⁠'em», сокращающейся формы «они», в качестве маркера, чтобы различать Флетчера и Филиппа Массинджера в их сотрудничестве - но он по ошибке использовал издание работ Массинджера, в котором редактор расширил все экземпляры «⁠'em» на «они». [6]

Основы стилометрии были заложены польским философом Винцентием Лютославским в « Принципах стилометрии» (1890). Лютославский использовал этот метод для построения хронологии диалогов Платона . [7]

Развитие компьютеров и их способности анализировать большие объемы данных увеличили этот вид усилий на порядки. Однако большие возможности компьютеров для анализа данных не гарантируют хорошего качества продукции. В начале 1960-х годов преподобный А.К. Мортон провел компьютерный анализ четырнадцати посланий Нового Завета, приписываемых апостолу Павлу, который показал, что эти работы написали шесть разных авторов. Проверка его метода, примененного к работам Джеймса Джойса , дала результат: « Улисс» , многоперспективный, многостиловый роман Джойса, был составлен пятью отдельными людьми, ни один из которых, очевидно, не принимал участия в создании первого романа Джойса. роман " Портрет художника в юности" . [8]

Однако со временем и с практикой исследователи и ученые усовершенствовали свои методы, чтобы добиться лучших результатов. Одним из заметных ранних успехов было разрешение спорного авторства двенадцати Федералистских документов Фредериком Мостеллером и Дэвидом Уоллесом. [9] Хотя вопросы относительно исходных предположений и методов все еще остаются (и, возможно, всегда будут), немногие сейчас оспаривают основную предпосылку, что лингвистический анализ письменных текстов может дать ценную информацию и понимание. (Действительно, это было очевидно даже до появления компьютеров: успешное применение текстуального / лингвистического анализа к канону Флетчера Сайрусом Хоем и другими дало четкие результаты в конце 1950-х - начале 1960-х годов.)

Приложения [ править ]

Применения стилометрии включают литературные исследования, исторические исследования, социальные исследования, а также многие судебно-медицинские исследования. [10] [11] Его также можно применить к компьютерному коду [12] и к внутреннему обнаружению плагиата , то есть к обнаружению плагиата на основе изменений стиля письма в документе. [13] Стилометрию также можно использовать для определения того, является ли человек носителем английского языка или нет, по скорости набора текста . [14]

Стилометрия как метод уязвима для искажения текста при редактировании. [15] Существует также случай, когда автор перенимает разные стили в ходе своей карьеры, как это было продемонстрировано в случае Платона , который выбрал разные стилистические политики, такие как те, которые были приняты для ранних и средних диалогов, посвященных проблеме Сократа. [16]

Текущее исследование [ править ]

Современная стилометрия использует компьютеры для статистического анализа , а также искусственный интеллект и доступ к растущему корпусу текстов, доступных через Интернет . [17] Программные системы, такие как Signature [18] (бесплатное программное обеспечение, разработанное доктором Питером Милликаном из Оксфордского университета), JGAAP [19] (программа графической атрибуции авторства Java - бесплатное программное обеспечение, разработанное доктором Патриком Джуолой из Университета Дюкен), stylo [20] [21] (пакет R с открытым исходным кодом для различных стилометрических анализов, включая указание авторства, разработанный Maciej Eder ,Jan Rybicki и Mike Kestemont ) и Stylene [22] для голландского языка (бесплатное онлайн-программное обеспечение, разработанное профессором Вальтером Дэлемансом из Университета Антверпена и доктором Вероник Хосте из Университета Гента) делают его использование все более практичным даже для неспециалистов.

Академические места и мероприятия [ править ]

Стилометрические методы используются для нескольких академических тем, в основном в качестве дополнения, например, с машинным обучением, обработкой естественного языка и лексикографией.

Судебная лингвистика [ править ]

Международная ассоциация судебных лингвистов (IAFL) организует двухгодичную конференцию Международной ассоциации судебных лингвистов (13 - е издания в 2016 году в Порте ) и публикует Международный журнал речь, языка и закон с судебно - стилистикой в качестве одной из центральных тем.

AAAI [ править ]

Ассоциация по улучшению искусственного интеллекта (AAAI) провела несколько мероприятий по субъективному и стилистическому анализу текста. [23] [24] [25]

PAN [ править ]

Семинары PAN (первоначально анализ плагиата, идентификация авторства и обнаружение почти дубликатов, позже - более общий семинар по выявлению плагиата, авторства и неправомерного использования социального программного обеспечения), организованные с 2007 года в основном в связи с конференциями по доступу к информации, такими как ACM SIGIR , FIRE и КЛЕФ . PAN формулирует общие задачи для обнаружения плагиата, [26] идентификации автора [27], гендерной идентификации автора, [28] профилирования авторов , [29] обнаружения вандализма, [30] и других связанных задач анализа текста, многие из которых зависят от стилометрии. .

Интересные примеры из практики [ править ]

  • В 1439 году Лоренцо Валла показал, что дар Константина был подделкой , аргумент, частично основанный на сравнении латинского языка с тем, что использовалось в подлинных документах 4-го века.
  • В 1952 году шведский священник Дик Хеландер был избран епископом Стренгнеса . Кампания была конкурентной, и Хеландера обвинили в написании серии сотен с лишним анонимных писем с клеветой на других кандидатов электорату епископства Стренгнес. Хеландер был сначала осужден за написание писем и потерял свою должность епископа, но позже был частично реабилитирован. Письма были изучены с использованием ряда стилометрических мер (а также характеристик пишущей машинки), а также различных судебных дел и дальнейших экспертиз, многие из которых были заключены с самим Хеландером в течение лет до его смерти в 1978 году, в которых довольно подробно обсуждался стилометрический метод и его ценность в качестве доказательства. . [31] [32]
  • В 1975 году, после того как Рональд Рейган стал губернатором Калифорнии, он начал давать еженедельные радиокомментарии, транслируемые сотням станций. После того, как его личные записи были обнародованы в день его 90-летия в 2001 году, в исследовании использовались стилостатистические методы, чтобы определить, какие из этих выступлений были написаны им, а какие - разными помощниками. [33]
  • В 1996 году стилометрический анализ противоречивой книги, написанной псевдонимом « Основные цвета» , выполненный профессором колледжа Вассар Дональдом Фостером [34], привлек к этой теме внимание широкой аудитории после того, как правильно идентифицировал автора как Джо Кляйна . (Этот случай разрешился только после того, как анализ почерка подтвердил авторство.)
  • В 1996 году стилометрические методы были использованы для сравнения манифеста Унабомбера с письмами, написанными одним из подозреваемых, Теодором Качиньским, своему брату, что привело к задержанию и последующему осуждению Теодора. [35]
  • В апреле 2015 года исследователи, использующие методы стилометрии, определили пьесу « Двойная ложь» как произведение Уильяма Шекспира . [36] Исследователи проанализировали 54 пьесы Шекспира и Джона Флетчера и сравнили среднюю длину предложения, изучили использование необычных слов и количественно оценили сложность и психологическую значимость их языка.
  • В 2016 году Макдональд П. Джексон, почетный профессор английского языка в Оклендском университете , Новая Зеландия и член Королевского общества Новой Зеландии , который всю свою академическую карьеру посвятил анализу атрибуции авторства, написал книгу под названием « Кто написал» Ночь перед Рождеством »?: Анализируя отношения Клемента Кларка Мура против Вопрос Генри Ливингстона [20], в котором он оценивает противоположные аргументы и впервые использует методы авторской атрибуции современной компьютерной стилистики для изучения давних противоречий. Джексон использует ряд тестов и вводит новый - статистический анализ фонем; он заключает, что Ливингстон является истинным автором классической работы.
  • В 2017 году Саймон Фуллер и Джеймс О'Салливан опубликовали исследование, в котором утверждалось, что автор бестселлеров Джеймс Паттерсон ничего не пишет в своих, очевидно, в соавторстве романах. [37] [38] [39] По словам О'Салливан, его сотрудничества с бывшим президентом США Биллом Клинтоном , Президент Отсутствующий , является исключением из этого правила. [40]
  • В 2017 году группа лингвистов, компьютерщиков и ученых проанализировала авторство Елены Ферранте . Основываясь на корпусе, созданном в Падуанском университете, содержащем 150 романов, написанных 40 авторами, они проанализировали стиль Ферранте на основе семи ее романов. Они смогли сравнить ее стиль письма с 39 другими писателями, используя, например, стилус. [20] Вывод был одинаков для всех: Доменико Старноне - тайный автор Елены Ферранте. [41]
  • В 2018 году, Марк Гликман , старший преподаватель кафедры статистики в Гарвардском университете, работал с Райаном песни, бывший студент статистики в Гарварде, и Джейсон Браун, профессор в Университете Далхаузи в Новой Шотландии, применяя стилометрия , чтобы обнаружить , что, скорее всего, Песня Битлз " In My Life " была написана Джоном Ленноном, но с вероятностью 50% Пол Маккартни написал среднюю восьмерку . [42]
  • В 2019 году в рамках проекта ETSO: Стилометрия применительно к Театру Золотого века Испании под руководством Альваро Куэльяра Гонсалеса и Хермана Вега Гарсия-Луенгос (Университет Вальядолида) было собрано более 1200 пьес, посвященных Золотому веку Испании. После применения стилометрического анализа было подтверждено приписывание Mujeres y criados к Лопе де Вега [43] [44] , и проблема авторства была обнаружена в пьесе La monja alférez , пьесе, приписываемой Пересу де Монтальбану, которая благодаря этому анализу и через историко-филологические исследования, в конечном итоге были приписаны Хуану Руису де Аларкону . [45] [46] [47] [48]
  • В 2020 году Рэйчел Маккарти и Джеймс О'Салливан утверждали, что Эмили Бронте является истинным автором книги « Грозовой перевал» , положив конец предположениям некоторых критиков о том, что роман мог быть написан одним из ее братьев и сестер, в частности, Бранвеллом или Шарлоттой . [49]

Данные и методы [ править ]

Поскольку у стилометрии есть как описательные варианты использования, используемые для характеристики содержимого коллекции, так и идентифицирующие варианты использования, например, идентификация авторов или категорий текстов, методы, используемые для анализа данных и функций выше, варьируются от методов, созданных для классификации элементов в наборы или для распределения элементов в пространстве вариации функций. Большинство методов являются статистическими по своей природе, например кластерный анализ и дискриминантный анализ , обычно основаны на филологических данных и функциях и являются полезной областью применения современных методов машинного обучения .

В то время как в прошлом стилометрия подчеркивала самые редкие или наиболее яркие элементы текста, современные методы позволяют выделить идентифицирующие шаблоны даже в общих частях речи. Большинство систем основано на лексической статистике, то есть на использовании частотности слов и терминов в тексте для характеристики текста (или его автора). В этом контексте, в отличие от поиска информации , наблюдаемые образцы встречаемости наиболее употребительных слов более интересны, чем актуальные термины, которые встречаются реже. [50] [51]

Первичный стилометрический метод - это инвариант писателя : свойство, общее для всех текстов или, по крайней мере, для всех текстов, достаточно длинных, чтобы допустить анализ, дающий статистически значимые результаты, написанные данным автором. Примером инварианта писателя является частота функциональных слов, используемых автором.

В одном из таких методов текст анализируется, чтобы найти 50 наиболее употребительных слов. Затем текст делится на блоки по 5000 слов, и каждый из блоков анализируется, чтобы определить частоту встречаемости этих 50 слов в этом блоке. Это создает уникальный идентификатор из 50 номеров для каждого фрагмента. Эти числа помещают каждый кусок текста в точку в 50-мерном пространстве. Это 50-мерное пространство выровнено в плоскость с помощью анализа главных компонентов (PCA). В результате отображаются точки, соответствующие авторскому стилю. Если два литературных произведения помещены в одну плоскость, в результирующем шаблоне может быть показано, принадлежат ли оба произведения одному или разным авторам.

1. Гауссовская статистика [ править ]

Стилометрические данные распределяются по закону Ципфа-Мандельброта . Распределение чрезвычайно шипастое и лептокуртичное , поэтому исследователи не могли использовать статистику для решения, например, проблем с установлением авторства. Тем не менее, использование гауссовой статистики вполне возможно при применении преобразования данных . [52]

2. Нейронные сети [ править ]

Нейронные сети , частный случай методов статистического машинного обучения, использовались для анализа авторства текстов. Тексты с бесспорным авторством используются для обучения нейронной сети с помощью таких процессов, как обратное распространение ошибки, так что ошибка обучения вычисляется и используется для обновления процесса для повышения точности. Посредством процесса, похожего на нелинейную регрессию, сеть получает возможность обобщать свою способность распознавания на новые тексты, с которыми она еще не сталкивалась, классифицируя их с установленной степенью уверенности. Такие методы были применены к давним заявлениям о сотрудничестве Шекспира с его современниками Флетчером и Кристофером Марлоу , [53] [54] и подтвердил мнение, основанное на более традиционных исследованиях, о том, что такое сотрудничество действительно имело место.

Исследование 1999 года показало, что программа нейронной сети достигла 70% точности в определении авторства стихотворений, которые она еще не анализировала. В этом исследовании Vrije Universiteit изучалась идентификация стихов трех голландских авторов с использованием только буквенных последовательностей, таких как «логово». [55]

В исследовании использовались сети глубокого убеждения (DBN) для модели проверки авторства, применимой для непрерывной аутентификации (CA). [56]

Одна из проблем с этим методом анализа состоит в том, что сеть может стать предвзятой на основе ее обучающего набора, возможно, чаще выбирая авторов, которых сеть анализировала. [55]

3. Генетические алгоритмы [ править ]

Генетический алгоритм является другой метод машинного обучения используется для стилометрия. Это включает метод, который начинается с набора правил. Примером правила может быть: «Если но встречается более 1,7 раз на каждую тысячу слов, значит, текст является автором X». Программа представлена ​​с текстом и использует правила для определения авторства. Правила проверяются по набору известных текстов, и каждому правилу присваивается оценка пригодности. 50 правил с наименьшими оценками не используются. В оставшиеся 50 правил внесены небольшие изменения и введено 50 новых правил. Это повторяется до тех пор, пока разработанные правила не приписывают тексты правильно.

4. Редкие пары [ править ]

Один из методов определения стиля называется «редкие пары» и основан на индивидуальных привычках сочетания слов . Использование определенных слов для конкретного автора может быть идиосинкратически связано с использованием других, предсказуемых слов.

Указание авторства в обмене мгновенными сообщениями [ править ]

Распространение Интернета сместило внимание атрибуции авторства к онлайн-текстам (веб-страницы, блоги и т. Д.), Электронным сообщениям (электронным письмам, твитам, сообщениям и т. Д.) И другим типам письменной информации, которая намного короче, чем средняя книга, гораздо менее формальная и более разнообразная с точки зрения выразительных элементов, таких как цвета , макет , шрифты , графика , смайлики и т. д. Об усилиях по учету таких аспектов на уровне как структуры, так и синтаксиса сообщалось в [57]. Кроме того, были введены специфические для содержания и идиосинкразические подсказки (например, тематические модели и инструменты проверки грамматики), чтобы выявить преднамеренный стилистический выбор. [58]

Стандартное stylometric функция была использована для классификации содержимого чата с помощью обмена мгновенных сообщений , [59] или поведение участников, [60] , но попытка идентификации участников чата по - прежнему мало , и рано. Кроме того, игнорировалось сходство между разговорами и взаимодействиями в чате, но это основное различие между данными чата и любым другим типом письменной информации.

См. Также [ править ]

  • Лингвистика и Книга Мормона, Стилометрия (Исследования Wordprint)
  • Моше Коппель
  • Напечатать

Заметки [ править ]

  1. Весткотт, Ричард (15 июня 2006 г.). «Превратить хитовую музыку в науку» . BBC News .
  2. ^ "Интернет-архив Wayback Machine" . 2006-06-30. Архивировано из оригинала на 30 июня 2006 года . Проверено 15 октября 2012 . Cite использует общий заголовок ( справка )
  3. ^ Argamon, Шломо , Кевин Бернс, и Шломо Дубнов , ред. Структура стиля: алгоритмические подходы к пониманию образа и смысла. Springer Science & Business Media, 2010.
  4. ^ Ян, Кристофер С .; Чен, Синьчунь; Чау, Майкл; Чанг, Куйю; Ланг, Шо-Донг; Чен, Патрик; Карли, Кэтлин М .; Се, Раймонд; Цзэн, Даниэль (2008). Разведка и информатика безопасности: Международные семинары IEEE ISI 2008: PAISI, PACCF и SOCO 2008, Тайбэй, Тайвань, 17 июня 2008 г., Материалы . Берлин: Springer Science & Business Media. п. 252. ISBN. 9783540691365.
  5. ^ Чен, Синьчунь; Ян, Кристофер С .; Чау, Майкл; Ли, Шу-Син (2009). Разведка и информатика безопасности: Семинар в Азиатско-Тихоокеанском регионе, PAISI 2009, Бангкок, Таиланд, 27 апреля 2009 г. Протоколы . Берлин: Springer Science & Business Media. п. 15. ISBN 9783642013928.
  6. ^ Сэмюэл Шенбаум , Внутренние свидетельства и драматическое авторство елизаветинской эпохи; очерк по истории и методике литературы, с. 171.
  7. Перейти ↑ Lutoslawski, W. (1898). "Principes de stylométrie appliqués à la chronologie des œuvres de Platon". Revue des Études Grecques . 11 (41): 61–81. DOI : 10.3406 / reg.1898.5847 . ISSN 0035-2039 . 
  8. ^ Сэмюэл Шенбаум , Внутренние свидетельства и драматическое авторство елизаветинской эпохи; очерк по истории и методике литературы, с. 196.
  9. ^ Ф. Мостеллер и Д. Уоллес (1964). Заключение и спорное авторство: Федералист . Ридинг, Массачусетс : Эддисон-Уэсли .
  10. ^ Часки, Кэрол (2012). Солан, Лоуренс М; Тиерсма, Питер М. (ред.). Идентификация автора в криминалистической среде . Оксфордский справочник по языку и праву . Издательство Оксфордского университета. DOI : 10.1093 / oxfordhb / 9780199572120.001.0001 . ISBN 9780199572120.
  11. ^ Часки, Кароль (22 декабря 2005). Wecht, Cyril H .; Раго, Джон Т. (ред.). Судебная медицина и право: применение расследований в уголовном, гражданском и семейном правосудии . CRC Press. ISBN 978-1-4200-5811-6.
  12. ^ Claburn, Томас (16 марта 2018). «К вашему сведению: инструменты AI могут разоблачать анонимных кодеров из их двоичных исполняемых файлов» . Реестр . Проверено 2 августа 2018 года .
  13. ^ Бенсалем, Имене; Россо, Паоло; Чихи, Салим (2019). «Об использовании символьных n-граммов как единственного внутреннего доказательства плагиата». Языковые ресурсы и оценка . 53 (3): 363–396. DOI : 10.1007 / s10579-019-09444-ш . hdl : 10251/159151 . S2CID 86630897 . 
  14. ^ Brizan, Дэвид (октябрь 2015). «Использование лингвистически улучшенной динамики нажатия клавиш для прогнозирования познания и демографии машинистки». Международный журнал человеко-компьютерных исследований . 82 : 57–68. DOI : 10.1016 / j.ijhcs.2015.04.005 .
  15. ^ Аликан, Неджип Фикри (2012). Переосмысление Платона: картезианские поиски настоящего Платона . Амстердам: Родопи. п. 183. ISBN. 9789042035379.
  16. ^ Роу, Кристофер (2000). Кембриджская история греческой и римской политической мысли . Кембридж, Великобритания: Издательство Кембриджского университета. п. 160. ISBN 0521481368.
  17. ^ Argamon, Шломо , Юсси Karlgren , и Джеймс Г. Shanahan . Стилистический анализ текста для доступа к информации. Материалы семинара, проведенного в связи с 28-й Ежегодной Международной конференцией ACM по исследованиям и разработкам в области информационного поиска, 13–19 августа 2005 г., Сальвадор, Баия, Бразилия. Шведский институт информатики, 2005 г.
  18. ^ "Фирменная стилометрическая система" . PhiloComp . Проверено 3 января 2014 .
  19. ^ "JGAAP" . JGAAP. 2012-09-04 . Проверено 15 октября 2012 .
  20. ^ a b "Стило для пакета R" . Группа вычислительной стилистики. 2014-10-24 . Проверено 24 октября 2014 .
  21. ^ Эдер, Мацей; Рыбицки, Ян; Кестемонт, Майк (2016). «Стилометрия с R: пакет для компьютерного анализа текста» (PDF) . R Journal . 8 (1): 107–121. DOI : 10.32614 / RJ-2016-007 .
  22. ^ Daelemans, Вальтер и Хост, Вероники (2013). СТИЛЕН: среда для исследования стилометрии и читабельности для голландцев (Технический отчет). Серия технических отчетов CLiPS. ISSN 2033-3544 . 
  23. ^ Ян Цюй , Джеймс Shanahan и Janyce Вибе . «Изучение отношения и влияния в тексте: теории и приложения». Технический отчет весеннего симпозиума AAAI SS-04-07. AAAI Press, Менло-Парк, Калифорния. 2004 г.
  24. ^ Юсси Karlgren , Бьорн Gambäck и Пентти Канерва . «Приобретение (и использование) языковых (и мировых) знаний для доступа к информации». (2002). Весенний симпозиум AAAI. Технический отчет SS-02-09. AAAI Press, Менло-Парк, Калифорния. 2002 г.
  25. ^ Шломо Argamon , Шломо Дубнов , и Джули Юпп . «Стиль и смысл в языке, искусстве, музыке и дизайне» (2004 г.). Осенний симпозиум AAAI. Технический отчет ФС-04-07.
  26. ^ Potthast, Мартин, Бен Stein, Альберто Баррон Седеий и Паоло Rosso. «Система оценки для обнаружения плагиата». В материалах 23-й международной конференции по компьютерной лингвистике: плакаты, стр. 997–1005. Ассоциация компьютерной лингвистики, 2010.
  27. ^ Stamatatos, Efstathios, Уолтер Даелманс, Бен Верховен, Патрик Джуол, Аурелио Лопес Лопес, Мартин Potthast и Бен Stein. «Обзор задачи идентификации автора на PAN 2014». В CLEF (Рабочие заметки), стр. 877–897. 2014 г.
  28. ^ Ранжел, Франциско, Паоло Rosso, Мартин Potthast и Бен Stein. «Обзор 5-го задания по профилированию авторов на Pan 2017: определение гендерного и языкового разнообразия в твиттере». Рабочие записки CLEF (2017).
  29. Ранжел Пардо, Франсиско Мануэль, Фабио Челли, Паоло Россо, Мартин Поттхаст, Бенно Штайн и Вальтер Даелеманс. «Обзор 3-го задания по профилированию авторов на PAN 2015». В CLEF 2015 Evaluation Labs and Work Notes Papers, стр. 1–8. 2015 г.
  30. ^ Potthast, Мартин, Бен Stein, и Тереза Holfeld. «Обзор 1-го Международного конкурса по обнаружению вандализма в Википедии». В CLEF (Notebook Papers / LABs / Workshops). 2010 г.
  31. ^ Обработка текстов анализ и генерация текста - типология текста и атрибуция. Материалы Нобелевского симпозиума 51 / под ред. по Sture ALLEN Стокгольм:. Альмквист & Wiksell международный Linguistica 1982 653 стр данных; 16 Нобелевский симпозиум; 51 ISBN 91-22-00594-3 
  32. ^ Karlgren, Jussi (2003). «Хеландер: случай установления авторства» . Проверено 4 октября 2017 года .
  33. ^ Эдоардо М. Аирольди ; Стивен Э. Файнберг; Кирон К. Скиннер (июль 2007 г.). «Чьи идеи? Чьи слова? Авторство радиоадресов Рональда Рейгана» (PDF) . PS: Политология и политика . 40 (3): 501–506. CiteSeerX 10.1.1.190.5798 . DOI : 10.1017 / S1049096507070874 .  
  34. Автор неизвестен , салон Гэвина Макнетта, 2 ноября 2000 г.
  35. ^ Belluck, Pam (10 апреля 1996). «По делу Унабом, боль для семьи подозреваемого» . Нью-Йорк Таймс . Архивировано 10 августа 2017 года . Проверено 5 июля 2008 года .
  36. ^ «Исследование обнаруживает, что спорная пьеса Шекспира несет на себе клеймо мастера» . LATimes.com . 2015-04-10 . Проверено 13 апреля 2015 .
  37. ^ Фуллер, Саймон; О'Салливан, Джеймс (2017). «Структура важнее стиля: совместное авторство и возрождение литературного капитализма» . Digital Humanities Quarterly . 011 (1) . Проверено 20 апреля 2017 года .
  38. Лейн, Энтони (18 июня 2018 г.). "Конкуссивное сотрудничество Билла Клинтона и Джеймса Паттерсона" . Житель Нью-Йорка . Проверено 7 июня 2018 .
  39. ^ «Почему вам не нужно много писать, чтобы стать самым продаваемым автором в мире» . Разговор . 3 апреля 2017 . Проверено 20 апреля 2017 года .
  40. ^ О'Салливан, Джеймс (2018-06-07). «Билл Клинтон и Джеймс Паттерсон - соавторы, но кто написал?» . Хранитель . Проверено 7 июня 2018 .
  41. ^ Жак Савой. Елена Ферранте без маски. https://www.researchgate.net/publication/320131096_Elena_Ferrante_Unmasked
  42. ^ Питер Реуэлл. «Вы говорите Джон, я говорю Пол. Но что говорит стилометрия?». https://news.harvard.edu/gazette/story/2018/09/harvard-statistician-examines-beatles-mystery/
  43. ^ "Un monstruo de la naturaleza llamado Lope" . abc (на испанском). 2018-11-28 . Проверено 11 августа 2019 .
  44. ^ "Rastreadores digitales en el Siglo de Oro" . Эль Норте де Кастилья (на испанском языке). 2018-12-23 . Проверено 11 августа 2019 .
  45. ^ Real, Ла Трибуна - де - Сьюдад (2019-07-09). «Хуан Руис де Аларкон aumenta su obra cinco siglos después» . La Tribuna de Ciudad Real (на испанском языке) . Проверено 11 августа 2019 .
  46. ^ Chamberí, PSOE. "PSOE | PSOE Chamberí | Chamberí | suplementoultural | domingo, 28 de julio 2019 | número 06 | Daniel Migueláñez | Pág nº 08 | El Holmes de la filología" . Проверено 11 августа 2019 .
  47. ^ "Sor Juana Inés centró las 42 Jornadas de Teatro Clásico" . Lanza Digital (на испанском языке). 2019-07-14 . Проверено 11 августа 2019 .
  48. ^ " ' La monja alférez' ya no es de Pérez de Montalbán, sino de Ruiz de Alarcón" . Эль Норте де Кастилья (на испанском языке). 2019-07-10 . Проверено 11 августа 2019 .
  49. ^ Маккарти, Рэйчел; О'Салливан, Джеймс (2020). "Кто написал Грозовой перевал?" . Цифровая стипендия в гуманитарных науках . DOI : 10,1093 / ооо / fqaa031 .
  50. ^ Бибер, Дуглас . Различия в речи и письме. Издательство Кембриджского университета, 1991.
  51. ^ Карлгрен, Юсси ; Резка, Дуглас (1994). «Распознавание текстовых жанров с помощью простых показателей с помощью дискриминантного анализа». Труды Международной конференции по компьютерной лингвистике . 2 : 1071. arXiv : cmp-lg / 9410008 . Bibcode : 1994cmp.lg ... 10008K . DOI : 10.3115 / 991250.991324 . S2CID 1297432 . 
  52. ^ Van Droogenbroeck FJ, «Существенная перефразировка закона Ципфа-Мандельброта для решения приложений атрибуции авторства с помощью гауссовой статистики» (2019) [1]
  53. ^ [2] Нейронные вычисления в стилометрии I: Приложение к работам Шекспира и Флетчера Мэтьюз RAJ и Merriam TVN Lit Linguist Computing (1993) 8 (4): 203–209. DOI: 10.1093 / llc / 8.4.203
  54. ^ [3] Нейронные вычисления в стилометрии II: приложение к работам Шекспира и Марлоу Мерриам TVN и Мэтьюз RAJ Lit Linguist Computing (1994) 9 (1): 1–6
  55. ^ а б JF HoornZ; С.Л. Франк; В. Ковальчик; Ф ван дер Хам (03.09.2012). «Нейросетевая идентификация поэтов по буквенным последовательностям» . Литературные и лингвистические вычисления . 14 (3): 311–338. DOI : 10,1093 / ооо / 14.3.311 . Проверено 15 октября 2012 .
  56. ^ Брокардо, ML; Траоре, I; Woungang, I; Обайдат, MS (2017). «Проверка авторства с использованием сетевых систем глубокого убеждения». Int J Commun Syst . 30 (12): e3259. DOI : 10.1002 / dac.3259 .
  57. ^ de Vel, O .; Андерсон, А .; Corney, M .; Мохай, Г. (2001-12-01). «Разработка содержимого электронной почты для криминалистической экспертизы идентификации авторов». SIGMOD Рек . 30 (4): 55–64. CiteSeerX 10.1.1.408.4231 . DOI : 10.1145 / 604264.604272 . ISSN 0163-5808 . S2CID 1623521 .   
  58. ^ Аргамон, Шломо; Коппель, Моше; Пеннебейкер, Джеймс У .; Шлер, Джонатан (01.02.2009). «Автоматическое профилирование автора анонимного текста». Commun. ACM . 52 (2): 119–123. CiteSeerX 10.1.1.136.9952 . DOI : 10.1145 / 1461928.1461959 . ISSN 0001-0782 . S2CID 5413411 .   
  59. ^ «Классификация обмена мгновенными сообщениями для криминалистического анализа - TechRepublic» . TechRepublic . Проверено 26 января 2016 .
  60. ^ Чжоу, L .; Чжан, Дунсун (01.01.2004). Может ли поведение в сети выявить обманщиков? - предварительное расследование обмана при обмене мгновенными сообщениями . Труды 37 - й ежегодный Гавайи Международной конференции по требованиям к системе наук, 2004 . С. 9 с. DOI : 10.1109 / HICSS.2004.1265079 . ISBN 978-0-7695-2056-8. S2CID  7154702 .

Ссылки [ править ]

  • Брокардо, Марсело Луис; Исса Траоре; Шериф Саад; Исаак Вунганг (2013). Проверка авторства коротких сообщений с помощью стилометрии . IEEE Intl. Конференция по компьютерным, информационным и телекоммуникационным системам (CITS). DOI : 10,1109 / CITS.2013.6705711 .
  • Может Ф, Паттон Дж. М. (2004). «Смена стиля письма со временем». Компьютеры и гуманитарные науки . 38 (1): 61–82. CiteSeerX  10.1.1.1.8850 . DOI : 10.1023 / B: chum.0000009225.28847.77 . S2CID  38242388 .
  • Бреннан, Майкл Роберт; Гринштадт, Рэйчел. «Практические атаки на методы признания авторства» . Инновационные приложения искусственного интеллекта .
  • Надежда, Джонатан (1994). Авторство пьес Шекспира . Кембридж: Издательство Кембриджского университета.
  • Хой С. (1956–62). «Акции Флетчера и его сотрудников в каноне Бомонта и Флетчера». Исследования по библиографии . 7–15 .
  • Юола, Патрик (2006). «Авторство» (PDF) . Основы и тенденции в поиске информации . 1 (3): 3. CiteSeerX  10.1.1.219.1605 . DOI : 10.1561 / 1500000005 .
  • Кенни, Энтони (1982). Вычисление стиля: введение в статистику для студентов, изучающих литературу и гуманитарные науки . Оксфорд: Pergamon Press.
  • Ромейн, Сюзанна (1982). Социально-историческая лингвистика . Кембридж: Издательство Кембриджского университета.
  • Сэмюэлс, ML (1972). Лингвистическая эволюция: с особым вниманием к английскому языку . Кембридж: Издательство Кембриджского университета.
  • Шенбаум, Самуэль (1966). Внутренние свидетельства и елизаветинское драматическое авторство: очерк истории литературы и метод . Эванстон, Иллинойс, США: Northwestern University Press.
  • Ван Дроогенбрук, Франс Дж. (2016) " Обработка распространения Zipf в компьютеризированной атрибуции авторства "
  • Ван Дроогенбрук, Франс Дж. (2019) « Существенная перефразировка закона Ципфа-Мандельброта для решения приложений атрибуции авторства с помощью гауссовой статистики »
  • Зенков А.В. (2017) « Метод атрибуции текста на основе статистики числительных », Журнал количественной лингвистики.

Дальнейшее чтение [ править ]

См. Также академический журнал « Литературные и лингвистические вычисления» (издаваемый Оксфордским университетом ) и журнал « Языковые ресурсы и оценка» .

Внешние ссылки [ править ]

  • Ассоциация компьютеров и гуманитарных наук
  • Литературные и лингвистические вычисления
  • Группа вычислительной стилистики
  • Подпись Stylometric System
  • Программа авторства JGAAP
  • Раскрытие тайны последнего романа Дж. К. Роулинг