Обнаружение сходства контента

Эта статья может потребовать очистки, чтобы соответствовать стандартам качества Википедии . Нет очистки причина не была указана. Пожалуйста, помогите улучшить эту статью, если можете. ( Декабрь 2010 г. ) ( Узнайте, как и когда удалить этот шаблон сообщения )

Обнаружение Плагиат или обнаружение сходства контента является процесс обнаружения случаев плагиата и / или нарушения авторских прав в работе или документа. Широкое использование компьютеров и появление Интернета облегчили плагиат чужой работы. ^[1]^[2]

Выявить плагиат можно разными способами. Обнаружение человека - это наиболее традиционная форма выявления плагиата в письменной работе. Это может быть длительной и трудоемкой задачей для читателя ^[2], а также может привести к несогласованности в том, как выявляется плагиат в организации. ^[3] Программное обеспечение сопоставления текста (TMS), которое также называют «программным обеспечением для обнаружения плагиата» или «антиплагиатом», стало широко доступным в виде как коммерчески доступных продуктов, так и продуктов с открытым исходным кодом ^{[ примеры необходимы ]} программное обеспечение. TMS фактически не обнаруживает плагиат как таковой, а вместо этого находит определенные отрывки текста в одном документе, которые соответствуют тексту в другом документе.

Обнаружение плагиата с помощью программного обеспечения [ править ]

Обнаружение плагиата с помощью компьютера (CaPD) - это задача поиска информации (IR), поддерживаемая специализированными системами IR, которая называется системой обнаружения плагиата (PDS) или системой обнаружения сходства документов. В систематическом обзоре литературы за 2019 год ^[4] представлен обзор современных методов обнаружения плагиата.

В текстовых документах [ править ]

Системы обнаружения сходства текста реализуют один из двух общих подходов к обнаружению, один из которых является внешним, а другой внутренним. ^[5] Внешние системы обнаружения сравнивают подозрительный документ со справочной коллекцией, которая представляет собой набор документов, которые считаются подлинными. ^[6] На основе выбранной модели документа и предопределенных критериев подобия задача обнаружения состоит в том, чтобы извлечь все документы, содержащие текст, который в некоторой степени подобен выбранному пороговому значению для текста в подозрительном документе. ^[7] Внутренние PDS анализируют только текст, подлежащий оценке, без сравнения с внешними документами. Этот подход направлен на распознавание изменений в уникальном стиле письма автора как индикатора потенциального плагиата.^[8]^[9] PDS не способны надежно идентифицировать плагиат без человеческого суждения. Сходства и особенности стиля письма вычисляются с помощью предопределенных моделей документов и могут представлять собой ложные срабатывания. ^[10]^[11]^[12]^[13]^[14]

Эффективность этих инструментов в условиях высшего образования [ править ]

Этот раздел в значительной степени или полностью основан на одном источнике . Соответствующее обсуждение можно найти на странице обсуждения . Пожалуйста, помогите улучшить эту статью , добавив ссылки на дополнительные источники .
Поиск источников: «Обнаружение сходства контента» - новости · газеты · книги · ученый · JSTOR ( декабрь 2017 г. )

Было проведено исследование, чтобы проверить эффективность программного обеспечения для обнаружения сходства в условиях высшего образования. Одна часть исследования поручила одной группе студентов написать работу. Эти студенты сначала узнали о плагиате и проинформировали, что их работа должна проходить через систему обнаружения сходства контента. Второй группе студентов было поручено написать работу без какой-либо информации о плагиате. Исследователи ожидали найти более низкие показатели в первой группе, но обнаружили примерно одинаковые показатели плагиата в обеих группах. ^[15]

Подходы [ править ]

На рисунке ниже представлена классификация всех подходов к обнаружению, используемых в настоящее время для компьютерного обнаружения сходства контента. Подходы характеризуются типом проводимой ими оценки сходства: глобальным или локальным. Подходы к оценке глобального сходства используют характеристики, взятые из более крупных частей текста или документа в целом, для вычисления сходства, в то время как локальные методы проверяют только предварительно выбранные сегменты текста в качестве входных данных.

Классификация компьютерных методов обнаружения плагиата

Отпечатки пальцев [ править ]

В настоящее время снятие отпечатков пальцев является наиболее широко применяемым подходом к обнаружению сходства контента. Этот метод формирует репрезентативные дайджесты документов, выбирая из них набор нескольких подстрок ( n-граммов ). Наборы представляют собой отпечатки пальцев, а их элементы называются мелкими деталями. ^[16]^[17] Подозрительный документ проверяется на плагиат путем вычисления его отпечатка пальца и запроса подробностей с предварительно вычисленным указателем отпечатков пальцев для всех документов справочной коллекции. Совпадение мелких деталей с другими документами указывает на общие текстовые сегменты и предполагает потенциальный плагиат, если они превышают выбранный порог схожести. ^[18]Вычислительные ресурсы и время являются ограничивающими факторами для снятия отпечатков пальцев, поэтому этот метод обычно сравнивает только подмножество мелочей, чтобы ускорить вычисления и позволить проверки в очень большой коллекции, такой как Интернет. ^[16]

Соответствие строк [ править ]

Сопоставление строк - распространенный подход, используемый в информатике. Применительно к проблеме обнаружения плагиата документы сравниваются на предмет дословного наложения текста. Для решения этой задачи было предложено множество методов, некоторые из которых адаптированы для обнаружения внешнего плагиата. Проверка подозрительного документа в этом параметре требует вычисления и хранения эффективно сопоставимых представлений для всех документов в эталонной коллекции для их попарного сравнения. Обычно для этой задачи использовались суффиксные модели документов, такие как суффиксные деревья или суффиксные векторы. Тем не менее сопоставление подстрок остается дорогостоящим с точки зрения вычислений, что делает его нежизнеспособным решением для проверки больших коллекций документов. ^[19]^[20]^[21]

Мешок слов [ править ]

Анализ набора слов представляет собой использование поиска в векторном пространстве , традиционной концепции IR, в области обнаружения сходства контента. Документы представлены как один или несколько векторов, например, для разных частей документа, которые используются для попарных вычислений сходства. Вычисление подобия затем может полагаться на традиционную косинусную меру подобия или на более сложные меры подобия. ^[22]^[23]^[24]

Анализ цитирования [ править ]

Обнаружение плагиата на основе цитирования (CbPD) ^[25] основывается на анализе цитирования и является единственным подходом к обнаружению плагиата, который не полагается на текстовое сходство. ^[26] CbPD изучает цитирование и справочную информацию в текстах, чтобы выявить похожие шаблоны в последовательностях цитирования. Таким образом, этот подход подходит для научных текстов или других академических документов, содержащих цитаты. Анализ цитирования для выявления плагиата - относительно молодая концепция. Он не был принят коммерческим программным обеспечением, но существует первый прототип системы обнаружения плагиата на основе цитирования. ^[27]Сходный порядок и близость цитирования в изученных документах являются основными критериями, используемыми для вычисления сходства шаблонов цитирования. Шаблоны цитирования представляют собой подпоследовательности, не только содержащие цитаты из сравниваемых документов. ^[26]^[28] Факторы, включая абсолютное количество или относительную долю общих цитирований в шаблоне, а также вероятность того, что ссылки одновременно встречаются в документе, также учитываются для количественной оценки степени сходства шаблонов. ^[26]^[28]^[29]^[30]

Стилометрия [ править ]

Стилометрия включает статистические методы для количественной оценки уникального стиля письма автора ^[31]^[32] и в основном используется для установления авторства или обнаружения внутреннего плагиата. ^[33]Выявление плагиата с помощью атрибуции авторства требует проверки, совпадает ли стиль написания подозрительного документа, который предположительно написан определенным автором, со стилем написания документов, написанных тем же автором. С другой стороны, обнаружение внутреннего плагиата позволяет выявить плагиат на основе внутренних доказательств в подозрительном документе, не сравнивая его с другими документами. Это выполняется путем построения и сравнения стилометрических моделей для различных текстовых сегментов подозрительного документа, а отрывки, стилистически отличающиеся от других, помечаются как потенциально плагиат / нарушенные. ^[8] Несмотря на простоту извлечения, символьные n-граммы оказались одними из лучших стилометрических функций для обнаружения внутреннего плагиата.^[34]

Производительность [ править ]

Сравнительные оценки систем обнаружения сходства контента ^[6]^[35]^[36]^[37]^[38]^[39] показывают, что их производительность зависит от типа имеющегося плагиата (см. Рисунок). За исключением анализа шаблонов цитирования, все подходы к обнаружению полагаются на текстовое сходство. Поэтому симптоматично, что точность обнаружения снижается по мере того, как скрывается больше случаев плагиата.

Эффективность обнаружения подходов CaPD в зависимости от типа присутствующего плагиата

Буквальные копии, также известные как плагиат «копирование и вставка» (c & p), или явное нарушение авторских прав, или случаи скромно замаскированного плагиата могут быть с высокой точностью обнаружены текущим внешним PDS, если исходный код доступен для программного обеспечения. В частности, процедуры сопоставления подстрок обеспечивают хорошую производительность для плагиата c & p, поскольку они обычно используют модели документов без потерь, такие как деревья суффиксов . Производительность систем, использующих дактилоскопию или анализ пакетов слов при обнаружении копий, зависит от потери информации, понесенной используемой моделью документа. Применяя гибкие стратегии разделения и выбора, они лучше способны обнаруживать умеренные формы замаскированного плагиата по сравнению с процедурами сопоставления подстрок.

Обнаружение внутреннего плагиата с помощью стилометрии может в некоторой степени преодолеть границы текстового сходства путем сравнения языкового сходства. Учитывая, что стилистические различия между плагиатом и исходными сегментами значительны и могут быть надежно идентифицированы, стилометрия может помочь в выявлении замаскированного и перефразированного плагиата ^{[ необходима цитата ]} . Стилометрические сравнения, скорее всего, потерпят неудачу в тех случаях, когда сегменты сильно перефразированы до такой степени, что они больше напоминают личный стиль письма плагиатора, или если текст был составлен несколькими авторами. Результаты Международных конкурсов по выявлению плагиата, проведенных в 2009, 2010 и 2011 годах, ^[6]^[38]^[39], а также эксперименты, проведенные Стейном,^[33] показывают, что стилометрический анализ, по-видимому, надежно работает только для документов длиной в несколько тысяч или десятков тысяч слов, что ограничивает применимость метода к настройкам CaPD.

Все большее количество исследований проводится по методам и системам, способным обнаруживать транслированный плагиат. В настоящее время обнаружение межъязыкового плагиата (CLPD) не рассматривается как зрелая технология ^[40], и соответствующие системы не смогли достичь удовлетворительных результатов обнаружения на практике. ^[37]

Обнаружение плагиата на основе цитирования с использованием анализа шаблонов цитирования способно определять более сильные пересказы и переводы с более высокими показателями успеха по сравнению с другими подходами к обнаружению, поскольку оно не зависит от текстовых характеристик. ^[26]^[29] Однако, поскольку анализ схемы цитирования зависит от наличия достаточной информации о цитировании, он ограничивается академическими текстами. Он по-прежнему уступает подходам, основанным на тексте, в обнаружении более коротких отрывков с плагиатом, которые типичны для случаев плагиата с копированием и вставкой или встряхиванием и вставкой; последнее относится к смешиванию слегка измененных фрагментов из разных источников. ^[41]

Программное обеспечение [ править ]

Разработка программного обеспечения для определения сходства контента для использования с текстовыми документами характеризуется рядом факторов: ^{[ необходима ссылка ]}

Фактор	Описание и альтернативы
Объем поиска	В общедоступном Интернете с использованием поисковых систем / институциональных баз данных / локальных системно-ориентированных баз данных. ^{[ необходима цитата ]}
Время анализа	Задержка между отправкой документа и появлением результатов. ^{[ необходима цитата ]}
Емкость документов / Пакетная обработка	Количество документов, которые система может обработать за единицу времени. ^{[ необходима цитата ]}
Проверить интенсивность	Как часто и для каких типов фрагментов документа (абзацы, предложения, последовательности слов фиксированной длины) система запрашивает внешние ресурсы, такие как поисковые системы.
Тип алгоритма сравнения	Алгоритмы, определяющие способ, которым система сравнивает документы друг с другом. ^{[ необходима цитата ]}
Точность и отзыв	Количество документов, правильно помеченных как плагиат, по сравнению с общим количеством помеченных документов и с общим количеством документов, которые были фактически плагиатом. Высокая точность означает, что было обнаружено несколько ложных срабатываний , а высокий уровень отзыва означает, что несколько ложноотрицательных результатов остались незамеченными. ^{[ необходима цитата ]}

Большинство крупномасштабных систем обнаружения плагиата используют большие внутренние базы данных (в дополнение к другим ресурсам), которые растут с каждым дополнительным документом, представленным на анализ. Однако некоторые считают эту функцию нарушением авторских прав студентов . ^{[ необходима цитата ]}

В исходном коде [ править ]

Плагиат в компьютерном исходном коде также часто встречается и требует иных инструментов, чем те, которые используются для сравнения текстов в документе. Значительное исследование было посвящено академическому плагиату исходного кода. ^[42]

Отличительным аспектом плагиата исходного кода является то, что здесь нет мельниц для сочинений , которые можно найти в традиционном плагиате. Поскольку большинство заданий по программированию предполагают, что студенты будут писать программы с очень конкретными требованиями, очень трудно найти существующие программы, которые им уже соответствуют. Поскольку интегрировать внешний код зачастую сложнее, чем писать его с нуля, большинство студентов, занимающихся плагиатом, предпочитают делать это со стороны своих сверстников.

Согласно Рою и Корди, ^[43] алгоритмы обнаружения сходства исходного кода могут быть классифицированы как основанные либо на

Строки - ищите точные текстовые совпадения сегментов, например, строки из пяти слов. Быстро, но может запутаться, переименовав идентификаторы.
Токены - как со строками, но с использованием лексера для преобразования программы в токены в первую очередь. Это удаляет пробелы, комментарии и имена идентификаторов, делая систему более устойчивой к простой замене текста. Большинство академических систем обнаружения плагиата работают на этом уровне, используя разные алгоритмы для измерения сходства между последовательностями токенов.
Деревья синтаксического анализа - создавайте и сравнивайте деревья синтаксического анализа. Это позволяет обнаруживать сходства более высокого уровня. Например, сравнение дерева может нормализовать условные операторы и обнаруживать эквивалентные конструкции как похожие друг на друга.
Графики зависимостей программ (PDG) - PDG фиксирует фактический поток управления в программе и позволяет находить эквиваленты более высокого уровня с большими затратами по сложности и времени вычислений.
Метрики - метрики фиксируют «баллы» сегментов кода в соответствии с определенными критериями; например, «количество циклов и условных операторов» или «количество различных используемых переменных». Показатели просты для вычисления и их можно быстро сравнивать, но они также могут приводить к ложным срабатываниям: два фрагмента с одинаковыми оценками по набору показателей могут делать совершенно разные вещи.
Гибридные подходы - например, деревья синтаксического анализа + деревья суффиксов могут сочетать способность обнаружения деревьев синтаксического анализа со скоростью, предоставляемой суффиксными деревьями, типом структуры данных с сопоставлением строк.

Предыдущая классификация была разработана для рефакторинга кода , а не для академического обнаружения плагиата (важная цель рефакторинга - избежать дублирования кода, называемого в литературе клонами кода ). Вышеупомянутые подходы эффективны против разных уровней сходства; Сходство низкого уровня относится к идентичному тексту, в то время как сходство высокого уровня может быть связано с аналогичными спецификациями. В академической среде, когда ожидается, что все студенты будут кодировать в соответствии с одними и теми же спецификациями, ожидается полностью функционально эквивалентный код (с высокоуровневым сходством), и только низкоуровневое сходство считается доказательством обмана.

Сложности с использованием программного обеспечения сопоставления текста для обнаружения плагиата [ править ]

Были задокументированы различные осложнения при использовании программного обеспечения сопоставления текста при обнаружении плагиата. Одна из наиболее распространенных проблем документированных центров по вопросу прав интеллектуальной собственности. Основной аргумент заключается в том, что материалы должны быть добавлены в базу данных, чтобы TMS могла эффективно определить соответствие, но добавление материалов пользователей в такую базу данных может нарушить их права интеллектуальной собственности. Этот вопрос поднимался в ряде судебных дел.

Дополнительная сложность при использовании TMS заключается в том, что программа находит только точные совпадения с другим текстом. Он не улавливает плохо перефразированные работы, например, или практику плагиата с использованием достаточного количества замен слов, чтобы ускользнуть от программ обнаружения, что известно как rogeting .

См. Также [ править ]

Категория: Детекторы плагиата
Сравнение антиплагиата
Хеширование с учетом местоположения
Поиск ближайшего соседа
Обнаружение перефразирования
Колмогоровская сложность # Сжатие - используется для оценки сходства между последовательностями токенов в нескольких системах

Ссылки [ править ]

^ «Превышен предел загрузки» . citeseerx.ist.psu.edu .
^ a b Bretag, T., & Mahmud, S. (2009). Модель определения студенческого плагиата: электронное обнаружение и академическая оценка. Журнал университетской педагогической и учебной практики, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6.
Перейти ↑ Macdonald, R., & Carroll, J. (2006). Плагиат - сложная проблема, требующая целостного институционального подхода. Оценка и оценка в высшем образовании, 31 (2), 233–245. DOI : 10,1080 / 02602930500262536
^ Foltýnek, Tomáš; Meuschke, Norman; Гипп, Бела (16 октября 2019 г.). «Обнаружение академического плагиата: систематический обзор литературы» . ACM Computing Surveys . 52 (6): 1–42. DOI : 10.1145 / 3345317 .
^ Штейн, Бенно; Коппель, Моше; Stamatatos, Efstathios (декабрь 2007), "Плагиат анализ, Авторство идентификация и ближней Дубликаты PAN'07" (PDF) , SIGIR форум , 41 (2): 68, DOI : 10,1145 / 1328964,1328976 , S2CID 6379659 , архивируются с оригинал (PDF) от 2 апреля 2012 г. , дата обращения 7 октября 2011 г.
^ a b c Поттхаст, Мартин; Штейн, Бенно; Эйзельт, Андреас; Баррон-Седеньо, Альберто; Россо, Паоло (2009), «Обзор 1-го Международного конкурса по обнаружению плагиата », PAN09 - 3-й семинар по раскрытию плагиата, авторства и неправомерного использования социального программного обеспечения и 1-й Международный конкурс по обнаружению плагиата (PDF) , Материалы семинара CEUR, 502 , стр. . 1–9, ISSN 1613-0073 , заархивировано из оригинала (PDF) 2 апреля 2012 г. CS1 maint: обескураженный параметр ( ссылка )
^ Штейн, Бенно; Мейер цу Айссен, Свен; Potthast, Martin (2007), "Стратегия Получения плагиатов", Труды тридцатой Ежегодная Международная конференция ACM SIGIR (PDF) , ACM, стр 825-826,. Дои : 10,1145 / 1277741,1277928 , ISBN 978-1-59593-597-7, S2CID 3898511 , заархивировано из оригинального (PDF) 2 апреля 2012 г. , получено 7 октября 2011 г.
^ а б Мейер цу Айссен, Свен; Стейн, Бенно (2006), «Обнаружение внутреннего плагиата», Достижения в области информационного поиска, 28-я Европейская конференция по исследованиям в области IR, ECIR 2006, Лондон, Великобритания, 10–12 апреля 2006 г. Труды (PDF) , Lecture Notes in Computer Science, 3936 , . Springer, С. 565-569, CiteSeerX 10.1.1.110.5366 , DOI : 10.1007 / 11735106_66 , ISBN 978-3-540-33347-0, заархивировано из оригинала (PDF) 2 апреля 2012 г. , получено 7 октября 2011 г.
^ Бенсалем, Имене (2020). «Обнаружение внутреннего плагиата: обзор». Обнаружение плагиата: акцент на внутреннем подходе и оценке на арабском языке (докторская диссертация) . Константин 2 Университет. DOI : 10,13140 / RG.2.2.25727.84641 .
^ Бао, Цзюнь-Пэн; Малькольм, Джеймс А. (2006), «Сходство текста в статьях научных конференций», Материалы 2-й Международной конференции по плагиату (PDF) , Northumbria University Press, архивировано из оригинала (PDF) 16 сентября 2018 г. , получено 7 октября 2011 г.
^ Клаф, Пол (2000), Плагиат в естественных языках и языках программирования, обзор текущих инструментов и технологий (PDF) (Технический отчет), Департамент компьютерных наук, Университет Шеффилда, заархивировано из оригинала (PDF) 18 августа 2011 г. CS1 maint: обескураженный параметр ( ссылка )
^ Калвин, Финтан; Ланкастер, Томас (2001), "Вопросы Плагиат для получения высшего образования" (PDF) , Vine , 31 (2): 36-41, DOI : 10,1108 / 03055720010804005 , архивируются от исходного (PDF) 5 апреля 2012 CS1 maint: обескураженный параметр ( ссылка )
^ Ланкастер, Томас (2003), Эффективное и действенное обнаружение плагиата (докторская диссертация), Школа вычислительной техники, информационных систем и математики Университета Южного берега
^ Маурер, Германн; Зака, Билал (2007), «Плагиат - проблема и как с ним бороться», Труды Всемирной конференции по образовательным мультимедиа, гипермедиа и телекоммуникации 2007 , AACE, стр. 4451–4458
^ Юманс, Роберт Дж. (Ноябрь 2011 г.). «Снижает ли распространение плагиата внедрение программного обеспечения для обнаружения плагиата в системе высшего образования?». Исследования в высшем образовании . 36 (7): 749–761. DOI : 10.1080 / 03075079.2010.523457 . S2CID 144143548 .
^ a b Хоад, Тимофей; Зобель, Джастин (2003), "Методы выявления Версированные плагиатов" (PDF) , журнал Американского общества по информационной науке и технике , 54 (3): 203-215, CiteSeerX 10.1.1.18.2680 , DOI : 10.1002 /asi.10170 , заархивировано из исходного (PDF) 30 апреля 2015 г. , получено 14 октября 2014 г.
^ Штейн, Бенно (июль 2005 г.), «Нечеткие отпечатки пальцев для поиска текстовой информации», Труды 5-й Международной конференции по управлению знаниями, Грац, Австрия (PDF) , Springer, Know-Center, I-KNOW '05 , С. 572–579, заархивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.
↑ Брин, Сергей; Дэвис, Джеймс; Гарсия-Молина, Гектор (1995), «Механизмы обнаружения копий для цифровых документов», Труды Международной конференции ACM SIGMOD 1995 по управлению данными (PDF) , ACM, стр. 398–409, CiteSeerX 10.1.1.49.1567 , doi : 10.1145 / 223784.223855 , ISBN 978-1-59593-060-6, S2CID 8652205
^ Моностори, Кристиан; Заславский, Аркадий; Шмидт, Хайнц (2000), «Система обнаружения перекрытия документов для распределенных электронных библиотек», Труды пятой конференции ACM по электронным библиотекам (PDF) , ACM, стр. 226–227, doi : 10.1145 / 336597.336667 , ISBN 978-1-58113-231-1, S2CID 5796686 , заархивировано из оригинала (PDF) 15 апреля 2012 г. , получено 7 октября 2011 г.
↑ Бейкер, Бренда С. (февраль 1993 г.), Об обнаружении дублирования в строках и программном обеспечении (технический отчет), AT&T Bell Laboratories, Нью-Джерси, заархивировано из оригинала (gs) 30 октября 2007 г. CS1 maint: обескураженный параметр ( ссылка )
^ Хмелев, Дмитрий В .; Чайхан, Уильям Дж. (2003), «Мера, основанная на повторении для проверки текстовых коллекций и категоризации текста», SIGIR'03: Материалы 26-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска , ACM, стр. 104-110 , CiteSeerX 10.1.1.9.6155 , DOI : 10,1145 / 860435,860456 , ISBN 978-1581136463, S2CID 7316639
^ Си, Антонио; Леонг, Хонг Ва; Лау, Ринсон WH (1997), «CHECK: Document Plagiarism Detection System», SAC '97: Proceedings of the 1997 ACM symposium on Applied computing (PDF) , ACM, pp. 70–77, doi : 10.1145 / 331697.335176 , ISBN 978-0-89791-850-3, S2CID 15273799
^ Дрейер, Heinz (2007), «Автоматический Концептуальный анализ для обнаружения плагиата» (PDF) , Информация и за ее пределами: Журнал вопросов в информировании науки и информационных технологий , 4 : 601-614, DOI : 10,28945 / 974
^ Мур, Маркус; Зехнер, Марио; Керн, Роман; Гранитцер, Майкл (2009), «Обнаружение внешнего и внутреннего плагиата с использованием векторных пространственных моделей», PAN09 - 3-й семинар по выявлению плагиата, авторства и неправомерного использования социального программного обеспечения и 1-й Международный конкурс по обнаружению плагиата (PDF) , Материалы семинара CEUR, 502 , стр. 47–55, ISSN 1613-0073 , заархивировано из оригинала (PDF) 2 апреля 2012 г. CS1 maint: обескураженный параметр ( ссылка )
^ Гипп, Бела (2014), Обнаружение плагиата на основе цитирования , Springer Vieweg Research, ISBN 978-3-658-06393-1
^ a b c d Гипп, Бела; Бил, Йоран (июнь 2010 г.), «Обнаружение плагиата на основе цитирования - новый подход к независимому выявлению плагиата рабочего языка», Материалы 21-й конференции ACM по гипертексту и гипермедиа (HT'10) (PDF) , ACM, стр. 273– 274, DOI : 10,1145 / 1810617,1810671 , ISBN 978-1-4503-0041-4, S2CID 2668037 , заархивировано из оригинала (PDF) 25 апреля 2012 г. , получено 21 октября 2011 г.
^ Гипп, Бела; Meuschke, Norman; Брайтингер, Коринна; Липинский, Марио; Нюрнбергер, Андреас (28 июля 2013 г.), «Демонстрация анализа шаблонов цитирования для обнаружения плагиата», Труды 36-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (PDF) , ACM, стр. 1119, DOI : 10,1145 / 2484028,2484214 , ISBN 9781450320344, S2CID 2106222
^ a b Гипп, Бела; Меушке, Норман (сентябрь 2011 г.), «Алгоритмы сопоставления с образцом цитирования для обнаружения плагиата на основе цитирования: жадное разбиение цитирования, разбиение на фрагменты и самая длинная общая последовательность цитирования», Труды 11-го симпозиума ACM по разработке документов (DocEng2011) (PDF) , ACM ., стр 249-258, DOI : 10,1145 / 2034691,2034741 , ISBN 978-1-4503-0863-2, S2CID 207190305 , заархивировано из оригинала (PDF) 25 апреля 2012 г. , получено 7 октября 2011 г.
^ a b Гипп, Бела; Meuschke, Norman; Бил, Йоран (июнь 2011 г.), «Сравнительная оценка подходов к обнаружению плагиата на основе текста и цитирования с использованием GuttenPlag», Труды 11-й совместной конференции ACM / IEEE-CS по электронным библиотекам (JCDL'11) (PDF) , ACM, стр. . 255-258, CiteSeerX 10.1.1.736.4865 , DOI : 10.1145 / 1998076.1998124 , ISBN 978-1-4503-0744-4, S2CID 3683238 , заархивировано из оригинального (PDF) 25 апреля 2012 г. , получено 7 октября 2011 г.
^ Гипп, Бела; Биль, Йоран (июль 2009 г.), «Анализ близости цитирования (CPA) - новый подход к идентификации связанных работ на основе анализа совместного цитирования», Труды 12-й Международной конференции по наукометрии и информетрике (ISSI'09) (PDF) , Международное общество наукометрии и информетрики, стр. 571–575, ISSN 2175-1935 , заархивировано из оригинала (PDF) 13 сентября 2012 г. , извлечено 7 октября 2011 г.
^ Холмс, Дэвид И. (1998), "Эволюция стилометрии в гуманитарной Стипендии", литературные и лингвистический Computing , 13 (3): 111-117, DOI : 10,1093 / ооо / 13.3.111
^ Juola, Патрик (2006), "авторство" (PDF) , основа и тенденции информационного поиска , 1 (3): 233-334, CiteSeerX 10.1.1.219.1605 , DOI : 10,1561 / 1500000005 , ISSN 1554-0669
^ a b Штейн, Бенно; Липка, Недим; Prettenhofer, Питер (2011), "Собственное Плагиат анализ" (PDF) , лингвистические ресурсы и оценка , 45 (1): 63-82, DOI : 10.1007 / s10579-010-9115-у , ISSN 1574-020X , S2CID 13426762 , заархивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.
^ Бенсалем, Имене; Россо, Паоло; Чихи, Салим (2019). «Об использовании символьных n-граммов как единственного внутреннего доказательства плагиата». Языковые ресурсы и оценка . 53 (3): 363–396. DOI : 10.1007 / s10579-019-09444-ш . hdl : 10251/159151 . S2CID 86630897 .
^ Портал Plagiat - Softwaretest 2004 (на немецком языке ), HTW Университет прикладных наук Берлина, архивируются с оригинала на 25 октября 2011 года , получен 6 октября 2 011 CS1 maint: обескураженный параметр ( ссылка )
^ Портал Plagiat - Softwaretest 2008 (на немецком языке), HTW University of Applied Sciences Berlin , получено 6 октября 2011 г. CS1 maint: обескураженный параметр ( ссылка )
^ a b Портал Plagiat - Softwaretest 2010 (на немецком языке), HTW University of Applied Sciences Berlin , данные получены 6 октября 2011 г. CS1 maint: обескураженный параметр ( ссылка )
^ a b Поттхаст, Мартин; Баррон-Седеньо, Альберто; Эйзельт, Андреас; Штейн, Бенно; Россо, Паоло (2010), «Обзор 2-го Международного конкурса по обнаружению плагиата», Записные книжки лабораторий и семинаров CLEF 2010, 22–23 сентября, Падуя, Италия (PDF) , заархивировано из оригинала (PDF) 3 апреля. 2012 г. , дата обращения 7 октября 2011 г.
^ a b Поттхаст, Мартин; Эйзельт, Андреас; Баррон-Седеньо, Альберто; Штейн, Бенно; Россо, Паоло (2011), «Обзор 3-го Международного конкурса по обнаружению плагиата», Записные книжки лабораторий и семинаров CLEF 2011, 19–22 сентября, Амстердам, Нидерланды (PDF) , заархивировано из оригинала (PDF) 2 апреля. 2012 г. , дата обращения 7 октября 2011 г.
^ Поттхаст, Мартин; Баррон-Седеньо, Альберто; Штейн, Бенно; Rosso, Паоло (2011), "Cross-Language Плагиат Detection" (PDF) , лингвистические ресурсы и оценка , 45 (1): 45-62, DOI : 10.1007 / s10579-009-9114-г , ЛВП : 10251/37479 , ISSN 1574-020X , S2CID 14942239 , заархивировано из исходного (PDF) 26 ноября 2013 г. , извлечено 7 октября 2011 г.
^ Вебер-Вульф, Дебора (июнь 2008 г.), «Об использовании программного обеспечения для обнаружения плагиата», в материалах 3-й Международной конференции по плагиату, Ньюкасл-апон-Тайн (PDF)
^ «Предотвращение и обнаружение плагиата - Интернет-ресурсы о плагиате исходного кода». Архивировано 15 ноября 2012 г. на Wayback Machine . Академия высшего образования , Ольстерский университет .
↑ Рой, Чанчал Кумар; Корди, Джеймс Р. (26 сентября 2007 г.). «Обзор исследований по обнаружению клонов программного обеспечения» . Школа вычислительной техники Королевского университета, Канада .

Литература [ править ]

Кэрролл, Дж. (2002). Пособие для сдерживания плагиата в сфере высшего образования . Оксфорд: Оксфордский центр развития персонала и обучения, Университет Оксфорд-Брукс. (96 стр.), ISBN 1873576560
Зейдман, Б. (2011). Справочник программного обеспечения IP Detective . Прентис Холл. (480 стр.), ISBN 0137035330

[1] «Превышен предел загрузки» . citeseerx.ist.psu.edu .

[:0-2] Bretag, T., & Mahmud, S. (2009). Модель определения студенческого плагиата: электронное обнаружение и академическая оценка. Журнал университетской педагогической и учебной практики, 6 (1). Получено с http://ro.uow.edu.au/jutlp/vol6/iss1/6.

[3] Перейти ↑ Macdonald, R., & Carroll, J. (2006). Плагиат - сложная проблема, требующая целостного институционального подхода. Оценка и оценка в высшем образовании, 31 (2), 233–245. DOI : 10,1080 / 02602930500262536

[4] Foltýnek, Tomáš; Meuschke, Norman; Гипп, Бела (16 октября 2019 г.). «Обнаружение академического плагиата: систематический обзор литературы» . ACM Computing Surveys . 52 (6): 1–42. DOI : 10.1145 / 3345317 .

[Stein07-5] Штейн, Бенно; Коппель, Моше; Stamatatos, Efstathios (декабрь 2007), "Плагиат анализ, Авторство идентификация и ближней Дубликаты PAN'07" (PDF) , SIGIR форум , 41 (2): 68, DOI : 10,1145 / 1328964,1328976 , S2CID 6379659 , архивируются с оригинал (PDF) от 2 апреля 2012 г. , дата обращения 7 октября 2011 г.

[Potthast09-6] Поттхаст, Мартин; Штейн, Бенно; Эйзельт, Андреас; Баррон-Седеньо, Альберто; Россо, Паоло (2009), «Обзор 1-го Международного конкурса по обнаружению плагиата », PAN09 - 3-й семинар по раскрытию плагиата, авторства и неправомерного использования социального программного обеспечения и 1-й Международный конкурс по обнаружению плагиата (PDF) , Материалы семинара CEUR, 502 , стр. . 1–9, ISSN 1613-0073 , заархивировано из оригинала (PDF) 2 апреля 2012 г. CS1 maint: обескураженный параметр ( ссылка )

[Stein07a-7] Штейн, Бенно; Мейер цу Айссен, Свен; Potthast, Martin (2007), "Стратегия Получения плагиатов", Труды тридцатой Ежегодная Международная конференция ACM SIGIR (PDF) , ACM, стр 825-826,. Дои : 10,1145 / 1277741,1277928 , ISBN 978-1-59593-597-7, S2CID 3898511 , заархивировано из оригинального (PDF) 2 апреля 2012 г. , получено 7 октября 2011 г.

[MeyerZuEissen06-8] а б Мейер цу Айссен, Свен; Стейн, Бенно (2006), «Обнаружение внутреннего плагиата», Достижения в области информационного поиска, 28-я Европейская конференция по исследованиям в области IR, ECIR 2006, Лондон, Великобритания, 10–12 апреля 2006 г. Труды (PDF) , Lecture Notes in Computer Science, 3936 , . Springer, С. 565-569, CiteSeerX 10.1.1.110.5366 , DOI : 10.1007 / 11735106_66 , ISBN 978-3-540-33347-0, заархивировано из оригинала (PDF) 2 апреля 2012 г. , получено 7 октября 2011 г.

[9] Бенсалем, Имене (2020). «Обнаружение внутреннего плагиата: обзор». Обнаружение плагиата: акцент на внутреннем подходе и оценке на арабском языке (докторская диссертация) . Константин 2 Университет. DOI : 10,13140 / RG.2.2.25727.84641 .

[Bao06-10] Бао, Цзюнь-Пэн; Малькольм, Джеймс А. (2006), «Сходство текста в статьях научных конференций», Материалы 2-й Международной конференции по плагиату (PDF) , Northumbria University Press, архивировано из оригинала (PDF) 16 сентября 2018 г. , получено 7 октября 2011 г.

[Clough00-11] Клаф, Пол (2000), Плагиат в естественных языках и языках программирования, обзор текущих инструментов и технологий (PDF) (Технический отчет), Департамент компьютерных наук, Университет Шеффилда, заархивировано из оригинала (PDF) 18 августа 2011 г. CS1 maint: обескураженный параметр ( ссылка )

[Culwin01-12] Калвин, Финтан; Ланкастер, Томас (2001), "Вопросы Плагиат для получения высшего образования" (PDF) , Vine , 31 (2): 36-41, DOI : 10,1108 / 03055720010804005 , архивируются от исходного (PDF) 5 апреля 2012 CS1 maint: обескураженный параметр ( ссылка )

[Lancaster03-13] Ланкастер, Томас (2003), Эффективное и действенное обнаружение плагиата (докторская диссертация), Школа вычислительной техники, информационных систем и математики Университета Южного берега

[Maurer07-14] Маурер, Германн; Зака, Билал (2007), «Плагиат - проблема и как с ним бороться», Труды Всемирной конференции по образовательным мультимедиа, гипермедиа и телекоммуникации 2007 , AACE, стр. 4451–4458

[Youmans-15] Юманс, Роберт Дж. (Ноябрь 2011 г.). «Снижает ли распространение плагиата внедрение программного обеспечения для обнаружения плагиата в системе высшего образования?». Исследования в высшем образовании . 36 (7): 749–761. DOI : 10.1080 / 03075079.2010.523457 . S2CID 144143548 .

[Hoad03-16] Хоад, Тимофей; Зобель, Джастин (2003), "Методы выявления Версированные плагиатов" (PDF) , журнал Американского общества по информационной науке и технике , 54 (3): 203-215, CiteSeerX 10.1.1.18.2680 , DOI : 10.1002 /asi.10170 , заархивировано из исходного (PDF) 30 апреля 2015 г. , получено 14 октября 2014 г.

[Stein05-17] Штейн, Бенно (июль 2005 г.), «Нечеткие отпечатки пальцев для поиска текстовой информации», Труды 5-й Международной конференции по управлению знаниями, Грац, Австрия (PDF) , Springer, Know-Center, I-KNOW '05 , С. 572–579, заархивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.

[Brin95-18] Брин, Сергей; Дэвис, Джеймс; Гарсия-Молина, Гектор (1995), «Механизмы обнаружения копий для цифровых документов», Труды Международной конференции ACM SIGMOD 1995 по управлению данными (PDF) , ACM, стр. 398–409, CiteSeerX 10.1.1.49.1567 , doi : 10.1145 / 223784.223855 , ISBN 978-1-59593-060-6, S2CID 8652205

[Monostori00-19] Моностори, Кристиан; Заславский, Аркадий; Шмидт, Хайнц (2000), «Система обнаружения перекрытия документов для распределенных электронных библиотек», Труды пятой конференции ACM по электронным библиотекам (PDF) , ACM, стр. 226–227, doi : 10.1145 / 336597.336667 , ISBN 978-1-58113-231-1, S2CID 5796686 , заархивировано из оригинала (PDF) 15 апреля 2012 г. , получено 7 октября 2011 г.

[Baker93-20] Бейкер, Бренда С. (февраль 1993 г.), Об обнаружении дублирования в строках и программном обеспечении (технический отчет), AT&T Bell Laboratories, Нью-Джерси, заархивировано из оригинала (gs) 30 октября 2007 г. CS1 maint: обескураженный параметр ( ссылка )

[Khmelev03-21] Хмелев, Дмитрий В .; Чайхан, Уильям Дж. (2003), «Мера, основанная на повторении для проверки текстовых коллекций и категоризации текста», SIGIR'03: Материалы 26-й ежегодной международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска , ACM, стр. 104-110 , CiteSeerX 10.1.1.9.6155 , DOI : 10,1145 / 860435,860456 , ISBN 978-1581136463, S2CID 7316639

[Si97-22] Си, Антонио; Леонг, Хонг Ва; Лау, Ринсон WH (1997), «CHECK: Document Plagiarism Detection System», SAC '97: Proceedings of the 1997 ACM symposium on Applied computing (PDF) , ACM, pp. 70–77, doi : 10.1145 / 331697.335176 , ISBN 978-0-89791-850-3, S2CID 15273799

[Dreher07-23] Дрейер, Heinz (2007), «Автоматический Концептуальный анализ для обнаружения плагиата» (PDF) , Информация и за ее пределами: Журнал вопросов в информировании науки и информационных технологий , 4 : 601-614, DOI : 10,28945 / 974

[Muhr09-24] Мур, Маркус; Зехнер, Марио; Керн, Роман; Гранитцер, Майкл (2009), «Обнаружение внешнего и внутреннего плагиата с использованием векторных пространственных моделей», PAN09 - 3-й семинар по выявлению плагиата, авторства и неправомерного использования социального программного обеспечения и 1-й Международный конкурс по обнаружению плагиата (PDF) , Материалы семинара CEUR, 502 , стр. 47–55, ISSN 1613-0073 , заархивировано из оригинала (PDF) 2 апреля 2012 г. CS1 maint: обескураженный параметр ( ссылка )

[Gipp14-25] Гипп, Бела (2014), Обнаружение плагиата на основе цитирования , Springer Vieweg Research, ISBN 978-3-658-06393-1

[Gipp10-26] Гипп, Бела; Бил, Йоран (июнь 2010 г.), «Обнаружение плагиата на основе цитирования - новый подход к независимому выявлению плагиата рабочего языка», Материалы 21-й конференции ACM по гипертексту и гипермедиа (HT'10) (PDF) , ACM, стр. 273– 274, DOI : 10,1145 / 1810617,1810671 , ISBN 978-1-4503-0041-4, S2CID 2668037 , заархивировано из оригинала (PDF) 25 апреля 2012 г. , получено 21 октября 2011 г.

[Gipp13-27] Гипп, Бела; Meuschke, Norman; Брайтингер, Коринна; Липинский, Марио; Нюрнбергер, Андреас (28 июля 2013 г.), «Демонстрация анализа шаблонов цитирования для обнаружения плагиата», Труды 36-й Международной конференции ACM SIGIR по исследованиям и разработкам в области информационного поиска (PDF) , ACM, стр. 1119, DOI : 10,1145 / 2484028,2484214 , ISBN 9781450320344, S2CID 2106222

[Gipp11a-28] Гипп, Бела; Меушке, Норман (сентябрь 2011 г.), «Алгоритмы сопоставления с образцом цитирования для обнаружения плагиата на основе цитирования: жадное разбиение цитирования, разбиение на фрагменты и самая длинная общая последовательность цитирования», Труды 11-го симпозиума ACM по разработке документов (DocEng2011) (PDF) , ACM ., стр 249-258, DOI : 10,1145 / 2034691,2034741 , ISBN 978-1-4503-0863-2, S2CID 207190305 , заархивировано из оригинала (PDF) 25 апреля 2012 г. , получено 7 октября 2011 г.

[Gipp11-29] Гипп, Бела; Meuschke, Norman; Бил, Йоран (июнь 2011 г.), «Сравнительная оценка подходов к обнаружению плагиата на основе текста и цитирования с использованием GuttenPlag», Труды 11-й совместной конференции ACM / IEEE-CS по электронным библиотекам (JCDL'11) (PDF) , ACM, стр. . 255-258, CiteSeerX 10.1.1.736.4865 , DOI : 10.1145 / 1998076.1998124 , ISBN 978-1-4503-0744-4, S2CID 3683238 , заархивировано из оригинального (PDF) 25 апреля 2012 г. , получено 7 октября 2011 г.

[Gipp09-30] Гипп, Бела; Биль, Йоран (июль 2009 г.), «Анализ близости цитирования (CPA) - новый подход к идентификации связанных работ на основе анализа совместного цитирования», Труды 12-й Международной конференции по наукометрии и информетрике (ISSI'09) (PDF) , Международное общество наукометрии и информетрики, стр. 571–575, ISSN 2175-1935 , заархивировано из оригинала (PDF) 13 сентября 2012 г. , извлечено 7 октября 2011 г.

[Holmes98-31] Холмс, Дэвид И. (1998), "Эволюция стилометрии в гуманитарной Стипендии", литературные и лингвистический Computing , 13 (3): 111-117, DOI : 10,1093 / ооо / 13.3.111

[Juola08-32] Juola, Патрик (2006), "авторство" (PDF) , основа и тенденции информационного поиска , 1 (3): 233-334, CiteSeerX 10.1.1.219.1605 , DOI : 10,1561 / 1500000005 , ISSN 1554-0669

[Stein11-33] Штейн, Бенно; Липка, Недим; Prettenhofer, Питер (2011), "Собственное Плагиат анализ" (PDF) , лингвистические ресурсы и оценка , 45 (1): 63-82, DOI : 10.1007 / s10579-010-9115-у , ISSN 1574-020X , S2CID 13426762 , заархивировано из оригинала (PDF) 2 апреля 2012 г. , извлечено 7 октября 2011 г.

[34] Бенсалем, Имене; Россо, Паоло; Чихи, Салим (2019). «Об использовании символьных n-граммов как единственного внутреннего доказательства плагиата». Языковые ресурсы и оценка . 53 (3): 363–396. DOI : 10.1007 / s10579-019-09444-ш . hdl : 10251/159151 . S2CID 86630897 .

[HTW04-35] Портал Plagiat - Softwaretest 2004 (на немецком языке ), HTW Университет прикладных наук Берлина, архивируются с оригинала на 25 октября 2011 года , получен 6 октября 2 011 CS1 maint: обескураженный параметр ( ссылка )

[HTW08-36] Портал Plagiat - Softwaretest 2008 (на немецком языке), HTW University of Applied Sciences Berlin , получено 6 октября 2011 г. CS1 maint: обескураженный параметр ( ссылка )

[HTW10-37] Портал Plagiat - Softwaretest 2010 (на немецком языке), HTW University of Applied Sciences Berlin , данные получены 6 октября 2011 г. CS1 maint: обескураженный параметр ( ссылка )

[Potthast10-38] Поттхаст, Мартин; Баррон-Седеньо, Альберто; Эйзельт, Андреас; Штейн, Бенно; Россо, Паоло (2010), «Обзор 2-го Международного конкурса по обнаружению плагиата», Записные книжки лабораторий и семинаров CLEF 2010, 22–23 сентября, Падуя, Италия (PDF) , заархивировано из оригинала (PDF) 3 апреля. 2012 г. , дата обращения 7 октября 2011 г.

[Potthast11-39] Поттхаст, Мартин; Эйзельт, Андреас; Баррон-Седеньо, Альберто; Штейн, Бенно; Россо, Паоло (2011), «Обзор 3-го Международного конкурса по обнаружению плагиата», Записные книжки лабораторий и семинаров CLEF 2011, 19–22 сентября, Амстердам, Нидерланды (PDF) , заархивировано из оригинала (PDF) 2 апреля. 2012 г. , дата обращения 7 октября 2011 г.

[Potthast10a-40] Поттхаст, Мартин; Баррон-Седеньо, Альберто; Штейн, Бенно; Rosso, Паоло (2011), "Cross-Language Плагиат Detection" (PDF) , лингвистические ресурсы и оценка , 45 (1): 45-62, DOI : 10.1007 / s10579-009-9114-г , ЛВП : 10251/37479 , ISSN 1574-020X , S2CID 14942239 , заархивировано из исходного (PDF) 26 ноября 2013 г. , извлечено 7 октября 2011 г.

[Weber-Wulff08-41] Вебер-Вульф, Дебора (июнь 2008 г.), «Об использовании программного обеспечения для обнаружения плагиата», в материалах 3-й Международной конференции по плагиату, Ньюкасл-апон-Тайн (PDF)

[42] «Предотвращение и обнаружение плагиата - Интернет-ресурсы о плагиате исходного кода». Архивировано 15 ноября 2012 г. на Wayback Machine . Академия высшего образования , Ольстерский университет .

[43] Рой, Чанчал Кумар; Корди, Джеймс Р. (26 сентября 2007 г.). «Обзор исследований по обнаружению клонов программного обеспечения» . Школа вычислительной техники Королевского университета, Канада .

[1]