Страница полузащищенная
Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

STiki - это инструмент, доступный доверенным пользователям, который используется для обнаружения и отмены случаев вандализма , спама и других типов неконструктивных изменений, внесенных в Википедию. STiki выбирает правки для показа конечным пользователям; если отображаемое изменение расценено как вандализм, спам и т. д., STiki оптимизирует процесс возврата и предупреждения. STiki способствует сотрудничеству в борьбе с вандализмом; централизованно хранящиеся списки правок, подлежащих проверке, обслуживаются пользователями STiki, чтобы уменьшить избыточные усилия. STiki - это не бот для Википедии : это интеллектуальный инструмент маршрутизации, который направляет пользователей-людей на потенциальный вандализм для окончательной классификации.

На сегодняшний день STiki был использован для отмены 1 265 447 правок, которые пользователи определили как вандализм, спам или иным образом неконструктивные (см. Таблицу лидеров и основные этапы работы редактора ).

Скачать

Интерфейсный графический интерфейс , распространяемый в виде исполняемого файла * .JAR . После распаковки дважды щелкните файл * .JAR для запуска (Windows, OS X) или введите команду терминала «java -jar STiki_exec_ [date] .jar» (Unix).
STiki продолжает активно развиваться как в отношении внешнего графического интерфейса пользователя, так и в отношении внутренних систем оценки. Регулярно проверяйте наличие обновленных версий.
Полный исходный код для графического интерфейса и внутреннего сервера. Библиотечные зависимости ( IRC и JDBC ) не включены.
Также доступны статически: STiki Source (2,0 МБ) --- Компонент обработки ссылок (114 КБ; возможно, код API устарел / не работает).
Обратите внимание, что он также содержит исходный код инструмента WikiAudit .

Использование STiki

STiki могут использовать только редакторы с учетной записью в Википедии . Кроме того, учетная запись должна соответствовать некоторым требованиям, чтобы снизить вероятность неверного определения пользователями вандализма . Учетная запись должна иметь одно из: (1) разрешение / право на откат , (2) не менее 1000 изменений статьи (в пространстве имен статей , а не на страницах обсуждения / пользователей) или (3) специальное разрешение через страницу обсуждения . Мы подчеркиваем, что пользователи должны нести ответственность за свои действия в STiki.

После входа в систему пользователи в основном взаимодействуют с инструментом GUI , классифицируя правки по одной из четырех категорий:

Пользовательский интерфейс STiki показывает случаи вандализма . Слева расположены кнопки классификации правок. Ссылки для более глубокого исследования находятся внизу в разделах «последний возврат» и «изменение свойств». Текстовое поле в нижнем левом углу позволяет пользователю изменять сводку редактирования, которая остается после возврата.

Неопределенность важнее конструктивности: если пользователь не уверен в конструктивности редактирования, самым быстрым решением часто является поиск в Интернете ( например , с помощью Google); это может показать, является ли некий «факт» правдой. Конечно, пользователи STiki должны учитывать надежность найденного источника. Если не удается найти надежный источник, правильным ответом может быть добавление тега {{ Требуется цитирование }} или {{ Проверка достоверности }} с использованием обычного интерфейса вики. Когда контент был удален, здравый смысл обычно является лучшим руководством. Есть ли в удаленном тексте цитаты? (Обратите внимание, что проверка самих цитат может потребоваться в контенте о живых людях..) Что такое сводка редактирования? Имеет ли смысл это объяснение? Обсуждается ли это на странице обсуждения? Независимо от проблемы, все, что требует специальных знаний для решения, вероятно, лучше всего классифицировать как «невиновное» или «пройденное».

Неопределенность по поводу злого умысла : бывает сложно отличить вандализм от добросовестного редактирования, которое, тем не менее, является неконструктивным. Тестовые правки следует классифицировать как «вандализм», поскольку первоначальные предупреждения и комментарии редактирования учитывают этот случай. Если неконструктивное редактирование или сводка редактирования указывают на неопытность Википедии, возможно, лучше всего пометить правку как «добросовестную» и оставить сообщение на странице обсуждения нового пользователя с предложением помощи. Помимо этого, здравый смысл обычно является лучшим руководством. Рассмотрим рассматриваемую статью. Может быть, это то, что может заинтересовать молодых редакторов? Есть ли правда в том, что говорится (отсутствие форматирования, языка и организационных вопросов)?

Более глубокое расследование : Иногда откат («вандализм» или «добросовестность») не устраняет всех проблем, представленных в различии, или различие не содержит достаточно доказательств, чтобы сделать окончательную классификацию. В этих случаях используйте гиперссылки (синий подчеркнутый текст) для открытия соответствующих страниц в веб-браузере по умолчанию. Это полезно, например, для: (1) просмотра страницы обсуждения статьи, чтобы узнать, обсуждалась ли какая-либо проблема, (2) внесения изменений с использованием обычного интерфейса и (3) использования других инструментов, таких как Popups , Twinkle и wikEdDiff .

Когда вы вернетесь к инструменту STiki, вам все равно потребуется классифицировать редактирование. Если вы использовали интерфейс браузера для редактирования статьи, нажатие «вандализма» или «добросовестного возврата» не отменит ваши изменения и не окажет прямого влияния на Википедию. Классифицируйте отображаемую правку как можно лучше. Такая классификация поможет STiki выявлять похожие правки в будущем.

Советы по интерфейсу : в STiki есть горячие клавиши для облегчения взаимодействия пользователя с инструментом. После однократного редактирования классифицирован с помощью мыши (давая панель кнопок «фокус»), ключи V, G, Pи Iбудет отмечать изменения как «вандализм», «добросовестность», «проход», и «невинные» соответственно. В том же режиме клавиши Page Up, Page Down , Up Arrow (↑) и Down Arrow (↓) также будут прокручивать браузер различий. Также обратите внимание, что гиперссылки, которые появляются в различиях, можно открывать в вашем веб-браузере, предполагая, что опция «Активировать Ext-Links» (на вкладке «Опции») включена. STiki хранит ваши настройки в файле с именем.STiki.props.xml, так что там можно быстро изменить свои настройки.

Сравнение с другими инструментами

Отличительной чертой STiki являются следующие особенности :

Изменить приоритет

STiki приказывает, чтобы изменения отображались конечным пользователям в приоритетных очередях. Приоритет редактирования основан на его оценке системой оценки защиты от повреждений. Различные системы производят разные оценки / очереди, и пользователи могут явно выбрать очередь для доступа с помощью меню «Rev. Queue». Все подходы основаны на машинном обучении , из которых есть два активных и два неактивных подхода:

Когда STiki широко используется, частота актов вандализма, обнаруженных в одной очереди, может значительно снизиться - явление, называемое «исчерпанием очереди». В таких случаях может быть целесообразно попробовать альтернативную очередь. Пользователи также должны осознавать, что количество случаев вандализма в Википедии ограничено. Чем больше людей используют STiki, тем меньший процент увидит любой пользователь. Это не значит, что у STiki «плохо»; это означает, что энциклопедия делает «хорошо».

Оценка и происхождение метаданных

Здесь мы выделяем конкретную систему оценки, основанную на машинном обучении над свойствами метаданных. Эта система была разработана теми же авторами, что и графический интерфейс интерфейса STiki, была единственной системой, поставляемой с первыми версиями, и разделяла кодовую базу / дистрибутив с графическим интерфейсом пользователя STiki. Эта система также дала название всему программному пакету (производное от S патио T emporal processing в W iki pedia), хотя это акронимическое значение сейчас преуменьшено.

«Система метаданных» проверяет только четыре поля редактирования при оценке: (1) отметка времени, (2) редактор, (3) статья и (4) комментарий к редакции. Эти поля используются для расчета характеристик, относящихся к статусу регистрации редактора, редактирования времени суток, редактирования дня недели, географического происхождения , истории страницы, членства в категориях, длины комментария к редакции и т . Д. Эти сигналы передаются классификатору ADTree для определения вероятностей вандализма. Модели машинного обучения обучаются по классификациям, представленным на интерфейсе STiki. Более подробное обсуждение этого метода можно найти в публикации EUROSEC 2010 .

API был разработан, чтобы предоставить другим исследователям / разработчикам доступ к функциям необработанных метаданных и возникающим в результате вероятностям вандализма. README описывает детали API.

Этот документ был академической попыткой показать, что свойства языка не являются необходимыми для обнаружения вандализма в Википедии. В этом отношении он преуспел, но с тех пор система была ослаблена для универсального использования. Например, движок теперь включает в себя несколько простых языковых функций. Более того, было принято решение интегрировать другие системы оценки в интерфейс GUI.

Архитектура

Схема работы STiki

STiki использует архитектуру сервер / клиент :

1. Внутренняя обработка, которая отслеживает все недавние изменения в Википедии и вычисляет / извлекает вероятность того, что каждое из них является вандализмом. Этот механизм вычисляет оценки для системы оценки метаданных и использует API / каналы для получения оценок, рассчитанных сторонними системами. При редактировании заполняется серия взаимосвязанных очередей приоритетов, в которых оценка вандализма является приоритетной. Обслуживание очереди гарантирует, что только самые последние изменения статьи будут доступны для просмотра. Внутренняя работа выполняется на серверах STiki (размещенных в Университете Пенсильвании ), в значительной степени полагаясь на базу данных MySQL .

2. Интерфейсный интерфейс , отображающий различия , которые, по мнению серверной части, вероятно, содержат вандализм, для пользователей-людей и запрашивает окончательную классификацию. Пользовательский интерфейс STiki - это настольное приложение Java . Это упрощает процесс возвращаясь плохие изменения и выдачи предупреждений / ВГП -notices для провинившихся редакторов. Интерфейс разработан для быстрого просмотра. Более того, процесс классификации устанавливает петлю обратной связи для улучшения алгоритмов обнаружения.

Связанная работа и сотрудничество

Авторы STiki стремятся работать над совместными решениями по борьбе с вандализмом. С этой целью для внутренних вычислений STiki доступен API . Прямая трансляция результатов также публикуется на канале "# arm-stiki-scores" на IRC-сервере armstrong.cis.upenn.edu. Более того, весь код STiki имеет открытый исходный код.

В ходе нашего исследования мы собрали большие объемы данных, как пассивно относящихся к Википедии, так и благодаря активному использованию пользователями инструмента STiki. Мы заинтересованы в том, чтобы поделиться этими данными с другими исследователями. Наконец, дистрибутивы STiki содержат программу под названием Offline Review Tool (ORT), которая позволяет быстро просмотреть и аннотировать предоставленный пользователем набор правок. Мы считаем, что этот инструмент окажется полезным для исследователей, занимающихся созданием корпусов.

Кредиты и дополнительная информация

STiki был написан Эндрю Дж. Уэстом ( west.andrew.g ), когда он был докторантом компьютерных наук в Университете Пенсильвании , под руководством Инсупа Ли . Академический документ , который формируется методология Стики была в соавторстве с Сампат Kannan и Insup Ли . Работа частично поддержана ONR -MURI-N00014-07-1-0907.

В дополнение к уже обсуждавшейся академической статье, было несколько описаний / публикаций, посвященных STiki, которые могут оказаться полезными для разработчиков антивандализма. Программное обеспечение STiki было представлено на демонстрации WikiSym 2010 , а плакат WikiSym 2010 визуализирует это содержимое и предоставляет некоторую статистику возврата STiki. STiki также был представлен на Wikimania 2010 со следующими слайдами презентации . В дополнительном документе (не рецензируемом) рассматриваются методы STiki и антивандализма, поскольку они относятся к более широкой проблеме доверия к совместным приложениям. Наконец, экосистема защиты от повреждений и технический вклад STiki были обобщены в докторской диссертации разработчика.. Эта работа является новинкой в ​​анализе ~ 1 миллиона действий классификации STiki, чтобы узнать о человеческих / социальных аспектах процесса патрулирования.

Помимо STiki в отдельности, в статье CICLing 2011 исследуется методика оценки метаданных STiki относительно (и в сочетании с) функций NLP и сохранения контента (два лучших результата конкурса PAN 2010 ) - и в этом процессе устанавливаются новые базовые показатели производительности. Также был проведен конкурс PAN-CLEF 2011 года, который потребовал обработки нескольких естественных языков; запись стики выиграла во всех задачах. В презентации Wikimania 2011 был рассмотрен стремительный прогресс в сфере антивандализма (как в академической среде, так и в вики) за период 2010–2011 годов. Наконец, EDUCAUSE опубликовал исследовательский бюллетень . рассматривает проблему ущерба Википедии / вики с точки зрения организации и высшего образования с особым упором на защиту институционального благополучия.

Запросы, не рассмотренные в этих статьях, следует адресовать авторам STiki.

Ящики для пользователей, награды и разное

Ящики пользователя

Для тех, кто хотел бы продемонстрировать свою поддержку STiki через пользовательский ящик , были созданы / предоставлены следующие возможности:

Дополнительная информация

Другие изображения STiki, реклама, рекламные материалы и статистика:

  • Реклама в ротации Википедии :
  • STiki barnstar, созданный пользователем: Centibyte (обратите внимание также на "веху" STiki barnstars ):
  • Некоторая статистика о доле рынка STiki
Награды