Постоянно защищенная страница
Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Документация [ просмотреть ] [ изменить ] [ историю ] [ очистить ]

Аварийное отключение администратора

Администраторы могут отключить бота, изменив эту страницу на «Ложь».

Соответствует исключению

Этот бот совместим с исключениями .

Резюме

ClueBot NG - это антивандальный бот, который пытается быстро и автоматически обнаруживать и устранять случаи вандализма .

Команда

  • Кристофер Бренеман - Crispy1989  ( обсуждение  · вклад ) - написал и поддерживает механизм обнаружения ядра и конфигурацию ядра.
  • Коби Картер - Коби  ( обсуждение  · вклад ) - написал и поддерживает код интерфейса Википедии и интерфейс обзора .

Особая благодарность:

  • Tim - Tim1357  ( обсуждение  · вклад ) - Для написания исходного кода загрузчика набора данных и предоставления исходного набора данных.
  • Methecooldude  ( обсуждение  · вклад ) - За предоставление серверных ресурсов в ClueNet .
  • DamianZaremba  ( обсуждение  · вклад ), SnoFox  ( обсуждение  · вклад ), H3llkn0wz  ( обсуждение  · вклад ) и b930913  ( обсуждение  · вклад ) - За помощь в решении мелких проблем, тестировании и работе с людьми.
  • Каждый пользователь, внесший свой вклад в интерфейс просмотра набора данных.
  • Всем, кто сделал полезное и полезное предложение.

Вопросы, комментарии, комментарии и предложения относительно:

  • основной движок, алгоритмы и конфигурация должны быть направлены на Crispy1989  ( обсуждение  · вклад ).
  • интерфейс бота с Википедией и интерфейс обзора набора данных должен быть направлен на Cobi  ( обсуждение  · вклад ).
  • исходный набор данных бота должен быть направлен на Tim1357  ( обсуждение  · вклад ).

Интерфейс просмотра набора данных

Чтобы бот был эффективным, необходимо расширить набор данных. В нашем текущем наборе данных есть некоторая степень предвзятости, а также некоторые неточности. Нам нужны волонтеры, которые помогут проанализировать правки и классифицировать их как вандализм или конструктивные. Мы надеемся в конечном итоге полностью заменить наш текущий набор данных случайной выборкой правок, проверенных и классифицированных добровольцами. Более подробные инструкции по использованию интерфейса и самого интерфейса находятся в интерфейсе просмотра набора данных (в настоящее время не работает).

Расширенная статистика по авторам, включая количество отзывов и точность редактирования, доступна здесь .

Для тех, кто помогает и вносит свой вклад в интерфейс обзора, доступен ящик пользователя:


Используйте его с: {{User: ClueBot NG / Review User Box}}

Статистика

Поскольку для работы ClueBot NG требуется набор данных, набор данных также можно использовать для получения довольно точной статистики о его точности и работе. Для обучения и тестирования используются разные части набора данных, поэтому эта статистика не является необъективной.

Точная статистика часто меняется и улучшается по мере обновления бота. В настоящее время:

  • Выбирая порог для оптимизации общей точности, бот правильно классифицирует более 90% правок.
  • Выбрав порог для удержания ложных срабатываний с максимальной частотой 0,1% (текущая настройка) , бот улавливает примерно 40% всех случаев вандализма.
  • Выбрав процент ложных срабатываний 0,25% (старая настройка), бот улавливает примерно 55% всех случаев вандализма.

В настоящее время набор пробных данных, используемый для генерации этой статистики, представляет собой случайную выборку правок, каждое из которых просматривается как минимум двумя людьми, поэтому статистика является точной.

Примечание. Эти статистические данные рассчитываются перед фильтрами постобработки. Фильтры постобработки в первую очередь снижают частоту ложных срабатываний (т. Е. Фактическое количество ложных срабатываний будет меньше, чем указано здесь), но также могут немного снизить частоту улова.

Часто задаваемые вопросы

См. FAQ .

Алгоритм обнаружения вандализма

ClueBot NG использует совершенно другой метод классификации вандализма, чем все предыдущие антивандальные боты, включая оригинальный ClueBot. Предыдущие антивандальные боты использовали список простых эвристик и занесенных в черный список слов, чтобы определить, является ли редактирование вандализмом. Если определенное количество эвристик совпало, правка была классифицирована как вандализм. Этот метод приводит к довольно большому количеству ложных срабатываний, потому что многие эвристики имеют законное применение в некоторых контекстах, и только от 5% до 10% случаев вандализма, потому что большинство вандализмов не может быть обнаружено с помощью этих простых эвристик.

ClueBot NG использует комбинацию различных методов обнаружения, в основе которых лежит машинное обучение. Они описаны ниже.

Основы машинного обучения

Вместо заранее определенного списка правил, который создает человек, ClueBot NG автоматически изучает то, что считается вандализмом, путем изучения большого списка изменений, которые предварительно классифицируются как конструктивные или вандализм. Его концепция того, что считается вандализмом, была получена от людей-вандалов. Этот список правок называется корпусом или набором данных. Точность бота во многом зависит от размера и качества набора данных. Если набор данных небольшой, содержит неточно классифицированные правки или не содержит случайную выборку правок, производительность бота существенно снижается. Лучшее, что вы и другие википедисты можете сделать, чтобы помочь боту, - это улучшить набор данных. Если вы заинтересованы в помощи, см. Раздел «Интерфейс просмотра набора данных».

Байесовские классификаторы

В ClueBot NG используется несколько разных байесовских классификаторов. Самый простой работает в единицах слов. По сути, для каждого слова подсчитывается количество конструктивных правок, добавляющих слово, и количество правок вандализма, добавляющих это слово. Это используется для формирования вероятности вандализма для каждого добавленного слова при редактировании. Вероятности комбинируются таким образом, что используются не только слова, часто встречающиеся в вандализме, но и слова, которые редко встречаются в вандализме, могут снизить оценку.

Это отличается от простого списка слов из черного списка тем, что веса слов точно определены как оптимальные, а также есть большой «белый список» слов, также с оптимальным весом, который вносит свой вклад.

В настоящее время существует также отдельный байесовский классификатор, работающий в единицах фраз из 2 слов. В будущем мы можем добавить еще больше байесовских классификаторов, которые будут работать с разными единицами слов или словами в разных контекстах.

Результаты одних только байесовских классификаторов не используются. Вместо этого они вводятся в нейронную сеть как простые входные данные. Это позволяет нейронной сети уменьшить количество ложных срабатываний из-за простых слов из черного списка и отловить вандализм, который добавляет неизвестные слова.

Искусственная нейронная сеть

Основным компонентом алгоритма обнаружения вандализма ClueBot NG является нейронная сеть. Искусственная нейронная сеть представляет собой машину метод обучения , который может распознавать образы в наборе входных данных , которые являются более сложными , чем просто определение веса. Входные данные для ИНС, используемые в ClueBot NG, состоят из ряда различных статистических данных, рассчитанных на основе редактирования, которые включают, среди прочего, результаты байесовских классификаторов. Каждая статистика должна быть масштабирована до числа от нуля до единицы перед вводом в нейронную сеть.

Выходные данные нейронной сети используются в качестве основной оценки вандализма для ClueBot NG. Как и в случае с другими методами машинного обучения, точность оценки зависит от размера и точности набора обучающих данных.

Расчет порога

ИНС генерирует оценку вандализма от 0 до 1, где 1 означает 100% уверенность в вандализме. Чтобы классифицировать некоторые правки как вандализм, а некоторые как конструктивные, к оценке должен применяться порог. Оценки выше порогового значения классифицируются как вандализм, а оценки ниже порогового значения классифицируются как конструктивные.

Порог выбирается не случайно, а рассчитывается для соответствия заданному уровню ложных срабатываний. При обнаружении фактического вандализма важно минимизировать количество ложных срабатываний. Человек выбирает процент ложных срабатываний, то есть процент конструктивных правок, ошибочно классифицированных как вандализм. Пороговое значение рассчитывается таким образом, чтобы коэффициент ложных срабатываний не превышал этот процент, при этом коэффициент улова был максимальным. Уровень ложных срабатываний устанавливается человеком, и бот остается на уровне или ниже этого уровня ложных срабатываний, при этом улавливая как можно больше вандализма. Частота ложных срабатываний не фиксирована, но регулируется.

Чтобы убедиться, что порог и статистика являются точными и не дают неточной статистики или более высокого процента ложных срабатываний, чем ожидалось, часть набора данных, используемая для вычисления пороговых значений, хранится отдельно от обучающего набора и не используется для обучения. Кроме того, для этого расчета используются только самые точные части набора данных (в настоящее время те, которые проверяются человеком из интерфейса обзора). Это гарантирует, что вся приведенная здесь статистика является точной и что количество ложных срабатываний не превысит заданное значение.

Фильтры постобработки

После того, как ядро ​​делает первичное определение вандализма, данные передаются в интерфейс Википедии. Интерфейс Википедии содержит простую логику, предназначенную для уменьшения количества ложных срабатываний. Хотя это также немного снижает уровень выявления случаев вандализма, он также снижает частоту ложных срабатываний, и некоторые из них предусмотрены политикой Википедии.

Первые два из них редко снижают улов, но оба предотвращают изрядное количество ложных срабатываний. Примечание. Частота ложных срабатываний (и коэффициент обнаружения) рассчитывается в ядре перед фильтрами постобработки. Это означает, что фактическая частота ложных срабатываний будет меньше заявленной, часто в значительной степени.

  • Белый список пользователей - если изменение, внесенное пользователем из белого списка, классифицируется как вандализм, изменение не отменяется.
  • Счетчик правок - если у пользователя больше порогового количества правок и меньше порогового процента предупреждений, редактирование не отменяется.
  • 1RR - одна и та же комбинация пользователь / страница не возвращается более одного раза в день, если только страница не находится в списке сердитых откатов .

Новости развития / Статус

Core Engine

  • Текущая версия работает хорошо.
  • В настоящее время пишется специальный анализатор разметки вики для более точных метрик, зависящих от контекста разметки. (Никакие существующие альтернативные парсеры не являются полными или достаточно быстрыми)

Интерфейс просмотра набора данных

  • Код для импорта правок в базу данных готов.
  • В настоящее время меняется логика, определяющая конечный результат редактирования.

Статус набора данных

  • Мы обнаружили, что загрузчик набора данных Python, который мы использовали для создания набора данных для обучения, не генерирует данные, идентичные загрузчику в реальном времени. Возможно, это сильно снижает эффективность живого бота. Мы работаем над написанием общего кода для загрузки в реальном времени и генерации набора данных, чтобы мы могли регенерировать набор данных.
  • Это было исправлено, и бот переобучен. Теперь он работает намного лучше.
  • В настоящее время получаю больше данных из интерфейса обзора.

Языки

  • C / C ++  - Ядро написано на C / C ++ с нуля.
  • PHP  - оболочка бота (интерфейс Википедии) написана на PHP и имеет общий код с исходным ClueBot.
  • Java.  Интерфейс просмотра набора данных написан на Java с использованием платформы Google App.
  • Bash  . Несколько сценариев, упрощающих обучение и поддержку бота, представляют собой сценарии Bash.
  • Python  - некоторые из исходных инструментов для управления наборами данных и загрузки были написаны на Python.

Исходный код

Исходный код бота общедоступен, его можно найти на github . Обратитесь к разработчикам за доступом. Если вы хотите запустить бота на своей собственной вики, вам следует обсудить с разработчиками все факторы, влияющие на его правильную работу. Вы также должны знать, что он будет работать только в системе Linux / UNIX, и исходный код может быть довольно сложно скомпилировать (многие зависимости), если вы не имеете опыта работы с системами Linux / UNIX.

ClueBot NG IRC-каналы

ClueBot NG поддерживает IRC-канал своих данных, в основном предназначенный для использования другими автоматизированными инструментами, расположенный по адресу # wikipedia-en-cbngfeed в сети freenode . По сути, это копия канала Wikipedia RC, но с добавленными данными анализа ClueBot NG. Он включает в себя все, что делает канал Wikipedia RC, с добавлением оценки ClueBot NG и того, был ли он отменен или нет. Формат есть edit line \003 # score # reason # Reverted or Not reverted.

Обратите внимание, что правки в ленте не обязательно должны быть в точном порядке, потому что ClueBot NG обрабатывает их параллельно. Неотмененные правки обычно обрабатываются менее чем за секунду. Обработка отозванных правок иногда может занять до 10 секунд и более из-за задержки API при возврате.

Информация о ложных срабатываниях

ClueBot NG - это не человек, это автоматический робот, который пытается обнаружить вандализм и сохранить Википедию в чистоте. Ложноположительный когда правка , что не вандализм неправильно классифицируются как вандализм.

Бот не настроен против вас, вашего редактирования или вашей точки зрения (если только ваше изменение не является вандализмом). Ложные срабатывания случаются редко, но все же случаются. Хорошо обрабатывая ложные срабатывания, не расстраиваясь, вы помогаете этому боту отлавливать почти половину всех случаев вандализма в Википедии и поддерживать чистоту вики для всех нас.

Ложные срабатывания ClueBot NG (по сути) неизбежны. Для того, чтобы эффективно отловить большое количество случаев вандализма, необходимо отловить несколько конструктивных (или, по крайней мере, сделанных из лучших побуждений) правок. Есть очень мало ложных срабатываний, но они случаются. Если одно из ваших правок неправильно идентифицировано как вандализм, просто повторите правку, удалите предупреждение со страницы обсуждения и, если хотите, сообщите о ложном срабатывании. ClueBot NG (пока) не является разумным - это автоматизированный робот, и если он неправильно отменяет ваше редактирование, это не означает, что ваше редактирование плохое или даже некондиционное - это просто случайная ошибка в классификации бота, как и электронная почта. спам-фильтры иногда неправильно классифицируют сообщения как спам.

Причина, по которой необходимы ложные срабатывания, связана с тем, как работает бот. Использует сложный внутренний алгоритмназывается искусственной нейронной сетью, которая генерирует вероятность того, что данное изменение является вандализмом. Вероятность обычно довольно близка, но иногда может значительно отличаться от того, что должно быть. Классифицируется ли редактирование как вандализм, определяется путем применения порогового значения к этой вероятности. Чем выше порог, тем меньше ложных срабатываний, но и меньше обнаруживается вандализм. Порог выбирается, принимая фиксированную частоту ложных срабатываний (процент конструктивных изменений, неправильно классифицированных как вандализм) и оптимизируя количество выявленных вандализмов на основе этого. Это означает, что всегда будут некоторые ложные срабатывания, и всегда будет примерно один и тот же процент конструктивных правок. Текущая настройка количества ложных срабатываний указана в разделе «Статистика» выше.

Когда возникают ложные срабатывания, это не может быть плохое качество редактирования, и может даже не быть видимой причины. Если вы сообщите о ложном срабатывании, специалисты по обслуживанию бота изучат его, попытаются определить, почему произошла ошибка, и, если возможно, улучшат точность бота для будущих аналогичных изменений. Хотя это не предотвратит ложных срабатываний, это может помочь уменьшить количество качественных правок, которые являются ложными срабатываниями. Кроме того, если точность бота повысится настолько, что количество ложных срабатываний может быть уменьшено без значительного снижения уровня выявления случаев вандализма, мы сможем уменьшить общее количество ложных срабатываний.

Если вы хотите помочь значительно повысить точность работы бота, вы можете изменить ситуацию, внося свой вклад в интерфейс обзора. Это должно помочь нам более точно определить порог, выявить больше случаев вандализма и, в конечном итоге, уменьшить количество ложных срабатываний.

Чтобы сообщить о ложном срабатывании или просмотреть полный список всех ложных срабатываний, см. Здесь .

Ящик пользователя

Для тех, кто помогает и способствует ложному срабатыванию интерфейса, вам доступен ящик пользователя:


Используйте его с:

{{User: ClueBot NG / Report User Box}}


Награды

Показать все награды

Несколько батарей для вас!

TK421bsod ( разговорное ) 20:04, 30 января 2020 (UTC)

Барнстар для вас!

Робот для ClueBot NG



Хвалить

Показать всю похвалу

Взносы

Мои вклады