Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Take an AI-generated flashcard quiz about Wikipedia; Wikipedia's anti-feudalism: And other new research publications


Wikimedia Research Newsletter Logo.png
Ежемесячный обзор последних академических исследований Википедии и других проектов Викимедиа, также публикуемый как Информационный бюллетень Викимедиа .


«WikiFlash: создание карточек из статей Википедии»

Отзыв Тилмана Байера

Карточки - популярный метод запоминания информации. В статье [1] шести исследователей из Цюриха, представленной ранее в этом месяце на ежегодной конференции AAAI , описан инструмент для автоматического извлечения карточек из статей Википедии с целью «сделать независимое образование более привлекательным для более широкой аудитории».

Пробная версия доступна в Интернете , а результаты доступны для экспорта в формате, который можно использовать с популярным программным обеспечением для карточек Anki . Пользователь может выбрать один из четырех различных вариантов, основанных либо на всей статье Википедии, либо только на ее вводном разделе.

Исследователи подчеркивают, что «создание значимых карточек из произвольного фрагмента текста - нетривиальная задача» (также касающаяся вычислительных затрат), и что в настоящее время не существует единой модели, которая могла бы это сделать. Они разделяют задачу на четыре этапа, в каждом из которых используются существующие техники НЛП :

  • обобщение, чтобы сначала извлечь наиболее релевантную информацию из Википедии (пользователь также может пропустить этот шаг и вместо этого создать карточки на основе полного текста)
  • идентификация ответа, когда модель извлекает утверждения ответа из данного предложения на основе контекстной информации из окружающего абзаца
  • генерация вопроса, когда модель строит вопрос из утверждения, сгенерированного на предыдущем шаге, снова принимая во внимание контекстную информацию из окружающего абзаца
  • Для повышения качества за ними следует заключительный этап фильтрации, на котором модель ответов на вопросы пытается восстановить ответ на основе абзаца, из которого был извлечен вопрос, а сгенерированная флэшкарта отбрасывается, если восстановленный ответ недостаточно перекрывается с заранее сгенерированный ответ.

Помимо оценки результатов с использованием количественных текстовых мер, исследователи также провели исследование пользователей, чтобы сравнить результаты своего инструмента с созданными человеком карточками из двух тематических областей, географии и истории, оцененных по полезности, понятности и воспринимаемой правильности. Результаты показывают, что в случае географии нет статистически значимой разницы между созданными людьми и нашими картами по любому из трех аспектов. Для истории разница в полезности и понятности статистически значима (p <0,01), с человеческими карты немного лучше наших карт. Ни в одной из категорий не было обнаружено статистически значимой разницы в воспринимаемой правильности ». (Однако выборка была довольно небольшой, с 50 механическими турками. пользователи разделены на две группы по географии и истории.)

Быстрое тестирование инструмента со статьей Wikipedia (только введение) дало следующий результат (текст воспроизведен без изменений):

Вопрос : Что использует Википедия для поддержания своего [sic] содержания?

Вопрос : Какое место занимала Википедия в 2021 году?

Вопрос : На каком языке изначально была доступна Википедия?

Вопрос : Сколько статей в англоязычной версии Википедии [sic] по состоянию на февраль 2021 года?

Вопрос : Кто размещает Википедию?

Вопрос : Чье видение, по мнению журнала Time , сделало Википедию лучшей энциклопедией в мире?

Вопрос : Что такое системная предвзятость в Википедии?

Вопрос : За что хвалили Википедию в 2010-х?

Вопрос : Какие две социальные сети объявили в 2018 году, что они помогут пользователям обнаруживать фейковые новости, предлагая ссылки на соответствующие статьи в Википедии?


Вкратце


Другие недавние публикации

Другие недавние публикации, которые не удалось вовремя осветить для этого выпуска, включают элементы, перечисленные ниже. Всегда приветствуются вклады, будь то обзор или обобщение недавно опубликованных исследований .

Составлено Тилманом Байером и Мириам Реди


«Изощренная демократия» Википедии противостоит «скрытому феодализму» онлайн-сообществ.

В статье в New Media & Society [2] утверждается, что

«[...]« неявный феодализм »информирует о доступных вариантах управления сообществом на доминирующих платформах для онлайн-сообществ. Это модель, которая предоставляет пользователям-администраторам абсолютное господство над своими вотчинами, при этом конкуренция между ними является основным механизмом контроль качества, как правило, в соответствии с правилами, установленными компаниями, занимающимися платформами.

[...] онлайн-энциклопедия Википедия действует через сложную демократию среди активных добровольцев. В Википедии также есть широко признанный доброжелательный диктатор в лице основателя Джимми Уэльса [...] Неявный феодализм до сих пор царил на доминирующих платформах для онлайн-сообществ, от ранних BBS до групп Facebook с поддержкой AI. Практика коллегиального производства, связанная с бесплатным ПО с открытым исходным кодом, и Википедия также демонстрируют это.

[....] Феодальная модель в целом заложена в стандартное поведение платформ онлайн-сообществ. Такие исключения, как Википедия и Debian , потребовали значительных преднамеренных усилий, чтобы противодействовать скрытому феодализму дефолтов их инструментов ».


«Большинство научных статей, цитируемых статьями Википедии, не процитированы или не проверены последующими исследованиями»

Из аннотации: [3]

«Используя новую технику, огромную базу данных качественно описанных цитат и алгоритмы машинного обучения, мы проанализировали 1 923 575 статей в Википедии, которые цитировали в общей сложности 824 298 научных статей в нашей базе данных, и обнаружили, что большинство научных статей, цитируемых в статьях Википедии, не цитируются. или непроверенные в последующих исследованиях, а остальные демонстрируют широкий разброс в противоречащих или поддерживающих доказательствах. Кроме того, мы проанализировали 51 804 643 научных статьи из журналов, проиндексированных в Web of Science, и обнаружили, что аналогичным образом большинство из них не цитировались или не проверялись последующими исследованиями, в то время как остальные демонстрируют широкий разброс свидетельств, противоречащих или поддерживающих ".


"HopRetriever: поиск переходов по Википедии для ответа на сложные вопросы"

Из аннотации: [4]

"Сбор подтверждающих доказательств из больших массивов текста (например, Википедии) представляет собой серьезную проблему для ответов на вопросы (QA) в открытой области. В частности, для многоадресного обеспечения качества в открытых доменах необходимо собрать вместе разрозненные фрагменты доказательств, извлечение ответа. В этой статье мы предлагаем новую цель поиска, прыжок, для сбора скрытых доказательств из Википедии для получения ответов на сложные вопросы. В частности, в этой статье прыжок определяется как комбинация гиперссылки и соответствующей исходящей ссылки. документ."

(См. Также приведенный выше обзор статьи "WikiFlash", представленной на той же конференции)


«Структурированные знания: добились ли мы прогресса? Внешнее исследование покрытия KB [базы знаний] за 19 лет»

Из аннотации: [5]

«... мы используем ответы на вопросы и обобщение сущностей в качестве внешних вариантов использования для длительного изучения прогресса охвата базы знаний. Наш анализ показывает почти непрерывное улучшение двух популярных баз знаний, DBpedia и Wikidata, за последние 19 лет с небольшие признаки выравнивания или выравнивания ".

Смотрите также видеозапись выступления авторов на Wikidata Workshop 2020.


«Обзор общедоступных наборов данных в исследованиях с ответами на вопросы»

Эта статья [6] , представленная на форуме ACM Special Interest Group по поиску информации (SIGIR) в декабре прошлого года, показала, что большинство наборов данных для ответов на вопросы (QA) основаны на данных Wikipedia.


Википедия «стала более популярной в исследованиях представления знаний и обработки естественного языка» в последние годы.

Из раздела «Оценка» статьи AAAI'21 под названием «Выявление используемых методов и наборов данных в научных публикациях»: [7]

«На рисунке 4c показано абсолютное количество публикаций для четырех основных извлеченных наборов данных. [...] Еще одна тенденция видна для Википедии, которая стала популярной в исследованиях по представлению знаний и обработке естественного языка».


"SF-QA: Простая и объективная библиотека оценки для ответов на вопросы в открытой области"

Вклады этой статьи [8] включают

«центр предварительно проиндексированной Википедии [дампов версий на английском и китайском языках] в разные годы с разными алгоритмами ранжирования в виде общедоступных API или кешированных результатов». Авторы отмечают, что «наборы данных Opendomain QA собираются в разное время, поэтому [они зависят] от разных версий Википедии как правильного источника знаний. [...] Наши эксперименты показали, что производительность системы может сильно различаться при использовании неправильной версии из Википедии. Более того, индексирование всей Википедии с помощью нейронных методов обходится дорого, поэтому исследователям трудно использовать новые рейтинги других в своих будущих исследованиях ».


«Истина где-то там: исследование теорий заговора при создании текста»

Этот препринт [9] включает набор данных, состоящий из 17 тем теории заговора из Википедии (включая, например, статьи « Смерть Мэрилин Монро» , « Люди в черном» , « Расстрел в школе Сэнди-Хук» ), и содержит предупреждение о содержании («Примечание. потенциально оскорбительный текст теории заговора »).


«Спонтанный или управляемый взаимодействием всплеск в человеческой динамике: пример истории редактирования Википедии»

Из аннотации: [10]

«[Мы анализируем] историю редактирования Википедии, чтобы увидеть, насколько спонтанно отдельные редакторы инициируют периоды редактирования, т. Е. Спонтанные периоды редактирования, и в какой степени индивидуальное поведение определяется взаимодействием с другими редакторами в эти периоды, т. Е. Порывистость. Мы количественно оцениваем степень инициативы (DOI) редактора, заинтересованного в каждой статье Википедии, используя статистику периодов всплеска, содержащую правки редактора. Интегрированное значение DOI по всем соответствующим временным шкалам показывает, что доминирует между спонтанным и интерактивным Экспериментально выяснилось, что это значение имеет тенденцию быть больше для более слабых временных корреляций в редакционном поведении редактора и / или более сильных редакционных корреляций.Эти эмпирические результаты успешно подтверждаются получением аналитической формы DOI из модели, отражающей основные особенности последовательности редактирования ".

(См. Также наш предыдущий обзор исследования «курчавости» редакторов)

Рекомендации

  1. ^ Юанг Ченг, Юэ Дин, Дамиан Паскуаль, Оливер Рихтер, Мартин Фольк и Роджер Ваттенхофер: WikiFlash: Создание карточек из статей Википедии . Семинар AAAI 2021 по образованию в области искусственного интеллекта на 35-й конференции AAAI по искусственному интеллекту, 9 февраля 2021 г. Постер , презентационное видео , онлайн-прототип
  2. ^ Шнайдер, Натан (2021-01-07). «Админы, модники и доброжелательные диктаторы на всю жизнь: скрытый феодализм онлайн-сообществ». New Media & Общество : 1461444820986553. дои : 10,1177 / 1461444820986553 . ISSN  1461-4448 . Препринт
  3. ^ Николсон, Джошуа М .; Уппала, Ашиш; Зибер, Матиас; Грабиц, Питер; Мордаунт, Майло; Райф, Шон С. (2020-10-20). «Измерение качества научных ссылок в Википедии: анализ более 115 миллионов ссылок на более 800 000 научных статей». Журнал FEBS . DOI : 10.1111 / febs.15608 . ISSN 1742-4658 . 
  4. ^ Ли, Шаобо; Ли, Сяогуан; Шан, Лифенг; Цзян, Синь; Лю, Цюнь; Сунь, Чэнцзе; Цзи, Чжэньчжоу; Лю, Бинцюань (31 декабря 2020 г.). «HopRetriever: поиск переходов по Википедии для ответа на сложные вопросы» . arXiv: 2012.15534 [cs] . (Принято на AAAI 2021 г.)
  5. ^ Разневский, Саймон; Дас, Приянка (2020-10-19). «Структурированные знания: добились ли мы прогресса? Внешнее исследование покрытия базы знаний за 19 лет» . Материалы 29-й Международной конференции ACM по управлению информацией и знаниями . ЦИКМ '20. Нью-Йорк, Нью-Йорк, США: Ассоциация вычислительной техники. С. 3317–3320. DOI : 10.1145 / 3340531.3417447 . ISBN 9781450368599. Авторская копия
  6. ^ Б. Барла Камбазоглу, Марк Сандерсон, Фальк Шолер, Брюс Крофт: Обзор общедоступных наборов данных в исследовании ответов на вопросы . Форум SIGIR, декабрь 2020 г., Том 54, номер 2
  7. ^ Майкл Фарбер, Александр Альберс, Феликс Шубер: «Определение используемых методов и наборов данных в научных публикациях» . В материалах семинара AAAI-21 по пониманию научных документов (SDU'21) @ AAAI'21, Virtual Event, 2021 г.
  8. ^ Лу, Сяопэн; Ли, Кюсон; Чжао, Тяньчэн (06.01.2021). «SF-QA: Простая и объективная библиотека оценки для ответов на вопросы в открытой области» (PDF) . arXiv: 2101.01910 [cs] . Данные и код
  9. ^ Леви, Шарон; Саксон, Майкл; Ван, Уильям Ян (2021-01-02). «Истина где-то там: Исследование теорий заговора при создании текста» . arXiv: 2101.00379 [cs] .
  10. ^ Чой, Джихай; Хираока, Такаяки; Чо, Ханг-Хён (2020-11-03). «Спонтанный или управляемый взаимодействием всплеск в человеческой динамике: история редактирования Википедии» . arXiv: 2011.01562 [физика] .
Home
About
Archives
Newsroom
Subscribe
Suggestions