Википедия: Указатель Википедии / 28.02.2021 / Недавнее исследование

← Назад к содержанию

Посмотреть последний выпуск

28 февраля 2021 г.

Недавние исследования

Пройдите тест на Википедию, созданный с помощью искусственного интеллекта; Антифеодализм Википедии

Внести вклад -

Поделись этим

Электронная почта
Facebook
Твиттер
LinkedIn
Reddit

По Тильман Bayer и Мириам Реди

Ежемесячный обзор последних академических исследований Википедии и других проектов Викимедиа, также публикуемый как Информационный бюллетень Викимедиа .

«WikiFlash: создание карточек из статей Википедии»

Отзыв Тилмана Байера

Карточки - популярный метод запоминания информации. В статье ^[1] шести исследователей из Цюриха, представленной ранее в этом месяце на ежегодной конференции AAAI , описан инструмент для автоматического извлечения карточек из статей Википедии с целью «сделать независимое образование более привлекательным для более широкой аудитории».

Пробная версия доступна в Интернете , а результаты доступны для экспорта в формате, который можно использовать с популярным программным обеспечением для карточек Anki . Пользователь может выбрать один из четырех различных вариантов, основанных либо на всей статье Википедии, либо только на ее вводном разделе.

Исследователи подчеркивают, что «создание значимых карточек из произвольного фрагмента текста - нетривиальная задача» (также касающаяся вычислительных затрат), и что в настоящее время не существует единой модели, которая могла бы это сделать. Они разделяют задачу на четыре этапа, в каждом из которых используются существующие техники НЛП :

обобщение, чтобы сначала извлечь наиболее релевантную информацию из Википедии (пользователь также может пропустить этот шаг и вместо этого создать карточки на основе полного текста)
идентификация ответа, когда модель извлекает утверждения ответа из данного предложения на основе контекстной информации из окружающего абзаца
генерация вопроса, когда модель строит вопрос из утверждения, сгенерированного на предыдущем шаге, снова принимая во внимание контекстную информацию из окружающего абзаца
Для повышения качества за ними следует заключительный этап фильтрации, на котором модель ответов на вопросы пытается восстановить ответ на основе абзаца, из которого был извлечен вопрос, а сгенерированная флэшкарта отбрасывается, если восстановленный ответ недостаточно перекрывается с заранее сгенерированный ответ.

Помимо оценки результатов с использованием количественных текстовых мер, исследователи также провели исследование пользователей, чтобы сравнить результаты своего инструмента с созданными человеком карточками из двух тематических областей, географии и истории, оцененных по полезности, понятности и воспринимаемой правильности. Результаты показывают, что в случае географии нет статистически значимой разницы между созданными людьми и нашими картами по любому из трех аспектов. Для истории разница в полезности и понятности статистически значима (p <0,01), с человеческими карты немного лучше наших карт. Ни в одной из категорий не было обнаружено статистически значимой разницы в воспринимаемой правильности ». (Однако выборка была довольно небольшой, с 50 механическими турками. пользователи разделены на две группы по географии и истории.)

Быстрое тестирование инструмента со статьей Wikipedia (только введение) дало следующий результат (текст воспроизведен без изменений):

Вопрос : Что использует Википедия для поддержания своего [sic] содержания?

Отвечать
система редактирования на основе вики

Вопрос : Какое место занимала Википедия в 2021 году?

Отвечать
13-е

Вопрос : На каком языке изначально была доступна Википедия?

Отвечать
английский

Вопрос : Сколько статей в англоязычной версии Википедии [sic] по состоянию на февраль 2021 года?

Отвечать
6,3 миллиона

Вопрос : Кто размещает Википедию?

Отвечать
Фонд Викимедиа

Вопрос : Чье видение, по мнению журнала Time , сделало Википедию лучшей энциклопедией в мире?

Отвечать
Джимми Уэльс

Вопрос : Что такое системная предвзятость в Википедии?

Отвечать
гендерная предвзятость

Вопрос : За что хвалили Википедию в 2010-х?

Отвечать
уникальная структура, культура и отсутствие коммерческой предвзятости

Вопрос : Какие две социальные сети объявили в 2018 году, что они помогут пользователям обнаруживать фейковые новости, предлагая ссылки на соответствующие статьи в Википедии?

Отвечать
Facebook и YouTube

Вкратце

Смотрите на странице ежемесячной выставки Wikimedia Research Showcase видео и слайды прошлых презентаций.
@WikiResearch , лента Twitter, связанная с этим ежемесячным обновлением исследования, отметила сегодня свою девятую годовщину. За последние 9 лет мы публиковали в среднем 1,9 твита в день об исследованиях Викимедиа. Лента также доступна в синдицированной форме на Facebook и Mastodon .

Другие недавние публикации

Другие недавние публикации, которые не удалось вовремя осветить для этого выпуска, включают элементы, перечисленные ниже. Всегда приветствуются вклады, будь то обзор или обобщение недавно опубликованных исследований .

Составлено Тилманом Байером и Мириам Реди

«Изощренная демократия» Википедии противостоит «скрытому феодализму» онлайн-сообществ.

В статье в New Media & Society ^[2] утверждается, что

«[...]« неявный феодализм »информирует о доступных вариантах управления сообществом на доминирующих платформах для онлайн-сообществ. Это модель, которая предоставляет пользователям-администраторам абсолютное господство над своими вотчинами, при этом конкуренция между ними является основным механизмом контроль качества, как правило, в соответствии с правилами, установленными компаниями, занимающимися платформами.
[...] онлайн-энциклопедия Википедия действует через сложную демократию среди активных добровольцев. В Википедии также есть широко признанный доброжелательный диктатор в лице основателя Джимми Уэльса [...] Неявный феодализм до сих пор царил на доминирующих платформах для онлайн-сообществ, от ранних BBS до групп Facebook с поддержкой AI. Практика коллегиального производства, связанная с бесплатным ПО с открытым исходным кодом, и Википедия также демонстрируют это.
[....] Феодальная модель в целом заложена в стандартное поведение платформ онлайн-сообществ. Такие исключения, как Википедия и Debian , потребовали значительных преднамеренных усилий, чтобы противодействовать скрытому феодализму дефолтов их инструментов ».

«Большинство научных статей, цитируемых статьями Википедии, не процитированы или не проверены последующими исследованиями»

Из аннотации: ^[3]

«Используя новую технику, огромную базу данных качественно описанных цитат и алгоритмы машинного обучения, мы проанализировали 1 923 575 статей в Википедии, которые цитировали в общей сложности 824 298 научных статей в нашей базе данных, и обнаружили, что большинство научных статей, цитируемых в статьях Википедии, не цитируются. или непроверенные в последующих исследованиях, а остальные демонстрируют широкий разброс в противоречащих или поддерживающих доказательствах. Кроме того, мы проанализировали 51 804 643 научных статьи из журналов, проиндексированных в Web of Science, и обнаружили, что аналогичным образом большинство из них не цитировались или не проверялись последующими исследованиями, в то время как остальные демонстрируют широкий разброс свидетельств, противоречащих или поддерживающих ".

"HopRetriever: поиск переходов по Википедии для ответа на сложные вопросы"

Из аннотации: ^[4]

"Сбор подтверждающих доказательств из больших массивов текста (например, Википедии) представляет собой серьезную проблему для ответов на вопросы (QA) в открытой области. В частности, для многоадресного обеспечения качества в открытых доменах необходимо собрать вместе разрозненные фрагменты доказательств, извлечение ответа. В этой статье мы предлагаем новую цель поиска, прыжок, для сбора скрытых доказательств из Википедии для получения ответов на сложные вопросы. В частности, в этой статье прыжок определяется как комбинация гиперссылки и соответствующей исходящей ссылки. документ."

(См. Также приведенный выше обзор статьи "WikiFlash", представленной на той же конференции)

«Структурированные знания: добились ли мы прогресса? Внешнее исследование покрытия KB [базы знаний] за 19 лет»

Из аннотации: ^[5]

«... мы используем ответы на вопросы и обобщение сущностей в качестве внешних вариантов использования для длительного изучения прогресса охвата базы знаний. Наш анализ показывает почти непрерывное улучшение двух популярных баз знаний, DBpedia и Wikidata, за последние 19 лет с небольшие признаки выравнивания или выравнивания ".

Смотрите также видеозапись выступления авторов на Wikidata Workshop 2020.

«Обзор общедоступных наборов данных в исследованиях с ответами на вопросы»

Эта статья ^[6] , представленная на форуме ACM Special Interest Group по поиску информации (SIGIR) в декабре прошлого года, показала, что большинство наборов данных для ответов на вопросы (QA) основаны на данных Wikipedia.

Википедия «стала более популярной в исследованиях представления знаний и обработки естественного языка» в последние годы.

Из раздела «Оценка» статьи AAAI'21 под названием «Выявление используемых методов и наборов данных в научных публикациях»: ^[7]

«На рисунке 4c показано абсолютное количество публикаций для четырех основных извлеченных наборов данных. [...] Еще одна тенденция видна для Википедии, которая стала популярной в исследованиях по представлению знаний и обработке естественного языка».

"SF-QA: Простая и объективная библиотека оценки для ответов на вопросы в открытой области"

Вклады этой статьи ^[8] включают

«центр предварительно проиндексированной Википедии [дампов версий на английском и китайском языках] в разные годы с разными алгоритмами ранжирования в виде общедоступных API или кешированных результатов». Авторы отмечают, что «наборы данных Opendomain QA собираются в разное время, поэтому [они зависят] от разных версий Википедии как правильного источника знаний. [...] Наши эксперименты показали, что производительность системы может сильно различаться при использовании неправильной версии из Википедии. Более того, индексирование всей Википедии с помощью нейронных методов обходится дорого, поэтому исследователям трудно использовать новые рейтинги других в своих будущих исследованиях ».

«Истина где-то там: исследование теорий заговора при создании текста»

Этот препринт ^[9] включает набор данных, состоящий из 17 тем теории заговора из Википедии (включая, например, статьи « Смерть Мэрилин Монро» , « Люди в черном» , « Расстрел в школе Сэнди-Хук» ), и содержит предупреждение о содержании («Примечание. потенциально оскорбительный текст теории заговора »).

«Спонтанный или управляемый взаимодействием всплеск в человеческой динамике: пример истории редактирования Википедии»

Из аннотации: ^[10]

«[Мы анализируем] историю редактирования Википедии, чтобы увидеть, насколько спонтанно отдельные редакторы инициируют периоды редактирования, т. Е. Спонтанные периоды редактирования, и в какой степени индивидуальное поведение определяется взаимодействием с другими редакторами в эти периоды, т. Е. Порывистость. Мы количественно оцениваем степень инициативы (DOI) редактора, заинтересованного в каждой статье Википедии, используя статистику периодов всплеска, содержащую правки редактора. Интегрированное значение DOI по всем соответствующим временным шкалам показывает, что доминирует между спонтанным и интерактивным Экспериментально выяснилось, что это значение имеет тенденцию быть больше для более слабых временных корреляций в редакционном поведении редактора и / или более сильных редакционных корреляций.Эти эмпирические результаты успешно подтверждаются получением аналитической формы DOI из модели, отражающей основные особенности последовательности редактирования ".

(См. Также наш предыдущий обзор исследования «курчавости» редакторов)

Рекомендации

^ Юанг Ченг, Юэ Дин, Дамиан Паскуаль, Оливер Рихтер, Мартин Фольк и Роджер Ваттенхофер: WikiFlash: Создание карточек из статей Википедии . Семинар AAAI 2021 по образованию в области искусственного интеллекта на 35-й конференции AAAI по искусственному интеллекту, 9 февраля 2021 г. Постер , презентационное видео , онлайн-прототип
^ Шнайдер, Натан (2021-01-07). «Админы, модники и доброжелательные диктаторы на всю жизнь: скрытый феодализм онлайн-сообществ». New Media & Общество : 1461444820986553. дои : 10,1177 / 1461444820986553 . ISSN 1461-4448 . Препринт
^ Николсон, Джошуа М .; Уппала, Ашиш; Зибер, Матиас; Грабиц, Питер; Мордаунт, Майло; Райф, Шон С. (2020-10-20). «Измерение качества научных ссылок в Википедии: анализ более 115 миллионов ссылок на более 800 000 научных статей». Журнал FEBS . DOI : 10.1111 / febs.15608 . ISSN 1742-4658 .
^ Ли, Шаобо; Ли, Сяогуан; Шан, Лифенг; Цзян, Синь; Лю, Цюнь; Сунь, Чэнцзе; Цзи, Чжэньчжоу; Лю, Бинцюань (31 декабря 2020 г.). «HopRetriever: поиск переходов по Википедии для ответа на сложные вопросы» . arXiv: 2012.15534 [cs] . (Принято на AAAI 2021 г.)
^ Разневский, Саймон; Дас, Приянка (2020-10-19). «Структурированные знания: добились ли мы прогресса? Внешнее исследование покрытия базы знаний за 19 лет» . Материалы 29-й Международной конференции ACM по управлению информацией и знаниями . ЦИКМ '20. Нью-Йорк, Нью-Йорк, США: Ассоциация вычислительной техники. С. 3317–3320. DOI : 10.1145 / 3340531.3417447 . ISBN 9781450368599. Авторская копия
^ Б. Барла Камбазоглу, Марк Сандерсон, Фальк Шолер, Брюс Крофт: Обзор общедоступных наборов данных в исследовании ответов на вопросы . Форум SIGIR, декабрь 2020 г., Том 54, номер 2
^ Майкл Фарбер, Александр Альберс, Феликс Шубер: «Определение используемых методов и наборов данных в научных публикациях» . В материалах семинара AAAI-21 по пониманию научных документов (SDU'21) @ AAAI'21, Virtual Event, 2021 г.
^ Лу, Сяопэн; Ли, Кюсон; Чжао, Тяньчэн (06.01.2021). «SF-QA: Простая и объективная библиотека оценки для ответов на вопросы в открытой области» (PDF) . arXiv: 2101.01910 [cs] . Данные и код
^ Леви, Шарон; Саксон, Майкл; Ван, Уильям Ян (2021-01-02). «Истина где-то там: Исследование теорий заговора при создании текста» . arXiv: 2101.00379 [cs] .
^ Чой, Джихай; Хираока, Такаяки; Чо, Ханг-Хён (2020-11-03). «Спонтанный или управляемый взаимодействием всплеск в человеческой динамике: история редактирования Википедии» . arXiv: 2011.01562 [физика] .

Следующее «Недавнее исследование» →

← Предыдущий "Недавние исследования"

В этом выпуске

28 февраля 2021 г.

Новости и заметки

Отчет о дезинформации

Мнение

В прессе

Новости WMF

Недавние исследования

Рекомендуемый контент

Отчет о трафике

Галерея

+ Добавить комментарийОбсуди эту историю

Эти комментарии автоматически переносятся со страницы обсуждения этой статьи . Чтобы следить за комментариями, добавьте страницу в свой список наблюдения . Если ваш комментарий здесь не появился, вы можете попробовать очистить кеш .

@ HaeB : если я получу 8,5 / 9, получу ли я barnstar? Я понимаю, что нельзя подарить всем звёздочку, но я первый, кто претендует на неё! Smallbones _{( smalltalk )} 22:02, 28 февраля 2021 г. (UTC)
- Это без просмотра статьи? Я очень гордился тем, что получил 5,5 из 9, не глядя (дал себе полбалла за предположение о 6,2 миллиона), учитывая, что два являются очень конкретными статистическими данными, а по крайней мере три не совсем однозначно четко сформулированные вопросы. - Билорв ( разговор ) 23:30, 28 февраля 2021 г. (UTC)
  - Я должен признать, что я кратко копирую отредактированную статью, но это не совсем чтение для понимания. Я согласен с тем, что некоторые вопросы неоднозначны, поэтому я ответил mysekf: «Если они означают W, то мой ответ - X, если они означают Y, мой ответ - Z». Smallbones _{( smalltalk )} 23:46, 28 февраля 2021 г. (UTC)

Re: Статья «Большинство научных статей, цитируемых статьями Википедии, не процитированы или не проверены последующими исследованиями» удивительна, учитывая, что мы отдаем предпочтение вторичным источникам (которые в среднем более цитируются). Хотя это больше, чем в литературе в целом («28,5% статей, на которые есть ссылки в Википедии, имеют подтверждающую цитируемость по сравнению с 11,7% статей в Web of Science»), мне интересно, в какой степени это артефакт. Т.Шафи (Evo & Evo) ^{выступление} 05:47, 1 марта 2021 г. (UTC)
- Ах, это может быть как-то связано с тем, как они определяют «непроверенный последующими исследованиями». В системе Smart Cite, которую они используют с сайта scite.ai , только 2,99% цитат помечены как «подтверждающие цитаты» (т. Е. «Подтверждающие доказательства»). Я подозреваю, что на большинство вторичных источников цитируют не так часто, как на первичные исследования. Было бы более интересно разделить первичные / вторичные / третичные источники, цитируемые WP, и конкретно спросить, какой процент этих источников имеет подтверждающие цитаты. Т.Шафи (Evo & Evo) ^{выступление} 06:02, 1 марта 2021 г. (UTC)
- Этот документ включает раздел «подтверждающие доказательства», который, по-видимому, включает файл xls, содержащий список «отозванных» источников, цитируемых в Википедии. Предположительно, мы могли бы использовать этот список для удаления отозванных источников, но я не открывал xls для проверки. - Зеленый C 16:16, 3 марта 2021 г. (UTC)
  - @ Эволюция и эволюционируемость и GreenC : Ох, это звучит как хорошая задача для бота, на самом деле: патрулирование отозванных цитирований. Возможно, если будет обнаружено, что какие-либо статьи цитируют отозванные статьи, добавленные в категорию скрытого отслеживания и / или имеющие шаблон с соответствующим уведомлением об очистке? Интересно, можно ли поддерживать набор данных для этого (список отозванных документов, которые должны быть отмечены) программно / периодически обновлять на основе некоторого машиночитаемого списка отказов, если даже такая вещь существует? - FeRDNYC ( разговор ) 01:09, 18 марта 2021 (UTC)
    - FeRDNYC , я согласен, что отозванные источники можно отслеживать программно и помечать с помощью отслеживаемого встроенного шаблона. WP: RSN было бы хорошим местом, чтобы начать обсуждение, и, если консенсус, открыть запрос бота на WP: BOTREQ . - Зеленый C 01:17, 18 марта 2021 г. (UTC)
      - @ GreenC : Ммм, чтобы мы не представили, что это более серьезная проблема, чем есть на самом деле, я все же открыл этот файл Excel. Это список из 50 цитирований (всего!), Разделенных на три категории:
        15 перечислены как «Подтверждает отзыв», поэтому проблема не в них - нет ничего плохого в том, чтобы ссылаться на отозванное исследование, когда это делается в контексте того, что это отозванное исследование.
        Еще 10 указаны как «Больше не ссылаются», что подрывает заголовок набора данных, не так ли?
        Из оставшихся 25, перечисленных как «Не подтверждено», на самом деле там отозвано только 13 документов. Просто одна из них цитируется в ДВЕНАДЦАТЬ разных статьях (а другая цитируется в двух). Почти все (> 80%) рассматриваемых статей представляют собой гиперспецифические заглушки по отдельным химическим соединениям, таким как OLIG1 , PTF1A , MED24 , GCN5L2 и т. Д. (Что, IMHO, является еще одним доказательством того, что такие статьи не являются частью Википедии. в первую очередь, но это всего лишь моя предвзятость.) - FeRDNYC ( разговор ) 01:33, 18 марта 2021 (UTC)
        @ FeRDNYC и GreenC : Мы также отмечаем предложение meta: WikiCite / Shared_Citations как подходящее средство для такого рода мониторинга и уведомления. Т.Шафи (Evo & Evo) ^{выступление} 02:20, 18 марта 2021 г. (UTC)
Основываясь на названии этой статьи, я предполагал, что найду статью о том, что мы предвзято против создания статей о благородстве. _{подписали,}Rosguill ^{разговоры} 16:16, 1 марта 2021 (UTC)
- Я заметил, что весь корпус научных статей не стал лучше. Так что у WP дела в этом отношении примерно так же (или так же плохо), как у мирового научного сообщества в целом. аналогично старому открытию, что мы были примерно такими же, как Бриттаника. DGG ( разговор ) 07:41, 2 марта 2021 (UTC)
- Во всяком случае, верно обратное. Меня всегда удивляло, что в WP: GAN есть две категории истории: «всемирная история» и «королевская власть, дворянство и геральдика». Но каждому свое и в этой категории много интересного. - Билорв ( разговор ) 11:22, 2 марта 2021 (UTC)
  - О, я не возражаю, я просто не ожидал, что статья о нашем «антифеодализме» будет об управлении нашим сообществом. _{подписано,}^{разговор}Росгилля 16:35, 3 марта 2021 г. (UTC)
Вопрос : Что использует Википедия для поддержания своего [sic] содержания? Извините, это был звук удара моей головы по клавиатуре. Алгоритм придумал это? И даже наши компьютеры не могут различать «это» и «это»? Siiiiiiiiiiiiiiigh. Мне кажется, они слишком хорошонаучились подражать людям. - FeRDNYC ( разговор ) 01:13, 18 марта 2021 (UTC)

The Signpost is written by editors like you — join in!

Home

About