Пройдите тест на Википедию, созданный с помощью искусственного интеллекта; Антифеодализм Википедии
«WikiFlash: создание карточек из статей Википедии»
- Отзыв Тилмана Байера
Карточки - популярный метод запоминания информации. В статье [1] шести исследователей из Цюриха, представленной ранее в этом месяце на ежегодной конференции AAAI , описан инструмент для автоматического извлечения карточек из статей Википедии с целью «сделать независимое образование более привлекательным для более широкой аудитории».
Пробная версия доступна в Интернете , а результаты доступны для экспорта в формате, который можно использовать с популярным программным обеспечением для карточек Anki . Пользователь может выбрать один из четырех различных вариантов, основанных либо на всей статье Википедии, либо только на ее вводном разделе.
Исследователи подчеркивают, что «создание значимых карточек из произвольного фрагмента текста - нетривиальная задача» (также касающаяся вычислительных затрат), и что в настоящее время не существует единой модели, которая могла бы это сделать. Они разделяют задачу на четыре этапа, в каждом из которых используются существующие техники НЛП :
- обобщение, чтобы сначала извлечь наиболее релевантную информацию из Википедии (пользователь также может пропустить этот шаг и вместо этого создать карточки на основе полного текста)
- идентификация ответа, когда модель извлекает утверждения ответа из данного предложения на основе контекстной информации из окружающего абзаца
- генерация вопроса, когда модель строит вопрос из утверждения, сгенерированного на предыдущем шаге, снова принимая во внимание контекстную информацию из окружающего абзаца
- Для повышения качества за ними следует заключительный этап фильтрации, на котором модель ответов на вопросы пытается восстановить ответ на основе абзаца, из которого был извлечен вопрос, а сгенерированная флэшкарта отбрасывается, если восстановленный ответ недостаточно перекрывается с заранее сгенерированный ответ.
Помимо оценки результатов с использованием количественных текстовых мер, исследователи также провели исследование пользователей, чтобы сравнить результаты своего инструмента с созданными человеком карточками из двух тематических областей, географии и истории, оцененных по полезности, понятности и воспринимаемой правильности. Результаты показывают, что в случае географии нет статистически значимой разницы между созданными людьми и нашими картами по любому из трех аспектов. Для истории разница в полезности и понятности статистически значима (p <0,01), с человеческими карты немного лучше наших карт. Ни в одной из категорий не было обнаружено статистически значимой разницы в воспринимаемой правильности ». (Однако выборка была довольно небольшой, с 50 механическими турками. пользователи разделены на две группы по географии и истории.)
Быстрое тестирование инструмента со статьей Wikipedia (только введение) дало следующий результат (текст воспроизведен без изменений):
Вопрос : Что использует Википедия для поддержания своего [sic] содержания?
Отвечать |
---|
система редактирования на основе вики |
Вопрос : Какое место занимала Википедия в 2021 году?
Отвечать |
---|
13-е |
Вопрос : На каком языке изначально была доступна Википедия?
Отвечать |
---|
английский |
Вопрос : Сколько статей в англоязычной версии Википедии [sic] по состоянию на февраль 2021 года?
Отвечать |
---|
6,3 миллиона |
Вопрос : Кто размещает Википедию?
Отвечать |
---|
Фонд Викимедиа |
Вопрос : Чье видение, по мнению журнала Time , сделало Википедию лучшей энциклопедией в мире?
Отвечать |
---|
Джимми Уэльс |
Вопрос : Что такое системная предвзятость в Википедии?
Отвечать |
---|
гендерная предвзятость |
Вопрос : За что хвалили Википедию в 2010-х?
Отвечать |
---|
уникальная структура, культура и отсутствие коммерческой предвзятости |
Вопрос : Какие две социальные сети объявили в 2018 году, что они помогут пользователям обнаруживать фейковые новости, предлагая ссылки на соответствующие статьи в Википедии?
Отвечать |
---|
Facebook и YouTube |
Вкратце
- Смотрите на странице ежемесячной выставки Wikimedia Research Showcase видео и слайды прошлых презентаций.
- @WikiResearch , лента Twitter, связанная с этим ежемесячным обновлением исследования, отметила сегодня свою девятую годовщину. За последние 9 лет мы публиковали в среднем 1,9 твита в день об исследованиях Викимедиа. Лента также доступна в синдицированной форме на Facebook и Mastodon .
Другие недавние публикации
Другие недавние публикации, которые не удалось вовремя осветить для этого выпуска, включают элементы, перечисленные ниже. Всегда приветствуются вклады, будь то обзор или обобщение недавно опубликованных исследований .
- Составлено Тилманом Байером и Мириам Реди
«Изощренная демократия» Википедии противостоит «скрытому феодализму» онлайн-сообществ.
В статье в New Media & Society [2] утверждается, что
«[...]« неявный феодализм »информирует о доступных вариантах управления сообществом на доминирующих платформах для онлайн-сообществ. Это модель, которая предоставляет пользователям-администраторам абсолютное господство над своими вотчинами, при этом конкуренция между ними является основным механизмом контроль качества, как правило, в соответствии с правилами, установленными компаниями, занимающимися платформами.
[...] онлайн-энциклопедия Википедия действует через сложную демократию среди активных добровольцев. В Википедии также есть широко признанный доброжелательный диктатор в лице основателя Джимми Уэльса [...] Неявный феодализм до сих пор царил на доминирующих платформах для онлайн-сообществ, от ранних BBS до групп Facebook с поддержкой AI. Практика коллегиального производства, связанная с бесплатным ПО с открытым исходным кодом, и Википедия также демонстрируют это.
[....] Феодальная модель в целом заложена в стандартное поведение платформ онлайн-сообществ. Такие исключения, как Википедия и Debian , потребовали значительных преднамеренных усилий, чтобы противодействовать скрытому феодализму дефолтов их инструментов ».
«Большинство научных статей, цитируемых статьями Википедии, не процитированы или не проверены последующими исследованиями»
Из аннотации: [3]
«Используя новую технику, огромную базу данных качественно описанных цитат и алгоритмы машинного обучения, мы проанализировали 1 923 575 статей в Википедии, которые цитировали в общей сложности 824 298 научных статей в нашей базе данных, и обнаружили, что большинство научных статей, цитируемых в статьях Википедии, не цитируются. или непроверенные в последующих исследованиях, а остальные демонстрируют широкий разброс в противоречащих или поддерживающих доказательствах. Кроме того, мы проанализировали 51 804 643 научных статьи из журналов, проиндексированных в Web of Science, и обнаружили, что аналогичным образом большинство из них не цитировались или не проверялись последующими исследованиями, в то время как остальные демонстрируют широкий разброс свидетельств, противоречащих или поддерживающих ".
"HopRetriever: поиск переходов по Википедии для ответа на сложные вопросы"
Из аннотации: [4]
"Сбор подтверждающих доказательств из больших массивов текста (например, Википедии) представляет собой серьезную проблему для ответов на вопросы (QA) в открытой области. В частности, для многоадресного обеспечения качества в открытых доменах необходимо собрать вместе разрозненные фрагменты доказательств, извлечение ответа. В этой статье мы предлагаем новую цель поиска, прыжок, для сбора скрытых доказательств из Википедии для получения ответов на сложные вопросы. В частности, в этой статье прыжок определяется как комбинация гиперссылки и соответствующей исходящей ссылки. документ."
(См. Также приведенный выше обзор статьи "WikiFlash", представленной на той же конференции)
«Структурированные знания: добились ли мы прогресса? Внешнее исследование покрытия KB [базы знаний] за 19 лет»
Из аннотации: [5]
«... мы используем ответы на вопросы и обобщение сущностей в качестве внешних вариантов использования для длительного изучения прогресса охвата базы знаний. Наш анализ показывает почти непрерывное улучшение двух популярных баз знаний, DBpedia и Wikidata, за последние 19 лет с небольшие признаки выравнивания или выравнивания ".
Смотрите также видеозапись выступления авторов на Wikidata Workshop 2020.
«Обзор общедоступных наборов данных в исследованиях с ответами на вопросы»
Эта статья [6] , представленная на форуме ACM Special Interest Group по поиску информации (SIGIR) в декабре прошлого года, показала, что большинство наборов данных для ответов на вопросы (QA) основаны на данных Wikipedia.
Википедия «стала более популярной в исследованиях представления знаний и обработки естественного языка» в последние годы.
Из раздела «Оценка» статьи AAAI'21 под названием «Выявление используемых методов и наборов данных в научных публикациях»: [7]
«На рисунке 4c показано абсолютное количество публикаций для четырех основных извлеченных наборов данных. [...] Еще одна тенденция видна для Википедии, которая стала популярной в исследованиях по представлению знаний и обработке естественного языка».
"SF-QA: Простая и объективная библиотека оценки для ответов на вопросы в открытой области"
Вклады этой статьи [8] включают
«центр предварительно проиндексированной Википедии [дампов версий на английском и китайском языках] в разные годы с разными алгоритмами ранжирования в виде общедоступных API или кешированных результатов». Авторы отмечают, что «наборы данных Opendomain QA собираются в разное время, поэтому [они зависят] от разных версий Википедии как правильного источника знаний. [...] Наши эксперименты показали, что производительность системы может сильно различаться при использовании неправильной версии из Википедии. Более того, индексирование всей Википедии с помощью нейронных методов обходится дорого, поэтому исследователям трудно использовать новые рейтинги других в своих будущих исследованиях ».
«Истина где-то там: исследование теорий заговора при создании текста»
Этот препринт [9] включает набор данных, состоящий из 17 тем теории заговора из Википедии (включая, например, статьи « Смерть Мэрилин Монро» , « Люди в черном» , « Расстрел в школе Сэнди-Хук» ), и содержит предупреждение о содержании («Примечание. потенциально оскорбительный текст теории заговора »).
«Спонтанный или управляемый взаимодействием всплеск в человеческой динамике: пример истории редактирования Википедии»
Из аннотации: [10]
«[Мы анализируем] историю редактирования Википедии, чтобы увидеть, насколько спонтанно отдельные редакторы инициируют периоды редактирования, т. Е. Спонтанные периоды редактирования, и в какой степени индивидуальное поведение определяется взаимодействием с другими редакторами в эти периоды, т. Е. Порывистость. Мы количественно оцениваем степень инициативы (DOI) редактора, заинтересованного в каждой статье Википедии, используя статистику периодов всплеска, содержащую правки редактора. Интегрированное значение DOI по всем соответствующим временным шкалам показывает, что доминирует между спонтанным и интерактивным Экспериментально выяснилось, что это значение имеет тенденцию быть больше для более слабых временных корреляций в редакционном поведении редактора и / или более сильных редакционных корреляций.Эти эмпирические результаты успешно подтверждаются получением аналитической формы DOI из модели, отражающей основные особенности последовательности редактирования ".
(См. Также наш предыдущий обзор исследования «курчавости» редакторов)
Рекомендации
- ^ Юанг Ченг, Юэ Дин, Дамиан Паскуаль, Оливер Рихтер, Мартин Фольк и Роджер Ваттенхофер: WikiFlash: Создание карточек из статей Википедии . Семинар AAAI 2021 по образованию в области искусственного интеллекта на 35-й конференции AAAI по искусственному интеллекту, 9 февраля 2021 г. Постер , презентационное видео , онлайн-прототип
- ^ Шнайдер, Натан (2021-01-07). «Админы, модники и доброжелательные диктаторы на всю жизнь: скрытый феодализм онлайн-сообществ». New Media & Общество : 1461444820986553. дои : 10,1177 / 1461444820986553 . ISSN 1461-4448 . Препринт
- ^ Николсон, Джошуа М .; Уппала, Ашиш; Зибер, Матиас; Грабиц, Питер; Мордаунт, Майло; Райф, Шон С. (2020-10-20). «Измерение качества научных ссылок в Википедии: анализ более 115 миллионов ссылок на более 800 000 научных статей». Журнал FEBS . DOI : 10.1111 / febs.15608 . ISSN 1742-4658 .
- ^ Ли, Шаобо; Ли, Сяогуан; Шан, Лифенг; Цзян, Синь; Лю, Цюнь; Сунь, Чэнцзе; Цзи, Чжэньчжоу; Лю, Бинцюань (31 декабря 2020 г.). «HopRetriever: поиск переходов по Википедии для ответа на сложные вопросы» . arXiv: 2012.15534 [cs] . (Принято на AAAI 2021 г.)
- ^ Разневский, Саймон; Дас, Приянка (2020-10-19). «Структурированные знания: добились ли мы прогресса? Внешнее исследование покрытия базы знаний за 19 лет» . Материалы 29-й Международной конференции ACM по управлению информацией и знаниями . ЦИКМ '20. Нью-Йорк, Нью-Йорк, США: Ассоциация вычислительной техники. С. 3317–3320. DOI : 10.1145 / 3340531.3417447 . ISBN 9781450368599. Авторская копия
- ^ Б. Барла Камбазоглу, Марк Сандерсон, Фальк Шолер, Брюс Крофт: Обзор общедоступных наборов данных в исследовании ответов на вопросы . Форум SIGIR, декабрь 2020 г., Том 54, номер 2
- ^ Майкл Фарбер, Александр Альберс, Феликс Шубер: «Определение используемых методов и наборов данных в научных публикациях» . В материалах семинара AAAI-21 по пониманию научных документов (SDU'21) @ AAAI'21, Virtual Event, 2021 г.
- ^ Лу, Сяопэн; Ли, Кюсон; Чжао, Тяньчэн (06.01.2021). «SF-QA: Простая и объективная библиотека оценки для ответов на вопросы в открытой области» (PDF) . arXiv: 2101.01910 [cs] . Данные и код
- ^ Леви, Шарон; Саксон, Майкл; Ван, Уильям Ян (2021-01-02). «Истина где-то там: Исследование теорий заговора при создании текста» . arXiv: 2101.00379 [cs] .
- ^ Чой, Джихай; Хираока, Такаяки; Чо, Ханг-Хён (2020-11-03). «Спонтанный или управляемый взаимодействием всплеск в человеческой динамике: история редактирования Википедии» . arXiv: 2011.01562 [физика] .