Страница полузащищенная
Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Викисловарь - это многоязычный веб- проект по созданию бесплатного словаря терминов (включая слова , фразы , пословицы , лингвистические реконструкции и т. Д.) На всех естественных языках и на ряде искусственных языков . Эти записи могут содержать определения , изображения для иллюстраций, произношения , этимологии , интонации , примеры использования, цитаты , связанные термины и переводы.слов на другие языки, среди прочего. Он редактируется совместно через вики . Его имя является контаминация слов вики и словарь . Он доступен на 171 языке и на простом английском . Как и его родственный проект Википедия , Викисловарь находится в ведении Фонда Викимедиа и создается совместно волонтерами , получившими название «Викисловарь». Его вики программное обеспечение , MediaWiki , позволяет практически любому пользователю с доступом к веб - сайту для создания и редактирования записей.

Поскольку Викисловарь не ограничен пространством для печати, большинство языковых редакций Викисловаря содержат определения и переводы слов со многих языков, а некоторые редакции предлагают дополнительную информацию, обычно содержащуюся в тезаурусах .

Данные викисловаря часто используются в различных задачах обработки естественного языка .

История и развитие

Викисловарь был запущен 12 декабря 2002 года [2] по предложению Дэниела Алстона и идее Ларри Сэнгера , соучредителя Википедии. [3] На 28 марта 2004 года первый не- английских викисловарь были начаты в французском и польском . С тех пор были запущены викисловари на многих других языках. Викисловарь размещался на временном доменном имени (wiktionary.wikipedia.org) до 1 мая 2004 года, когда он переключился на текущее доменное имя. [a] По состоянию на ноябрь 2016 года в Викисловаре насчитывалось более 25,9 миллиона записей в своих редакциях. [4]Самым крупным из языковых изданий является английский викисловарь с более чем 6,5 миллионов статей, за ним следуют французский викисловарь с более чем 4 миллионами и малагасийский викисловарь с более чем 1,5 миллионами статей. В настоящее время 44 языковые версии Викисловаря содержат более 100 000 статей в каждой. [b]

Использование ботов для создания большого количества статей видно как «всплески роста» на этом графике количества статей в восьми крупнейших редакциях Викисловаря. (Данные на декабрь 2009 г. )

Большинство статей и многие определения в крупнейших языковых редакциях проекта были созданы ботами, которые нашли творческие способы создания статей или (редко) автоматически импортировали тысячи записей из ранее опубликованных словарей. Семь из 18 ботов, зарегистрированных в английском Викисловаре [c], создали там 163 000 записей. [5]

Другой из этих ботов, «ThirdPersBot», отвечал за добавление ряда конъюгаций от третьего лица , которые не получили бы свои собственные записи в стандартных словарях; например, он определил «тление» как «простую настоящую форму тления в единственном числе от третьего лица». Из 648 970 определений, которые дает английский Викисловарь, 501 171 английское слово, 217 850 являются «формой» определений такого рода. [6] Это означает, что его охват английского языка немного меньше, чем у основных одноязычных печатных словарей. Оксфордский словарь английского языка , например, имеет 615,000 заглавных, в то время как Merriam-Webster Третий новый международный словарь английского языка, Несокращенныйимеет 475 000 записей (с множеством дополнительных встроенных заглавных слов). Существует подробная статистика, показывающая, сколько существует записей разного типа.

Английский Викисловарь не полагается на ботов в такой степени, как некоторые другие редакции. Французские и вьетнамские викисловарь, например, импортировали большие участки словаря проекта Free Вьетнамского (FVDP), который предоставляет бесплатный контент двуязычных словарей и из вьетнамцев. [d] Эти импортированные записи составляют практически все содержимое вьетнамского издания. Почти все статьи в малагасийском викисловаре на других языках, кроме малагасийского, были скопированы ботом из других викисловарь. Как и английское издание, французский Викисловарь импортировал около 20 000 записей из базы данных Unihan о китайских, японских и корейских иероглифах.. Французский викисловарь быстро рос в 2006 году во многом благодаря ботам, копирующим многие статьи из старых, свободно лицензируемых словарей, таких как восьмое издание Dictionnaire de l'Académie française (1935 г., около 35000 слов), и использования ботов для добавления слова из других изданий Викисловаря с французским переводом. России издание выросло почти 80 000 записей , как «LXbot» добавлены записи шаблонных (с заголовками, но без определений) для слов на английском и немецком языках . [7]

По состоянию на декабрь 2019 года en.wiktionary содержит более 700000 определений глянец и более 1100000 общих определений (включая различные формы) только для англоязычных статей, всего более 6100000 словарных статей на всех языках. [8]

Логотипы

Викисловарь исторически не имел единого логотипа в его многочисленных языковых версиях. В некоторых изданиях используются логотипы, которые изображают словарную статью о термине «Викисловарь», основанную на предыдущем логотипе английского Викисловаря, который был разработан Брионом Виббером, разработчиком MediaWiki . [9] Поскольку чисто текстовый логотип должен значительно отличаться от языка к языку, с сентября по октябрь 2006 г. на Wikimedia Meta-Wiki проводился четырехэтапный конкурс на принятие единого логотипа. [E]Некоторые общины приняли победившую игру «Smurrayinchester» - сетку из деревянных плиток 3 × 3, на каждой из которых нанесен символ из другой системы письма. Однако в опросе не было такого большого участия сообщества Викисловарь, как надеялись некоторые члены сообщества, и ряд более крупных вики в конечном итоге сохранили свои текстовые логотипы. [e]

В апреле 2009 года вопрос был воскрешен новым конкурсом. На этот раз изображение "AAEngelman" открытого словаря в твердом переплете победило в очном голосовании против логотипа 2006 года, но процесс доработки и принятия нового логотипа затем застопорился. [10] В последующие годы некоторые вики заменили свои текстовые логотипы одним из двух более новых логотипов. В 2012 году 55 вики, в которых использовался английский логотип Wiktionary, получили локализованные версии дизайна 2006 года от Smurrayinchester. [f] В июле 2016 года английский Викисловарь принял вариант этого логотипа. [11] По состоянию на 4 июля 2016 г., 135 вики, что составляет 61% записей Викисловаря, используют логотип, основанный на дизайне 2006 года "Smurrayinchester", 33 вики (36%) используют текстовый логотип, а три вики (3%) используют дизайн 2009 года "AAEngelman" . [12]

Критерии обеспечения точности

Для обеспечения точности, английский Wiktionary имеет политику , требующее условие быть засвидетельствовано . [13] Термины на основных языках, таких как английский и китайский, должны быть проверены:

  1. явно повсеместное использование, или
  2. использование на постоянно записываемых носителях, передающее значение, по крайней мере, в трех независимых случаях, охватывающих не менее года.

Для менее документированных языков, таких как крик, и вымерших языков, таких как латынь , одно использование на постоянно записанном носителе или одно упоминание в справочнике является достаточной проверкой.

Многоязычный

По состоянию на февраль 2021 года викисловарь работает на 180 языках, из них 156 активных и 24 закрытых. [1] На активных сайтах 29 822 802 статьи, а на закрытых 339 статей. [14] Есть 6 188 122 зарегистрированных пользователей, из которых 6 006 недавно были активны. [14]

Десять лучших языковых проектов викисловаря по количеству статей в Mainspace: [14]

Полный список с итогами см. В статистике Викимедиа: [15]

Критический прием

Критическая реакция на Викисловарь была неоднозначной. В 2006 году Джилл Лепоре писал в статье «Ноев ковчег» для The New Yorker , [г]

В Викисловарь не поднимают руки . Нет даже редакции. «Будь своим собственным лексикографом!» - мог бы быть девиз Викисловаря . Кому нужны специалисты? Зачем платить хорошие деньги за словарь, написанный лексикографами, если мы могли бы составить его сами?

Викисловарь не столько республиканский или демократический, сколько маоистский. И это настолько хорошо, насколько хороши книги с истекшим сроком действия авторских прав, из которых он ворует.

Отзыв Кейра Граффа о Booklist был менее критичным:

Есть ли место для Викисловаря? Несомненно. Индустрия и энтузиазм ее многочисленных создателей доказывают, что рынок существует. И замечательно иметь еще один надежный источник, который можно использовать при поиске странных терминов, которые появляются в современном быстро меняющемся мире и онлайн-среде. Но, как и в случае с очень многими веб-источниками (включая этот столбец), его лучше всего использовать опытными пользователями вместе с более авторитетными источниками. [ необходима цитата ]

Ссылки в других публикациях мимолетны и являются частью более широких обсуждений Википедии, не выходящих за рамки определения, хотя Дэвид Брукс в The Nashua Telegraph охарактеризовал это как «дикое и беспорядочное». [17] Одним из препятствий на пути к независимому освещению Викисловаря является продолжающееся заблуждение, что это просто расширение Википедии. [h] В 2005 году журнал PC Magazine оценил Викисловарь как один из «101 лучших веб-сайтов» [18], хотя информации об этом сайте было предоставлено мало.

Оценка правильности флексий для подмножества польских слов в английском Wiktionary показала, что эти грамматические данные очень стабильны. Только 131 из 4748 польских слов подверглись исправлению. [19]

Данные викисловаря при обработке естественного языка

Викисловарь содержит частично структурированные данные . [20] Лексикографические данные викисловаря можно преобразовать в машиночитаемый формат для использования в задачах обработки естественного языка . [21] [22] [23]

Викисловарь - сложная задача. Существуют следующие трудности: [24]

    • (1) постоянные и частые изменения данных и схем
    • (2) неоднородность схем языковых редакций Викисловаря [i] и
    • (3) ориентированность на человека вики .

Для разных языковых редакций Викисловаря существует несколько парсеров : [25]

  • Викисловарь DBpedia: [26] подпроект DBpedia , данные взяты из викисловарей на английском, французском, немецком и русском языках; данные включают язык, части речи, определения, семантические отношения и переводы. Декларативное описание схемы страницы, [27] регулярных выражений [28] и преобразователя конечного состояния [29] используется для извлечения информации.
  • JWKTL (библиотека Java Wiktionary): [30] обеспечивает доступ к дампу английских и немецких Wiktionary через API Java Wiktionary . [31] Данные включают язык, части речи, определения, цитаты, семантические отношения, этимологии и переводы. JWKTL распространяется под лицензией Apache .
  • wikokit: [32] синтаксический анализатор английского и русского викисловаря. [33] Анализируемые данные включают язык, части речи, определения, цитаты, [34] [j] семантические отношения [35] и переводы. Это мульти-лицензионное программное обеспечение с открытым исходным кодом.
  • Этимологические записи были проанализированы в проекте Etymological WordNet . [36]

Примеры задач обработки естественного языка, которые были решены с помощью данных Wiktionary, включают:

  • Правило на основе машинного перевода между голландским языком и африкаанс ; данные английского Wiktionary, голландского Wiktionary и Wikipedia были использованы с платформой машинного перевода Apertium . [37]
  • Построение машиночитаемого словаря парсером NULEX, который объединяет открытые лингвистические ресурсы: английский Wiktionary, WordNet и VerbNet . [38] Синтаксический анализатор NULEX очищает английский Викисловарь на предмет информации о времени (глаголы), множественном числе и частях речи (существительные).
  • Распознавание и синтез речи , где Викисловарь использовался для автоматического создания словарей произношения. [39] Пары слово-произношение были взяты из 6 языковых редакций Викисловаря (чешский, английский, французский, испанский, польский и немецкий). Произношение в терминах международного фонетического алфавита . [k] Система ASR , основанная на английском Викисловаре, имеет самый высокий уровень ошибок в словах, где каждая третья фонема должна быть изменена. [41]
  • Инжиниринг онтологий [42] и построение семантических сетей . [43]
  • Соответствие онтологий . [44]
  • Упрощение текста . Medero & Остендорф [45] оценивали словарный запас трудности ( чтение уровня обнаружения) с помощью данных Викисловаря. Были исследованы свойства слов, извлеченных из статей Викисловаря (длина определения и количество точек продажи , смысла и перевода). Медеро и Остендорф ожидали, что
    • (1) очень распространенные слова с большей вероятностью будут иметь несколько частей речи,
    • (2) часто используемые слова имеют несколько значений,
    • (3) общеупотребительные слова с большей вероятностью будут переведены на несколько языков. Эти функции, извлеченные из статей Викисловаря, были полезны для различения типов слов, которые появляются в статьях Википедии на простом английском языке, от слов, которые встречаются только в статьях, сопоставимых со стандартным английским.
  • Пометка части речи . Ли и др. (2012) [46] создали многоязычные POS-теги для восьми языков с ограниченными ресурсами на основе английского викисловаря и скрытых марковских моделей . [l]
  • Анализ настроений . [47]

Смотрите также

  • Список викисловарей

Примечания

  1. ^ Текущий URL-адрес Wiktionary - www.wiktionary.org .
  2. ^ Общее количество статей в Викисловаре находится здесь. Подробная статистика по типам слов доступна здесь [1] .
  3. ^ Список пользователей в англоязычном Викисловаре определяет учетные записи, которым присвоен «статус бота».
  4. ^ Hồ Ngọc Đức, Проект бесплатного вьетнамского словаря . Подробности во вьетнамском Викисловаре.
  5. ^ a b « Викисловарь / логотип », Мета-Вики, Фонд Викимедиа .
  6. ^ [Translators-l] 56 Викисловарь получили локализованный логотип
  7. ^ Полная версия статьи недоступна в Интернете. [16]
  8. ^ В этой цитате автор ссылается на Викисловарь как на часть сайта Википедии: адаптировано из статьи Наоми ДеТуллио (2006). «Вики для библиотекарей» (PDF) . Новости NETLS # 142 . Библиотечная система Северо-Восточного Техаса. п. 15. Архивировано из оригинального (бюллетень PDF) 5 июня 2007 года . Проверено 21 апреля 2007 года .
  9. ^ Например, сравните структуру статей и правила форматирования в англоязычном и русском викисловарях .
  10. ^ Цитаты взяты только из русского Викисловаря. [34]
  11. ^ Если на странице викисловаря есть несколько обозначений IPA - либо для разных языков, либо для вариантов произношения, то извлекается первое произношение. [40]
  12. ^ Исходный код и результаты POS-тегов доступны по адресу https://code.google.com/p/wikily-supervised-pos-tagger

Рекомендации

Специфический
  1. ^ Б Wikimedia «s MediaWiki API: Sitematrix . Получено за февраль 2021 г. из данных: статистика Википедии / meta.tab.
  2. ^ "Обсуждение архива списка рассылки Википедии, объявляющее об открытии проекта Викисловарь" . Проверено 3 мая 2011 года .
  3. ^ Википедия список рассылки архив обсуждение от Larry Sanger давая представление о Wiktionary - Проверено 3 мая 2011
  4. ^ https://www.wiktionary.org/
  5. ^ TheDaveBot архивация 11 октября 2007, в Wayback Machine , TheCheatBot архивация 11 октября 2007, в Wayback Machine , Websterbot архивация 11 октября 2007, в Wayback Machine , PastBot архивация 11 октября 2007, в Wayback Machine , NanshuBot Архивировано 11 октября 2007 года в Wayback Machine.
  6. ^ Подробная статистика на 1 июля 2013 г.
  7. ^ LXbot архивации 24 мая 2008, в Wayback Machine
  8. ^ Статистика викисловаря
  9. ^ " Обсуждение викисловаря: Логотип викисловаря ", Английский Викисловарь, Фонд Викимедиа.
  10. ^ « Викисловарь / логотип / обновление / голосование », Мета-Вики, Фонд Викимедиа.
  11. ^ phab: T139255
  12. ^ m: Wiktionary / logo # Статистика использования логотипа .
  13. ^ «Викисловарь: критерии включения» . Викисловарь . Проверено 13 марта 2015 года .
  14. ^ Б с Wikimedia «s MediaWiki API: Siteinfo . Получено в феврале 2021 г. из Data: Wikipedia statistics / data.tab.
  15. ^ "Статистика Wiktionary" . Meta.Wikimedia.org . Проверено 11 сентября 2020 года .
  16. ^ Лепора 2006 .
  17. ^ Дэвид Брукс, «Интерактивная онлайн-энциклопедия больше не только для компьютерных фанатов, потому что она нужна каждому сейчас, больше, чем когда-либо!» The Nashua Telegraph (4 августа 2004 г.)
  18. Перейти ↑ PC Mag 2005 .
  19. ^ Kurmas 2010 .
  20. Мейер и Гуревич 2012 , с. 140.
  21. ^ Zesch, Müller & Гуревичу 2008 , стр. 4, рисунок 1.
  22. ^ Мейер и Гуревич 2010 , с. 40.
  23. ^ Крижановский, Трансформация 2010 , стр. 1.
  24. ^ Hellmann & Auer 2013 , стр. 302, стр. 16 в PDF.
  25. ^ Hellmann, Brekle & Auer 2012 , стр. 3, таблица 1.
  26. ^ DBpedia Wiktionary архивации 4 мая 2013, в Wayback Machine
  27. ^ Hellmann, Brekle & Auer 2012 , стр. 8-9.
  28. ^ Hellmann, Brekle & Auer 2012 , стр. 10.
  29. ^ Hellmann, Brekle & Auer 2012 , стр. 11.
  30. ^ JWKTL
  31. ^ Zesch, Мюллер и Гуревич 2008 .
  32. ^ wikokit
  33. ^ Крыжановский, Transformation 2010 .
  34. ^ а б Смирнов и др. 2012 .
  35. ^ Крижановский, Сравнение 2010 .
  36. ^ Этимологический WordNet
  37. ^ Otte & Tyers 2011 .
  38. ^ McFate & Forbus 2011 .
  39. ^ Шлиппа, Окс & Schultz 2012 .
  40. Schlippe, Ochs & Schultz 2012 , стр. 4802.
  41. Schlippe, Ochs & Schultz 2012 , стр. 4804.
  42. ^ Мейер и Гуревич 2012 .
  43. ^ http://conceptnet5.media.mit.edu
  44. ^ Лин и Крижановский 2011 .
  45. ^ Медеро и Остендорф 2009 .
  46. ^ Ли, Граса и Таскар 2012 .
  47. ^ Чесли и др. 2006 .
Общий
  • Чесли, Паула; Винсент, Брюс; Сюй, Ли; Шрихари, Рохини К. (2006). «Использование глаголов и прилагательных для автоматической классификации настроений в блогах» (PDF) . Обучение . 580 : 233–235 . Проверено 9 мая 2013 года .
  • Хеллманн, Себастьян; Брекл, Йонас; Ауэр, Сорен (2012). «Использование краудсорсинга лексических ресурсов для начальной загрузки облака лингвистических данных» (PDF) . Proc. Joint Int. Конференция по семантическим технологиям (JIST) . Нара, Япония.
  • Hellmann, S .; Ауэр, С. (2013). «На пути к совместному извлечению знаний в веб-масштабе» (PDF) . В Гуревиче Ирина; Ким, Джунги (ред.). Народная сеть встречает НЛП . Теория и приложения обработки естественного языка. Springer-Verlag . С. 287–313. ISBN 978-3-642-35084-9.
  • Крижановский, Андрей (2010). «Преобразование структуры записей Викисловаря в таблицы и отношения в схеме реляционной базы данных». arXiv : 1011.1368 [ cs ].
  • Крижановский, Андрей (2010). «Сравнение тезаурусов Викисловаря в машиночитаемом формате». arXiv : 1006.5040 [ cs ].
  • Курмас, Захарий (июль 2010 г.). Завилински: библиотека для изучения грамматики в Викисловаре . Материалы 6-го Международного симпозиума по вики-страницам и открытому сотрудничеству. Гданьск, польша . Проверено 29 июля 2011 года .
  • Ли, Шен; Graça, Joao V .; Таскар, Бен (2012). «Разметка части речи под контролем Wiki» (PDF) . Труды совместной конференции 2012 г. по эмпирическим методам обработки естественного языка и компьютерному изучению естественного языка . Остров Чеджу, Корея: Ассоциация компьютерной лингвистики. С. 1389–1398.
  • Лепор, Джилл (6 ноября 2006 г.). «Ноев ковчег» . Житель Нью-Йорка (Аннотация) . Проверено 21 апреля 2007 года .
  • Линь, Фэйю; Крижановский, Андрей (2011). «Согласование многоязычных онтологий на основе данных Wiktionary, доступных через конечную точку SPARQL». Proc. 13-й Российской конференции по электронным библиотекам RCDL'2011 . Воронеж, Россия. С. 19–26. arXiv : 1109.0732 . Bibcode : 2011arXiv1109.0732L .
  • McFate, Clifton J .; Форбус, Кеннет Д. (2011). «NULEX: лексика широкого охвата с открытой лицензией» (PDF) . 49-е ежегодное собрание Ассоциации компьютерной лингвистики: технологии человеческого языка, Материалы конференции . Портленд, Орегон, США: Ассоциация компьютерной лингвистики. С. 363–367. ISBN 978-1-932432-88-6.
  • Медеро, Джули; Остендорф, Мари (2009). «Анализ сложности словарного запаса с помощью викисловаря» (PDF) . Proc. SLaTE Workshop .
  • Мейер, CM; Гуревич, И. (2010). «На вес золота или еще один ресурс - сравнительное исследование Wiktionary, OpenThesaurus и GermaNet» (PDF) . Proc. 11-я Международная конференция по интеллектуальной обработке текстов и компьютерной лингвистике, Яссы, Румыния . С. 38–49.
  • Мейер, CM; Гуревич, И. (2012). «ОнтоВикисловарь - Создание онтологии из Совместного онлайн-словаря Викисловарь» (PDF) . In Pazienza, MT; Стеллато, А. (ред.). Полуавтоматическая разработка онтологий: процессы и ресурсы . IGI Global. С. 131–161. ISBN 978-1-4666-0188-8. Архивировано из оригинального (PDF) 9 октября 2013 года.
  • Отте, Пим; Тайерс, FM (2011). «Быстрый машинный перевод на основе правил с голландского на африкаанс» (PDF) . В Форкаде, Mikel L .; Депретере, Хайди; Вандегинсте, Винсент (ред.). 16-я ежегодная конференция Европейской ассоциации машинного перевода, EAMT11 . Лёвен, Бельгия. С. 153–160.
  • Шлиппе, Тим; Охс, Себастьян; Шульц, Таня (2012). «Генерация модели графемы-фонемы для индоевропейских языков» (PDF) . Акустика, обработка речи и сигналов (ICASSP) . Киото, Япония. С. 4801–4804.
  • Смирнов А., Левашова Т., Карпов А., Кипяткова И., Ронжин А., Крижановский А., Крижановский Н. (2012). «Анализ цитатного корпуса Русского Викисловаря». Исследования в области вычислительной техники . 56 : 101–112. arXiv : 2002.00734 . CiteSeerX  10.1.1.694.9627 . DOI : 10.13053 / RCS-56-1-11 .
  • Зеш, Торстен; Мюллер, Кристоф; Гуревич, Ирина (2008). «Извлечение лексико-семантических знаний из Википедии и Викисловаря» (PDF) . Труды конференции по языковым ресурсам и оценке (LREC) . Марракеш, Марокко.
  • «Викисловарь» . Топ 101 веб-сайтов. Журнал ПК . Зифф Дэвис. 6 апреля 2005 года Архивировано из оригинала 21 декабря 2005 года . Проверено 16 декабря 2005 года .

внешняя ссылка

  • Список всех редакций Викисловаря
  • Главная страница викисловаря
    • Английский викисловарь
  • Пакет Wiktionary для Android врепозитории F-Droid
  • Викисловарь в Google Play
  • Многоязычная статистика Викисловаря
  • Страница Викимедиа в Викисловаре (включая список всех существующих Викисловарь)
  • Страницы о Викисловаре в Meta .
  • Мета: Главная страница - OmegaWiki