Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Оксфордский английский корпус (ЭОС) является текст корпусом из 21-го века английского языка , используемый создателями в Оксфордском словаре английского языка и Oxford University Press «s программа исследований языка. Это самый большой в своем роде корпус, содержащий почти 2,1 миллиарда слов. [1] Включает язык из Великобритании, США, Ирландии, Австралии, Новой Зеландии, Карибского бассейна, Канады, Индии, Сингапура и Южной Африки. [2] Текст в основном собирается с веб-страниц ; некоторые печатные тексты, такие как академические журналы, были собраны для дополнения определенных предметных областей. [2]Источниками являются произведения всех видов, от «литературных романов и специализированных журналов до ежедневных газет и журналов и от Hansard до языка блогов, электронной почты и социальных сетей». [2] Это можно сравнить с аналогичными базами данных, в которых отбирается только определенный вид письма. Корпус обычно доступен только исследователям Oxford University Press, но другие исследователи, которые могут продемонстрировать сильную потребность, могут подать заявку на доступ. [2] [3]

Цифровая версия Oxford English Corpus отформатирована в XML и обычно анализируется с помощью программного обеспечения Sketch Engine . [4] К 27 апреля 2006 года словарная база данных насчитывала 1 миллиард слов.[5]

Каждый документ в корпусе OE сопровождается именованием метаданных :

  • заглавие
  • автор (если известен; многие веб-сайты затрудняют надежное определение этого)
  • пол автора (если известен)
  • тип языка (например, британский английский, американский английский)
  • исходный сайт
  • год (+ дата, если известна)
  • дата сбора
  • домен + поддомен
  • статистика документа (количество токенов, предложений и т. д.) [4]

См. Также [ править ]

Ссылки [ править ]

  1. ^ "Оксфордский английский корпус" . Sketch Engine . Lexical Computing CZ sro . Проверено 27 октября 2016 года .
  2. ^ a b c d "Оксфордский английский корпус" . Оксфордские словари онлайн . Издательство Оксфордского университета . Проверено 8 ноября 2014 года .
  3. ^ "Сравните COCA" . Корпус современного американского английского . Архивировано из оригинального 7 -го ноября 2014 года . Проверено 8 ноября 2014 года .
  4. ^ a b Оксфордский английский корпус . Проверено 4 февраля 2014 года.
  5. ^ «База данных словаря содержит миллиард слов» . Северо-западный вестник . 27 апреля 2006 г. с. 2 . Проверено 15 марта 2020 г. - через Newspapers.com.