Оксфордский английский корпус (ЭОС) является текст корпусом из 21-го века английского языка , используемый создателями в Оксфордском словаре английского языка и Oxford University Press «s программа исследований языка. Это самый большой в своем роде корпус, содержащий почти 2,1 миллиарда слов. [1] Включает язык из Великобритании, США, Ирландии, Австралии, Новой Зеландии, Карибского бассейна, Канады, Индии, Сингапура и Южной Африки. [2] Текст в основном собирается с веб-страниц ; некоторые печатные тексты, такие как академические журналы, были собраны для дополнения определенных предметных областей. [2]Источниками являются произведения всех видов, от «литературных романов и специализированных журналов до ежедневных газет и журналов и от Hansard до языка блогов, электронной почты и социальных сетей». [2] Это можно сравнить с аналогичными базами данных, в которых отбирается только определенный вид письма. Корпус обычно доступен только исследователям Oxford University Press, но другие исследователи, которые могут продемонстрировать сильную потребность, могут подать заявку на доступ. [2] [3]
Цифровая версия Oxford English Corpus отформатирована в XML и обычно анализируется с помощью программного обеспечения Sketch Engine . [4] К 27 апреля 2006 года словарная база данных насчитывала 1 миллиард слов.[5]
Каждый документ в корпусе OE сопровождается именованием метаданных :
- заглавие
- автор (если известен; многие веб-сайты затрудняют надежное определение этого)
- пол автора (если известен)
- тип языка (например, британский английский, американский английский)
- исходный сайт
- год (+ дата, если известна)
- дата сбора
- домен + поддомен
- статистика документа (количество токенов, предложений и т. д.) [4]
См. Также [ править ]
- Британский национальный корпус
- Корпус современного американского английского (COCA)
- Американский национальный корпус
- Частотный анализ
Ссылки [ править ]
- ^ "Оксфордский английский корпус" . Sketch Engine . Lexical Computing CZ sro . Проверено 27 октября 2016 года .
- ^ a b c d "Оксфордский английский корпус" . Оксфордские словари онлайн . Издательство Оксфордского университета . Проверено 8 ноября 2014 года .
- ^ "Сравните COCA" . Корпус современного американского английского . Архивировано из оригинального 7 -го ноября 2014 года . Проверено 8 ноября 2014 года .
- ^ a b Оксфордский английский корпус . Проверено 4 февраля 2014 года.
- ^ «База данных словаря содержит миллиард слов» . Северо-западный вестник . 27 апреля 2006 г. с. 2 . Проверено 15 марта 2020 г. - через Newspapers.com.