Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Корпус современного американского английского языка ( COCA ) является более чем 560 миллионов слов корпус из американского английского языка . Он был создан Марк Дэвис , профессор Corpus лингвистики в Университете Бригама Янга (BYU). [1]

Содержание [ править ]

Корпус состоит из более чем 1 миллиарда слов [2] из 220 225 текстов, включая 20 миллионов слов за период с 1990 по 2017 год. Последнее обновление было сделано в декабре 2017 года. Корпус используется примерно десятками тысяч человек каждый месяц. [ необходима цитата ]

На каждый год корпус равномерно делится между следующими пятью жанрами: разговорная, художественная, популярные журналы, газеты и академические журналы. Тексты поступают из разных источников:

  • Разговорный: (85 миллионов слов) Стенограммы незашифрованного разговора из почти 150 различных теле- и радиопрограмм.
  • Художественная литература: (81 миллион слов) рассказы и пьесы, первые главы книг с 1990 г. по настоящее время и сценарии фильмов.
  • Популярные журналы: (86 миллионов слов) Около 100 различных журналов из различных областей, таких как новости, здоровье, дом и сад, женские, финансовые, религиозные и спортивные.
  • Газеты: (81 миллион слов) Десять газет со всех концов США, с текстом из разных разделов газет, таких как местные новости, мнения, спорт и финансовый раздел.
  • Академические журналы: (81 миллион слов) около 100 различных рецензируемых журналов. Они были отобраны для охвата всего диапазона классификационной системы Библиотеки Конгресса .

Доступность [ править ]

В корпусе можно бесплатно выполнять поиск через веб-интерфейс [3] с ограничением количества запросов в день, а менее ограниченный доступ доступен по цене. [4] Полный текст корпуса доступен за дополнительную плату. [5]

Запросы [ править ]

  • Интерфейс такой же, как интерфейс BYU-BNC для Британского национального корпуса из 100 миллионов слов, корпуса журнала TIME Magazine из 100 миллионов слов и корпуса из 400 миллионов слов * Historical * American English (COHA), 1810–2000-х гг. (См. ссылки ниже)
  • Запросы по слову, фразе, альтернативам, подстроке, части речи, лемме, синонимам (см. Ниже) и настраиваемым спискам (см. Ниже)
  • Корпус помечен CLAWS , той же частью речевого теггера, которая использовалась для корпуса BNC и TIME.
  • Списки диаграмм (итоговые значения для всех подходящих форм в каждом жанре или году, с 1990 г. по настоящее время, а также для поджанров) и списки таблиц (частота для каждой подходящей формы в каждом жанре или году)
  • Полный поиск словосочетаний (до десяти слов слева и справа от слова узла)
  • Повторно сортируемые соответствия, показывающие наиболее распространенные слова / строки слева и справа от искомого слова
  • Сравнение жанров или периодов времени (например, словосочетания «стул» в художественной или академической литературе, существительные с «разорвать [N]» в газетах или академических изданиях, прилагательные, которые встречаются в основном в спортивных журналах, или глаголы, которые более распространены в 2005–2010 гг. ранее)
  • Одноэтапное сравнение словосочетаний связанных слов для изучения семантических или культурных различий между словами (например, сравнение сочетаний словосочетаний «маленький», «маленький», «крошечный», «миниатюрный» или лилипутский или «демократы» и «республиканцы» , или 'мужчины' и 'женщины', или 'ограбить' против 'украсть')
  • Пользователи могут включать семантическую информацию из тезауруса в 60 000 статей непосредственно как часть синтаксиса запроса (например, частота и распределение синонимов слова «красивый», синонимы слова «сильный», встречающиеся в художественной литературе, но не академические, синонимы слова «чистый» + существительное (« мыть пол ',' мыть посуду '))
  • Пользователи также могут создавать свои собственные «индивидуальные» списки слов, а затем повторно использовать их как часть последующих запросов (например, списки, относящиеся к определенной семантической категории (одежда, еда, эмоции) или определяемой пользователем части речи)
  • Обратите внимание, что корпус доступен только через веб-интерфейс из-за ограничений авторских прав.

Связанные [ править ]

Корпус Glo баль W eb- б Ased E сского (GloWbE, произносятся как «шар») содержит около 1900000000 слов текста из двадцати разных стран. Это делает его примерно в 100 раз больше, чем другие корпуса, такие как Международный корпус английского языка, и позволяет выполнять многие типы поиска, которые в противном случае были бы невозможны. В дополнение к этому онлайн-интерфейсу вы также можете загружать полнотекстовые данные из корпуса.

Он уникален тем, что позволяет сравнивать разные варианты английского языка. GloWbE относится ко многим другим корпусам английского языка. [6]

См. Также [ править ]

Библиография [ править ]

  • Дэвис, Марк (2010). «Корпус современного американского английского языка как первый надежный корпус английского языка». Литературные и лингвистические вычисления . 25 (4): 447–65. DOI : 10,1093 / ооо / fqq018 .
  • Беннетт, Гена Р. (2010). Использование корпусов в классе изучения языка: корпусная лингвистика для учителей . Анн-Арбор, Мичиган : Мичиганский университет. п. 144. ISBN 978-0-472-03385-0.
  • Дэвис, Марк (2010). «Больше, чем глазок: использование больших и разнообразных онлайн-корпусов». Международный журнал корпусной лингвистики . 15 (3): 405–11. DOI : 10,1075 / ijcl.15.3.13dav .
  • Андерсон, Венди; Корбетт, Джон (2009), Изучение английского языка с помощью онлайн-корпусов , Palgrave Macmillan, стр. 205, ISBN 978-0-230-55140-4
  • Дэвис, Марк (2009). «Корпус из более чем 385 миллионов слов современного американского английского языка (с 1990 г. по настоящее время)». Международный журнал корпусной лингвистики . Издательская компания Джона Бенджамина. 14 (2): 159–190 (32). DOI : 10,1075 / ijcl.14.2.02dav .
  • Линдквист, Ганс (2009). Корпусная лингвистика и описание английского языка . Издательство Эдинбургского университета. ISBN 978-0-7486-2615-1.
  • Дэвис, Марк (2005). «Преимущество использования реляционных баз данных для больших корпусов: скорость, сложные запросы и неограниченное количество аннотаций». Международный журнал корпусной лингвистики . Издательская компания Джона Бенджамина. 10 (3): 307–334 (28). DOI : 10,1075 / ijcl.10.3.02dav .

Ссылки [ править ]

  1. ^ Kauhanen, Анри (2011-03-21). «Корпус современного американского английского: предыстория и история» . ВАРИЕНГ . Проверено 13 октября 2011 .
  2. ^ [1] официальный сайт COCA
  3. ^ «Корпус современного американского английского» . Корпус современного американского английского . Проверено 20 июля 2017 года .
  4. ^ "Корпуса BYU: Премиум" . BYU корпус . Проверено 20 июля 2017 года .
  5. ^ «Данные корпуса: Покупка» . Проверено 20 июля 2017 года .
  6. ^ "Корпус глобального английского языка в Интернете" . www.english-corpora.org . Проверено 18 декабря 2019 .

Внешние ссылки [ править ]

  • Официальный веб-сайт