Эта статья поднимает множество проблем. Пожалуйста, помогите улучшить его или обсудите эти проблемы на странице обсуждения . ( Узнайте, как и когда удалить эти сообщения-шаблоны ) ( Узнайте, как и когда удалить этот шаблон сообщения )
|
Корпус современного американского английского языка ( COCA ) является более чем 560 миллионов слов корпус из американского английского языка . Он был создан Марк Дэвис , профессор Corpus лингвистики в Университете Бригама Янга (BYU). [1]
Содержание [ править ]
Корпус состоит из более чем 1 миллиарда слов [2] из 220 225 текстов, включая 20 миллионов слов за период с 1990 по 2017 год. Последнее обновление было сделано в декабре 2017 года. Корпус используется примерно десятками тысяч человек каждый месяц. [ необходима цитата ]
На каждый год корпус равномерно делится между следующими пятью жанрами: разговорная, художественная, популярные журналы, газеты и академические журналы. Тексты поступают из разных источников:
- Разговорный: (85 миллионов слов) Стенограммы незашифрованного разговора из почти 150 различных теле- и радиопрограмм.
- Художественная литература: (81 миллион слов) рассказы и пьесы, первые главы книг с 1990 г. по настоящее время и сценарии фильмов.
- Популярные журналы: (86 миллионов слов) Около 100 различных журналов из различных областей, таких как новости, здоровье, дом и сад, женские, финансовые, религиозные и спортивные.
- Газеты: (81 миллион слов) Десять газет со всех концов США, с текстом из разных разделов газет, таких как местные новости, мнения, спорт и финансовый раздел.
- Академические журналы: (81 миллион слов) около 100 различных рецензируемых журналов. Они были отобраны для охвата всего диапазона классификационной системы Библиотеки Конгресса .
Доступность [ править ]
В корпусе можно бесплатно выполнять поиск через веб-интерфейс [3] с ограничением количества запросов в день, а менее ограниченный доступ доступен по цене. [4] Полный текст корпуса доступен за дополнительную плату. [5]
Запросы [ править ]
- Интерфейс такой же, как интерфейс BYU-BNC для Британского национального корпуса из 100 миллионов слов, корпуса журнала TIME Magazine из 100 миллионов слов и корпуса из 400 миллионов слов * Historical * American English (COHA), 1810–2000-х гг. (См. ссылки ниже)
- Запросы по слову, фразе, альтернативам, подстроке, части речи, лемме, синонимам (см. Ниже) и настраиваемым спискам (см. Ниже)
- Корпус помечен CLAWS , той же частью речевого теггера, которая использовалась для корпуса BNC и TIME.
- Списки диаграмм (итоговые значения для всех подходящих форм в каждом жанре или году, с 1990 г. по настоящее время, а также для поджанров) и списки таблиц (частота для каждой подходящей формы в каждом жанре или году)
- Полный поиск словосочетаний (до десяти слов слева и справа от слова узла)
- Повторно сортируемые соответствия, показывающие наиболее распространенные слова / строки слева и справа от искомого слова
- Сравнение жанров или периодов времени (например, словосочетания «стул» в художественной или академической литературе, существительные с «разорвать [N]» в газетах или академических изданиях, прилагательные, которые встречаются в основном в спортивных журналах, или глаголы, которые более распространены в 2005–2010 гг. ранее)
- Одноэтапное сравнение словосочетаний связанных слов для изучения семантических или культурных различий между словами (например, сравнение сочетаний словосочетаний «маленький», «маленький», «крошечный», «миниатюрный» или лилипутский или «демократы» и «республиканцы» , или 'мужчины' и 'женщины', или 'ограбить' против 'украсть')
- Пользователи могут включать семантическую информацию из тезауруса в 60 000 статей непосредственно как часть синтаксиса запроса (например, частота и распределение синонимов слова «красивый», синонимы слова «сильный», встречающиеся в художественной литературе, но не академические, синонимы слова «чистый» + существительное (« мыть пол ',' мыть посуду '))
- Пользователи также могут создавать свои собственные «индивидуальные» списки слов, а затем повторно использовать их как часть последующих запросов (например, списки, относящиеся к определенной семантической категории (одежда, еда, эмоции) или определяемой пользователем части речи)
- Обратите внимание, что корпус доступен только через веб-интерфейс из-за ограничений авторских прав.
Связанные [ править ]
Корпус Glo баль W eb- б Ased E сского (GloWbE, произносятся как «шар») содержит около 1900000000 слов текста из двадцати разных стран. Это делает его примерно в 100 раз больше, чем другие корпуса, такие как Международный корпус английского языка, и позволяет выполнять многие типы поиска, которые в противном случае были бы невозможны. В дополнение к этому онлайн-интерфейсу вы также можете загружать полнотекстовые данные из корпуса.
Он уникален тем, что позволяет сравнивать разные варианты английского языка. GloWbE относится ко многим другим корпусам английского языка. [6]
См. Также [ править ]
- Американский национальный корпус
- Британский национальный корпус
- Банк английского языка
- Коричневый корпус
Библиография [ править ]
- Дэвис, Марк (2010). «Корпус современного американского английского языка как первый надежный корпус английского языка». Литературные и лингвистические вычисления . 25 (4): 447–65. DOI : 10,1093 / ооо / fqq018 .
- Беннетт, Гена Р. (2010). Использование корпусов в классе изучения языка: корпусная лингвистика для учителей . Анн-Арбор, Мичиган : Мичиганский университет. п. 144. ISBN 978-0-472-03385-0.
- Дэвис, Марк (2010). «Больше, чем глазок: использование больших и разнообразных онлайн-корпусов». Международный журнал корпусной лингвистики . 15 (3): 405–11. DOI : 10,1075 / ijcl.15.3.13dav .
- Андерсон, Венди; Корбетт, Джон (2009), Изучение английского языка с помощью онлайн-корпусов , Palgrave Macmillan, стр. 205, ISBN 978-0-230-55140-4
- Дэвис, Марк (2009). «Корпус из более чем 385 миллионов слов современного американского английского языка (с 1990 г. по настоящее время)». Международный журнал корпусной лингвистики . Издательская компания Джона Бенджамина. 14 (2): 159–190 (32). DOI : 10,1075 / ijcl.14.2.02dav .
- Линдквист, Ганс (2009). Корпусная лингвистика и описание английского языка . Издательство Эдинбургского университета. ISBN 978-0-7486-2615-1.
- Дэвис, Марк (2005). «Преимущество использования реляционных баз данных для больших корпусов: скорость, сложные запросы и неограниченное количество аннотаций». Международный журнал корпусной лингвистики . Издательская компания Джона Бенджамина. 10 (3): 307–334 (28). DOI : 10,1075 / ijcl.10.3.02dav .
Ссылки [ править ]
- ^ Kauhanen, Анри (2011-03-21). «Корпус современного американского английского: предыстория и история» . ВАРИЕНГ . Проверено 13 октября 2011 .
- ^ [1] официальный сайт COCA
- ^ «Корпус современного американского английского» . Корпус современного американского английского . Проверено 20 июля 2017 года .
- ^ "Корпуса BYU: Премиум" . BYU корпус . Проверено 20 июля 2017 года .
- ^ «Данные корпуса: Покупка» . Проверено 20 июля 2017 года .
- ^ "Корпус глобального английского языка в Интернете" . www.english-corpora.org . Проверено 18 декабря 2019 .
Внешние ссылки [ править ]
- Официальный веб-сайт