Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Британский национальный корпус ( BNC ) является 100-миллионной слово текст корпус образцов письменного и устного английского языка из широкого спектра источников. [1] Корпус охватывает британский английский язык конца 20-го века из самых разных жанров , с намерением сделать его репрезентативным образцом разговорного и письменного британского английского языка того времени.

История [ править ]

Проект по созданию BNC включал в себя сотрудничество трех издателей (с Oxford University Press в качестве ведущего сотрудника, Longman и W. & R. Chambers ), двух университетов ( Оксфордский университет и Ланкастерский университет ) и Британской библиотеки . [2] Создание BNC началось в 1991 году под управлением консорциума BNC, и проект был завершен к 1994 году. После 1994 года не было никаких добавлений новых образцов, но BNC претерпел небольшие изменения перед выпуском второго издание BNC World (2001) и третье издание BNC XML Edition (2007). [3]

BNC был идеей компьютерных лингвистов, целью которых было создание корпуса современного (на момент создания корпуса) естественного языка в форме речи и текста или письма, которые можно было бы проанализировать с помощью компьютера. Следовательно, он был составлен как общий корпус, чтобы открыть путь для автоматического поиска и обработки в области корпусной лингвистики . Одним из способов отличить BNC от существующих в то время корпусов было открытие доступа к данным не только для академических исследований, но и для коммерческого и образовательного использования. [4]

Корпус был ограничен только британским английским языком и не распространялся на всемирный английский . Отчасти это было связано с тем, что значительная часть стоимости проекта финансировалась британским правительством, которое было логически заинтересовано в сопроводительной документации своего собственного лингвистического разнообразия . [4] Из-за своего потенциально беспрецедентного размера BNC также требовал средств от коммерческих и академических институтов. В свою очередь, данные BNC стали доступны для коммерческих и академических исследований. [4]

Описание [ править ]

BNC является одноязычных корпус, так как он записывает образцы языка использования в британском английском только, хотя иногда слова и фразы из других языков также могут присутствовать. Это синхронный корпус, так как представлено только использование языка с конца 20 века; BNC не задумывался как исторический отчет о развитии британского английского на протяжении веков. [3] С самого начала те, кто участвовал в сборе письменных данных, стремились сделать BNC сбалансированным корпусом и, следовательно, искали данные на различных носителях. [4]

Компоненты и содержание [ править ]

Структура BNC

90% BNC - это образцы письменного использования корпуса . Эти образцы были взяты из региональных и национальных газет, опубликованных исследовательских журналов или периодических изданий из различных академических областей, художественной и научно-технической литературы, других опубликованных материалов и неопубликованных материалов, таких как листовки, брошюры, письма, эссе, написанные студентами разного академического уровня. , речи, сценарии и многие другие типы текстов. [5]

Остальные 10% BNC - это образцы разговорной речи . Они представлены и записаны в виде орфографической транскрипции. Произносимого корпус состоит из двух частей: одна части демографическая , содержащая транскрипции спонтанных естественных разговоров , полученных добровольцами различных возрастных групп, социальных классов и происходящие из разных регионов. Эти разговоры производились в различных ситуациях, включая официальные деловые или правительственные встречи, разговоры в радиошоу и телефонные разговоры. [5] Они должны были учитывать как демографическое распределение разговорного языка, так и лингвистически значимые вариации из-за контекста. [6]

Другая часть включает образцы с учетом контекста, такие как транскрипции записей, сделанных на определенных типах встреч и мероприятий. Все оригинальные записи, расшифрованные для включения в BNC, депонированы в звуковом архиве Британской библиотеки . Большинство записей находятся в свободном доступе в Фонетической лаборатории Оксфордского университета .

Подкорпуса и теги [ править ]

Были выпущены два субкорпуса (подмножества данных BNC): BNC Baby и BNC Sampler. Оба этих субкорпуса можно заказать онлайн через веб-страницу BNC. [7] BNC Baby - это подкорпус BNC, состоящий из четырех наборов выборок, каждый из которых содержит один миллион слов, помеченных как в самом BNC. Слова в каждом наборе образцов соответствуют определенному жанровому ярлыку. Один набор образцов содержит устную беседу, а другие три набора образцов содержат письменный текст: академические произведения , художественная литература и газеты соответственно. [8] Последняя (третья) редакция выпущена в формате XML. [9]BNC Sampler состоит из двух частей, каждая из которых предназначена для письменных и устных данных; каждая часть содержит миллион слов. Изначально BNC Sampler использовался в проекте, чтобы разработать, как улучшить процесс маркировки для BNC, что в конечном итоге привело к выпуску BNC World edition. На протяжении всего проекта BNC Sampler совершенствовался за счет увеличения опыта и знаний по тегированию, чтобы достичь его текущей формы. [10]

Корпус BNC помечен для грамматической информации ( части речи ). Система тегов, названная CLAWS, претерпела улучшения, в результате чего появилась последняя система CLAWS4, которая используется для тегирования BNC. CLAWS1 был основан на скрытой марковской модели, и при использовании автоматической маркировки удалось успешно пометить от 96% до 97% каждого проанализированного текста. CLAWS1 был обновлен до CLAWS2, устранена необходимость в ручной обработке для подготовки текстов к автоматической маркировке. Последняя версия, CLAWS4, включает такие улучшения, как более мощные возможности устранения неоднозначности смысла слов (WSD) и возможность работать с вариациями в орфографии и языке разметки.. Позднее работа над системой тегов была направлена ​​на повышение успешности автоматической маркировки и сокращение объема работы, необходимой для ручной обработки, при сохранении эффективности и результативности за счет внедрения программного обеспечения, которое заменит некоторую ручную работу. [2] [11] Впоследствии для корректирующей функции была представлена ​​новая программа под названием «Template Tagger». Позже были добавлены теги, указывающие на неоднозначность. Ручное тегирование по-прежнему необходимо, поскольку CLAWS4 все еще не может работать с иностранными словами. [12] [13]

TEI и доступ [ править ]

Корпус размечен в соответствии с рекомендациями Text Encoding Initiative (TEI) и включает полную лингвистическую аннотацию и контекстную информацию. [14] Чтобы использовать теггер, можно приобрести лицензию на устройство тегов части речи CLAWS4. [15] Кроме того, услуги по тегированию предлагаются в Ланкастерском университете . [16] Сам BNC можно заказать с личной или институциональной лицензией. Доступна версия BNC XML, которая поставляется с программным обеспечением поисковой системы Xaira . Заказ можно осуществить через сайт BNC. [17] Онлайн- менеджер корпуса, BNCweb, был разработан для версии BNC XML. Интерфейс разработан так, чтобы быть простым в использовании, и программа предлагает функции запросов и функции для анализа корпуса. Пользователи могут получать результаты и данные в результате поиска и анализа. [18]

Проблемы с разрешениями [ править ]

BNC был первым текстовым корпусом такого размера, который стал широко доступным. Это может быть связано со стандартными формами соглашения между правообладателями и Консорциумом, с одной стороны, и между пользователями корпуса и Консорциумом, с другой. Права интеллектуальной собственностиот владельцев требовалось согласие со стандартной лицензией, включая готовность включать свои материалы в корпус без каких-либо сборов. Этому расположению, возможно, способствовали оригинальность концепции и известность, связанная с проектом. Однако было непросто сохранить личность участников, не дискредитируя ценность их работы. Любой отчетливый намек на личность участников был в значительной степени удален; альтернативное решение по замене личности участника другим именем обсуждалось, но не было сочтено возможным. [6]

Кроме того, участников ранее просили включать только транскрибированные версии своей речи, а не саму речь . Хотя разрешение можно было снова запросить у первоначальных участников, отсутствие успеха в процессе анонимности означало, что будет сложно получить материалы у первоначальных участников. В то же время два фактора усугубляли нежелание правообладателей жертвовать свои материалы: полные тексты должны были быть исключены, и у них не было мотивации для распространения информации с использованием корпуса, тем более что корпус действует на некоммерческой основе. . [6]

Проблемы и ограничения [ править ]

Категории [ править ]

К 2001 году в BNC все еще не было категоризации письменных текстов, выходящих за рамки предметной области, и категоризации устных текстов, кроме как по контексту и демографическим или социально-экономическим классам. Например, в BNC было включено большое количество художественных текстов ( романы , рассказы , стихи и драматические сценарии), но такие включения были сочтены бесполезными, поскольку исследователи не могли легко найти поджанры, над которыми они хотели работать (например, , стихи). Поскольку эти метаданныебыл опущен в заголовках файлов и во всей документации BNC, не было возможности узнать, действительно ли «образный» текст был взят из романа, рассказа, драматического сценария или сборника стихов, если в заголовке не было слов, таких как «роман» или «стихотворение»). [19]

С выпуском в 2002 году новой версии, BNC World Edition, BNC попытался решить эту проблему. Помимо домена, теперь существует 70 категорий по жанрам как для устных, так и для письменных данных, и поэтому исследователи теперь могут извлекать тексты по жанрам. Однако даже после этих добавлений реализация по-прежнему остается сложной задачей, поскольку присвоение жанра или поджанра тексту непросто. Разделения для устных данных менее четкие, чем для письменных, поскольку было больше различий в тематике и исполнении. Также всегда будут возможные подмножества жанров каждого поджанра. Степень разделения жанров предварительно определяется по умолчанию, но исследователи могут сделать подразделения более общими или конкретными в соответствии со своими потребностями. Категоризация также является проблемой, поскольку некоторые тексты,хотя они и считаются принадлежащими к междисциплинарному жанру, например лингвистике, включают контент, который впоследствии подразделяется на категории искусства или науки в связи с характером их содержания.[20]

Классификация и дискурс [ править ]

Некоторые тексты были отнесены к неправильной категории, обычно из-за вводящего в заблуждение названия. Пользователи не всегда могут полагаться на названия файлов как на указание на их реальное содержание: например, многие тексты со словом «лекция» в названии на самом деле являются обсуждениями в классе или учебными семинарами с участием очень небольшой группы людей, или были популярными лекциями (адресованными для широкой аудитории, а не для студентов вузов). [19] Одна из причин заключается в том, что ярлыки жанра и поджанра могут быть присвоены только большинству текстов в категории. Внутри жанров есть поджанры, и содержание каждого текста может быть неоднородным и может охватывать несколько поджанров. [20]Кроме того, производственное давление в сочетании с недостаточностью информации привело к поспешным решениям, что привело к неточности и непоследовательности в записях. [6]

Соотношение письменного и устного материала в BNC составляет 10: 1, что делает устный материал недопредставленным. Это связано с тем, что стоимость сбора и расшифровки одного миллиона слов естественной речи как минимум в 10 раз выше, чем стоимость добавления еще одного миллиона слов газетного текста. Некоторые лингвисты утверждали, что это свидетельствует о недостатке корпуса, поскольку речь и письмо одинаково важны в языке. [6] BNC не идеален для изучения многих особенностей устного дискурса, поскольку большинство его транскриптов являются орфографическими . Паралингвистические особенности обозначены лишь приблизительно. [21]

Ограничения и неправомерное присвоение [ править ]

Несмотря на то , что BNC является отличным источником лексической информации, на самом деле он может использоваться только для изучения ограниченного набора грамматических шаблонов, особенно тех, которые имеют четкие лексические корреляты. Хотя достаточно легко найти все вхождения слова «наслаждаться» и отсортировать их в соответствии с категорией части речи следующего слова, требуется дополнительная работа, чтобы найти все случаи глаголов, за которыми следует герундий , поскольку Индекс SARA BNC не включает категории частей речи, такие как «все глаголы» или «все формы V-ing». [21]

Некоторые лексические корреляты также слишком неоднозначны, чтобы их можно было использовать в запросах: любой поиск ограничительных относительных предложений предоставит пользователю нерелевантные данные, учитывая количество других употреблений wh- местоимений в языке (не говоря уже о невозможность определения относительных предложений с удалением местоимения, как в слове «человек, которого я видел»). Определенные семантические и прагматические категории (сомнения, осведомленность, разногласия, резюме и т. Д.) Трудно найти по той же причине. Это означает, что , например, в то время как можно сравнивать речи мужчин и женщин, можно не сравнивать речи для женщин и для мужчин. [21]

Природа BNC как большого смешанного корпуса делает его непригодным для изучения узкоспециализированных текстовых типов или жанров, поскольку любой из них, вероятно, будет неадекватно представлен и не может быть распознан по кодировке. Например, в BNC очень мало деловых писем и служебных встреч, и тем, кто желает изучить их конкретные соглашения, лучше составить небольшой корпус, включающий только тексты этих типов. [21]

Использует [ редактировать ]

Обучение английскому языку [ править ]

Существует два основных способа использования материала корпуса в обучении языку. [21]

Во-первых, издатели и исследователи могут использовать образцы корпусов для создания справочников, учебных программ и других связанных инструментов или материалов. Например, BNC использовалась группой японских исследователей в качестве инструмента при создании веб-сайта для изучения английского языка для изучающих английский язык для конкретных целей (ESP). [22] Веб-сайт позволял изучающим английский язык загружать часто слышимые и используемые шаблоны предложений, а затем основывать их собственное использование английского языка на этих шаблонах предложений. BNC служил источником, из которого были извлечены часто используемые выражения. Таким образом, при использовании этого веб-сайта пользователи полагались на эталонные образцы из BNC, чтобы помочь им в изучении английского языка. Такое создание материалов, облегчающих изучение языка, обычно включает использование очень больших корпусов (сравнимых с размером BNC), а также передового программного обеспечения и технологий. В разработку такого материала для изучения языка вкладывается большое количество денег, времени и опыта в области компьютерной лингвистики . [21]

Во-вторых, анализ корпуса может быть включен непосредственно в среду преподавания и изучения языка. С помощью этого метода учащимся, изучающим язык, предоставляется возможность классифицировать языковые данные из корпуса и впоследствии формировать выводы о моделях и особенностях своего целевого языка на основе их категоризации. Этот метод предполагает больший объем работы со стороны тех, кто занимается языком, и Тим Джонс назвал его «обучением на основе данных». Корпус данных, используемых для обучения на основе данных, относительно меньше, и, следовательно, обобщения, сделанные в отношении целевого языка, могут иметь ограниченную ценность. [21] В общем, BNC полезен как справочный источник для создания и восприятия текста. BNC можно использовать как ссылкуисточник при изучении использования отдельных слов в различных контекстах, чтобы учащиеся познакомились с различными способами использования определенных слов в подходящих контекстах. [21] Помимо языковой информации, энциклопедическая информация также находится в BNC. Учащиеся, просматривающие данные BNC, также знакомятся с британскими культурными особенностями и стереотипами . [21]

Двуязычные словари, тесты и оценки [ править ]

BNC стал источником более 12 000 слов и фраз, которые использовались для создания ряда двуязычных словарей в Индии в 2012 году, переведя 22 местных языка на английский. Это было частью более крупного движения, направленного на улучшение образования, сохранение местных языков Индии и развитие переводческой работы. [23] Большой размер BNC предоставляет крупномасштабный ресурс для тестирования программ. [24] Он использовался в качестве испытательного стенда для руководства Text Encoding Initiative (TEI). BNC также использовался для предоставления 20 миллионов слов для оценки английских систем получения подкатегорий для Senseval.инициатива вычислительного анализа смысла. [25]

Исследование [ править ]

Совместные доказательства из Британского национального корпуса [ править ]

Хоффман и Леманн (2000) исследовали механизмы, лежащие в основе способности говорящих манипулировать своим большим набором словосочетаний, которые готовы к использованию и могут быть легко расширены грамматически или синтаксически для адаптации к текущей речевой ситуации. Словесные комбинации, встречающиеся с низкой частотой, были извлечены из BNC, чтобы дать некоторое представление о нем. [26]

Совместное поведение мужчины и женщины [ править ]

Пирс (2008) исследовал представительство мужчин и женщин в этом корпусе с помощью Sketch Engine . Инструмент корпусного запроса использовался для изучения грамматического поведения лемм существительных «мужчина» и «женщина» (т. Е. Существительных «мужчина» / «мужчины» и «женщина» / «женщины»). [27]

Несентенциальные высказывания: исследование корпуса [ править ]

Фернандес и Гинзбург (2002) исследовали диалог, который включал несмысленные высказывания, используя BNC. [28]

Курс EAP на основе корпуса для докторантов NNS [ править ]

Lee & Swales (2006 г.) разработали экспериментальный курс основанного на корпусе английского языка для академических целей (EAP) для докторантов Института английского языка (ELI) Мичиганского университета в США. [29]

Участники использовали три основных корпуса в качестве основы своих исследований: корпус научных статей Хайленда, корпус академического разговорного английского языка штата Мичиган (MICASE) и академические тексты из BNC. [29]

Будущая работа [ править ]

Морфологическая обработка [ править ]

В рамках продолжающейся работы по морфологической обработке, ключевой области обработки естественного языка (NLP), данные из BNC использовались для проверки точности, надежности и скорости вычислительных инструментов, разработанных для облегчения анализа и обработки морфологических маркеров в британском английском. . [30] Вычислительные инструменты включали программу, которая позволяла анализировать флективную морфологиюна британском английском языке (известный как анализатор) и программа, которая генерирует морфологические метки на основе анализа с помощью анализатора. Данные из BNC также использовались для создания обширного хранилища информации о морфологических маркерах британского английского языка. В частности, приблизительно 1100 лемм были извлечены из BNC и скомпилированы в контрольный список, который проверялся морфологическим генератором до того, как глаголы , допускающие удвоение согласных, были точно изменены. [30] Поскольку BNC представляет собой заметное усилие по сбору и последующей обработке такого большого количества данных, он стал влиятельным предшественником в этой области и моделью или образцовым корпусом, на котором основывалась разработка более поздних корпусов. [31]

BNC2014 [ править ]

В июле 2014 года издательство Кембриджского университета и Центр корпусных подходов к социальным наукам (CASS) объявили в Ланкастерском университете, что новый Британский национальный корпус - BNC2014 [32] - находится на стадии компиляции. [33] Первым этапом совместного проекта между двумя учреждениями было создание нового разговорного корпуса британского английского языка с начала до середины 2010-х годов. [34] Разговорный Британский национальный корпус 2014 объемом 11,5 миллионов слов был опубликован 25 сентября 2017 года. [35] В настоящее время составляется письменный компонент BNC2014, содержащий 100 миллионов слов, и его выпуск планируется для общественности осенью 2018 года. [36]

См. Также [ править ]

  • Американский национальный корпус
  • Банк английского языка
  • Коричневый корпус
  • Корпус современного американского английского (COCA)
  • Международный корпус английского языка
  • Лу Бернард
  • Oxford English Corpus
  • Разговорный английский корпус

Ссылки [ править ]

  1. ^ Бернард, Лу; Астон, Гай (1998). Справочник BNC: изучение Британского национального корпуса . Эдинбург: Издательство Эдинбургского университета. п. xiii. ISBN 0-7486-1055-3.
  2. ^ a b Пиявка, Джеффри; Гарсайд, Роджер; Брайант, Майкл (1994). «Корпусные исследования языка: в честь Яна Аартса». В Н. Остджик и П. Хаан (ред.). Масштабная грамматическая разметка текста: опыт работы с Британским национальным корпусом . Нидерланды: Rodopi Publishers. С. 47–63.
  3. ^ a b Что такое BNC? . Проверено 12 марта 2012 года.
  4. ^ a b c d Пиявка, Джеффри (1993). «100 миллионов английских слов». Английский сегодня . 9 (1): 9–15. DOI : 10.1017 / S0266078400006854 .
  5. ^ a b Британский национальный корпус . Проверено 12 марта 2012 года.
  6. ^ a b c d e Бёрнард, Лу (2002). «Где мы ошиблись? Ретроспективный взгляд на Британский национальный корпус» (PDF) . Проверено 14 марта 2012 года .
  7. ^ «Продукты BNC» . Проверено 18 марта 2012 года .
  8. ^ Burnard, Лу (2003). «Справочник по BNC-baby» . Проверено 18 марта 2012 года .
  9. ^ "Доступна новая редакция BNC Baby" . Проверено 19 марта 2012 года .
  10. ^ «BNC Sampler: XML edition» (PDF) . 2008 . Проверено 18 марта 2012 года .
  11. ^ Пиявка, Джеффри; Гарсайд, Роджер; Брайант, Майкл (1994). «Claws4: Теги Британского национального корпуса». Доклад представлен на выставке COLING'94, Ланкастер: Великобритания. CiteSeerX 10.1.1.13.3622 .  Цитировать журнал требует |journal=( помощь )
  12. ^ Пиявка, Джеффри; Смит, Николас (2000). «Британский национальный корпус (версия 2) с улучшенными тегами Word-класса» . UCREL, Ланкастерский университет, Великобритания . Проверено 17 марта 2012 года .
  13. ^ Пиявка, Джеффри; Смит, Николас (2000). «Автоматическая POS-маркировка корпуса» . UCREL, Ланкастерский университет, Великобритания . Проверено 17 марта 2012 года .
  14. ^ Burnard, Лу (1995). «Справочное руководство для пользователей Британского национального корпуса» (PDF) . Проверено 18 марта 2012 года .
  15. ^ «Получение лицензии на тэггер CLAWS» . UCREL, Ланкастерский университет, Великобритания . Проверено 17 марта 2012 года .
  16. ^ "Служба тегов CLAWS" . UCREL, Ланкастерский университет, Великобритания . Проверено 17 марта 2012 года .
  17. ^ «Как заказать» . Проверено 17 марта 2012 года .
  18. ^ Хоффманн, Себастьян; Эверт, Стефан (2008). Корпусная лингвистика с BNCweb: практическое руководство . Питер Лэнг. ISBN 978-3-631-56315-1.
  19. ^ a b Ли, Дэвид (2001). «ЖАНРЫ, РЕГИСТРЫ, ВИДЫ ТЕКСТА, ДОМЕНЫ И СТИЛИ» (PDF) . 5 (3): 37–72 . Проверено 15 марта 2012 года . Цитировать журнал требует |journal=( помощь )
  20. ^ a b Ли, Дэвид (2002). «ПРИМЕЧАНИЯ ДЛЯ СОПРОВОЖДЕНИЯ ВСЕМИРНОГО ИЗДАНИЯ BNC (БИБЛИОГРАФИЧЕСКИЙ УКАЗАТЕЛЬ)» (PDF) . Архивировано из оригинального (PDF) 23 сентября 2013 года . Проверено 17 марта 2012 года .
  21. ^ Б с д е е г ч я Aston, Guy (1998). «Изучение английского языка с Британским национальным корпусом» . Доклад, представленный на 6-й выставке Jornada de Corpus, Барселона: UPF . Проверено 16 марта 2012 года .
  22. ^ Минн, Дэнни; Сано, Хироши; Ино, Мари; Накамура, Такахиро (2005). «Использование BNC для создания и разработки учебных материалов и веб-сайтов для изучающих английский язык» (PDF) . Журнал ICAME . 29 : 99–113 . Проверено 12 марта 2012 года .
  23. ^ «Двуязычные словари для продвижения родных языков Индии» . Времена Омана . 14 марта 2012 года Архивировано из оригинала на 2010-12-31 . Проверено 17 марта 2012 года .
  24. ^ "Что я могу сделать с BNC?" . Проверено 18 марта 2012 года .
  25. ^ Корхонена, Анна (2002). «РЕСУРСЫ ОЦЕНКИ для английских систем приобретения подкатегорий» . Архивировано из оригинального по 2012-12-13 . Проверено 18 марта 2012 года .
  26. ^ Хоффман, Себастьян; Леманн, Ханс Мартин (2000). «Совместные доказательства из Британского национального корпуса» . В Кирк, Джон М. (ред.). Корпора в изобилии: анализ и методы описания английского языка . Амстердам: Родопи. ISBN 9789042004191.
  27. ^ Пирс, Майкл (ноябрь 2008 г.). «Исследование коллокационного поведения МУЖЧИНЫ и ЖЕНЩИНЫ в BNC с использованием Sketch Engine» (PDF) . Корпорация . 3 (1): 1-29. DOI : 10.3366 / E174950320800004X . Архивировано из оригинального (PDF) 27 июня 2015 года.
  28. ^ Фернандес, Ракель; Джонатан Гинзбург (29 июня 2002 г.). "Несентенциальные высказывания: исследование корпуса" (PDF) . Архивировано из оригинального (PDF) 27 июня 2015 года. Цитировать журнал требует |journal=( помощь )
  29. ^ а б Ли, Дэвид; Джон Свейлс (2006). «Курс EAP на основе корпуса для докторантов NNS: переход от имеющихся специализированных корпусов к самосборным корпусам». Английский для особых целей . 25 (1): 56–75. DOI : 10.1016 / j.esp.2005.02.010 .
  30. ^ a b Миннен, Гвидо; Кэрролл, Джон; Пирс, Даррен (2001). «Прикладная морфологическая обработка английского языка» (PDF) . Инженерия естественного языка . 7 (3): 207–223. DOI : 10.1017 / s1351324901002728 .
  31. ^ Čermák, František (2003). «Сегодняшний корпус лингвистики: некоторые открытые вопросы». Международный журнал корпусной лингвистики . 7 (2): 265–282. DOI : 10,1075 / ijcl.7.2.06cer .
  32. ^ «Британский национальный корпус 2014» .
  33. ^ Центр ESRC корпусных подходов к социальным наукам (CASS) (28 июля 2014 г.). «Разговорное объявление о проекте BNC2014» . Проверено 7 октября 2016 .
  34. ^ "Центр корпусных подходов к социальным наукам" . Проверено 17 марта 2015 года.
  35. ^ "Издательство Джона Бенджамина" .
  36. ^ «Британский национальный корпус 2014» .

Внешние ссылки [ править ]

  • Веб-сайт Британского национального корпуса
  • Бесплатный интерфейс BNC
  • Аудио BNC
  • Индекс аудио BNC
  • Список источников
  • BNC с аудиозаписями
  • Частоты слов BNC
  • BNCweb (зарегистрируйтесь здесь)