Корпусная лингвистика

Корпусная лингвистика является изучением языка как язык выражается в его корпусе текстов ( во множественном числе корпусов ), его тело «реальный мир» текст. Корпусная лингвистика предполагает, что надежный анализ языка более осуществим с корпусами, собранными в полевых условиях, в их естественном контексте («реалиях») и с минимальным экспериментальным вмешательством.

Метод text-corpus - это пищеварительный подход, который выводит набор абстрактных правил, которые управляют естественным языком из текстов на этом языке, и исследует, как этот язык соотносится с другими языками. Получение корпусов из исходных текстов сначала производилось вручную, но теперь оно автоматизировано.

Корпуса использовались не только для лингвистических исследований, они также использовались для составления словарей (начиная с The American Heritage Dictionary of the English Language в 1969 году) и руководств по грамматике, таких как A Comprehensive Grammar of the English Language , опубликованного в 1985 году.

Эксперты в данной области по-разному относятся к аннотации корпуса. Эти взгляды варьируются от Джона Макхарди Синклера , который выступает за использование минимальных аннотаций, чтобы тексты говорили сами за себя ^[1], до группы Survey of English Usage ( Университетский колледж, Лондон ), которые выступают за аннотации как на возможность лучшего языкового понимания посредством тщательной записи. ^[2]

История [ править ]

Лингвистика
Часть серии по
Контур История Индекс
Общее языкознание Диахронический Лексикография Морфология Фонология Прагматика Семантика Синтаксис Типология
Прикладная лингвистика Приобретение Антропологический Применяемый Вычислительная Анализ речи Документация Судебно-медицинская экспертиза История языкознания Нейролингвистика Философия языка Фонетика Психолингвистика Социолингвистика Текстовая и корпусная лингвистика Письменный и устный перевод Системы письма
Теоретические основы Формалист Глоссематика Округ Зависимость Дистрибуционализм Генеративный Функциональный Пражская школа Функциональная грамматика дискурса Познавательный На основе использования Структурализм
Темы Автономность синтаксиса Консервативные / новаторские формы Дескриптивизм Этимология Иконичность Интернет-лингвистика ЛГБТ-лингвистика Происхождение языка Орфография Прескриптивизм Приобретение второго языка Теория языка
Портал
v т е

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах особого религиозного или культурного значения. Например, в литературе по пратишакхье описываются звуковые паттерны санскрита в том виде , в каком они встречаются в Ведах , а грамматика классического санскрита Панини была основана, по крайней мере частично, на анализе того же самого корпуса. Точно так же ранние арабские грамматисты уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии, позволяющие детально изучить язык Библии и других канонических текстов.

Корпус английского языка [ править ]

Вехой в современной корпусной лингвистике стала публикация « Вычислительного анализа современного американского английского» в 1967 году. Написанная Генри Кучера и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который был современным сборником примерно миллион американских английских слов, тщательно отобранных из самых разных источников. ^[3] Кучера и Фрэнсис подвергли Коричневый корпус разнообразному вычислительному анализу, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный труд. Следующей ключевой публикацией был Рэндольф Куирк."На пути к описанию использования английского языка" в 1960 году ^[4], в котором он представил Обзор использования английского языка .

Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для своего нового словаря American Heritage Dictionary , первого словаря, составленного с использованием корпусной лингвистики. AHD принял инновационную стадию объединения предписывающих элементов (как язык должен быть использован) с описательной информацией (как это на самом деле это используется).

Другие издатели последовали его примеру. Одноязычный словарь для учащихся COBUILD британского издателя Collins , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Обзор английского Usage корпус был использован в развитии одного из самых важных Corpus на основе грамматик, который был написан Квирком и др. и опубликована в 1985 году как «Полная грамматика английского языка» . ^[5]

Браун Корпус также породил целый ряд аналогично структурированных корпусов: чем LOB Corpus (1960 - е годы британский английский ), Kolhapur ( индийский английский ), Веллингтон ( Новая Зеландия английский ), австралийский Корпус английского языка ( австралийский английский ), хмуриться корпус ( в начале 1990 - х годов Американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и форм, и включают Международный корпус английского языка и Британский национальный корпус , собрание из 100 миллионов слов разнообразных устных и письменных текстов, созданное в 1990-х годах консорциумом издателей, университетов (Оксфорд и Ланкастер ) и Британской библиотеке . Что касается современного американского английского, то работа над Американским национальным корпусом застопорилась , но Корпус современного американского английского языка (с 1990 г. по настоящее время) из 400 миллионов слов теперь доступен через веб-интерфейс.

Первый компьютеризированный корпус транскрибированной разговорной речи был создан в 1971 году Монреальским французским проектом ^{[6] и} содержал один миллион слов, который вдохновил Шана Поплак на создание гораздо более обширного корпуса разговорного французского языка в районе Оттава-Халл. ^[7]

Многоязычный корпус [ править ]

В 1990-х годах многие из первых заметных успехов статистических методов в программировании на естественном языке (НЛП) произошли в области машинного перевода , особенно благодаря работе в IBM Research. Эти системы могли использовать преимущества существующих многоязычных текстовых корпусов , которые были созданы парламентом Канады и Европейского союза в результате принятия законов, требующих перевода всех правительственных заседаний на все официальные языки соответствующих систем государственного управления.

Корпуса древних языков [ править ]

Помимо этих корпусов живых языков, компьютеризированные корпуса также были составлены из коллекций текстов на древних языках. Примером может служить база данных Андерсена- Форбса еврейской Библии, разработанная с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. ^[8]^[9] Корпус Корана на арабском языке представляет собой аннотированный корпус классического арабского языка Корана . Это недавний проект с несколькими уровнями аннотации, включая морфологическую сегментацию, тегирование частей речи и синтаксический анализ с использованием грамматики зависимостей. ^[10]

Корпуса из определенных полей [ править ]

Помимо чисто лингвистического исследования, исследователи начали применять корпусную лингвистику к другим академическим и профессиональным областям, таким как возникающая суб-дисциплина права и корпусная лингвистика , которая стремится понимать юридические тексты с использованием корпусных данных и инструментов.

Методы [ править ]

Корпоративная лингвистика создала ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) ^[11] впервые представили то, что они назвали перспективой 3А: аннотации, абстракция и анализ.

Аннотация состоит в применении схемы к текстам. Аннотации могут включать структурную разметку, теги частей речи , синтаксический анализ и множество других представлений.
Абстракция состоит из перевода (отображения) терминов схемы в термины теоретически мотивированной модели или набора данных. Абстракция обычно включает поиск под руководством лингвиста, но может включать, например, изучение правил для синтаксических анализаторов.
Анализ состоит из статистического исследования, обработки и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методы обнаружения знаний.

Большинство лексических корпусов сегодня имеют теги части речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным простым текстом», неизбежно применяют какой-либо метод для выделения основных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса заключается в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпусов ). Лингвисты с другими интересами и взглядами, отличными от интересов авторов, могут использовать эту работу. Обмениваясь данными, лингвисты корпуса могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. ^[12]

См. Также [ править ]

Лингвистический атлас раннего среднего английского языка
Словосочетание
Коллокструктивный анализ
Конкорданс ( KWIC )
Европейская ассоциация языковых ресурсов
Ключевое слово (лингвистика)
Консорциум лингвистических данных
Список корпусов текстов
Машинный перевод
Набор инструментов для естественного языка
Грамматика паттернов
Поисковые системы : они обращаются к «веб-корпусу».
Семантическая просодия
Речевой корпус
Текстовый корпус
Память переводов
Treebank

Примечания и ссылки [ править ]

^ Синклер, Дж. «Автоматический анализ корпусов», в Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82) . Берлин: Мутон де Грюйтер. 1992 г.
^ Уоллис, С. «Аннотация, поиск и эксперименты», в Meurman-Solin, A. & Nurmi, AA (ed.), Аннотируя вариации и изменения. Хельсинки: Вариенг, [Университет Хельсинки]. 2007. Электронная публикация
^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967). Вычислительный анализ современного американского английского . Провиденс: издательство Университета Брауна. ISBN 978-0870571053.
^ Причуда, Рэндольф (ноябрь 1960). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61.
^ Причуда, Рэндольф; Гринбаум, Сидней; Пиявка, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349.
^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Выборочные методы опроса и компьютерный анализ в изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
^ Poplack Шана (1989). Fasold, R .; Шиффрин, Д. (ред.). «Уход и обращение с мега-корпусом». Смена языка и вариация . Амстердам: Бенджаминс: 411–451.
^ Андерсен, Фрэнсис I .; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Исследования Древнего Ближнего Востока , 40 , стр. 43–61 [45]
^ Eyland, Е. Энн (1987), "Откровение от графов слов", в Newing, Эдвард G .; Конрад, Эдгар В. (ред.), Перспективы языка и текста: эссе и стихи в честь шестидесятилетия Фрэнсиса I. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , p. 51, ISBN 0-931464-26-9
^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество для синтаксической аннотации коранического арабского языка». Языковые ресурсы и оценочный журнал . 2011 г.
^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и открытие знаний , 5 : 307–340. 2001 г.
^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.

Дальнейшее чтение [ править ]

Книги [ править ]

Бибер, Д., Конрад, С., Реппен Р. Лингвистика корпуса, Исследование структуры и использования языка , Кембридж: Cambridge UP, 1998. ISBN 0-521-49957-7
Маккарти, Д., и Сэмпсон Г. Лингвистика корпуса: чтения в расширяющейся дисциплине , Continuum, 2005. ISBN 0-8264-8803-X
Факкинетти, Р. Теоретическое описание и практическое применение языковых корпусов . Верона: QuiEdit, 2007 ISBN 978-88-89480-37-3
Факкинетти, Р. (ред.) Корпуса лингвистики 25 лет спустя . Нью-Йорк / Амстердам: Родопи, 2007 ISBN 978-90-420-2195-2
Факкинетти Р. и Риссанен М. (ред.) Основанные на корпусе исследования диахронического английского языка . Берн: Питер Ланг, 2006 ISBN 3-03910-851-4
Кредиторы, В. Компьютерная лексикография и корпусная лингвистика до ок. 1970/1980 , в: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с упором на электронную и вычислительную лексикографию . Берлин: De Gruyter Mouton, 2013 ISBN 978-3112146651
Fuß, Eric et al. (Ред.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi : 10.17885 / heiup.361.509 ( цифровой открытый доступ ).
Стефанович А. 2020. Корпусная лингвистика: Руководство по методологии. Берлин: Language Science Press. ISBN 978-3-96110-225-9 , DOI : 10,5281 / zenodo.3735822 Open Access https://langsci-press.org/catalog/book/148 .

Книжная серия [ править ]

Книжные серии в этой области включают:

Язык и компьютеры (Brill)
Исследования в области лингвистики корпуса (Джон Бенджаминс)
English Corpus Linguistics (Питер Лэнг)
Корпус и дискурс (Блумсбери)

Журналы [ править ]

Существует несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

Корпорация
Корпусная лингвистика и лингвистическая теория
Журнал ICAME
Международный журнал корпусной лингвистики
Журнал «Языковые ресурсы и оценка» при поддержке Европейской ассоциации языковых ресурсов.
Исследования в области корпусной лингвистики при поддержке Испанской ассоциации корпусной лингвистики (AELINCO)

Внешние ссылки [ править ]

Викискладе есть медиафайлы по лингвистике корпуса .

Закладки для лингвистов на основе корпуса - очень подробный сайт с категоризированными и аннотированными ссылками на языковые корпуса, программное обеспечение, ссылки и т. Д.
Список обсуждений корпусов
Свободно доступные веб-корпуса (от 100 до 400 миллионов слов каждый): американский (COCA, COHA), британский (BNC), TIME, испанский, португальский
Обзорный сайт Мануэля Барбера
Список литературы Пшемека Кашубского
AskOxford.com состав и использование Оксфордского корпуса
DMCBC.com
Datum Multilanguage Corpora На основе китайского бесплатного скачивания образца
Corpus4u Community - китайский онлайн-форум корпусной лингвистики
Страница Корпуса лингвистики МакЭнери и Уилсона
Corpus Linguistics со списком рассылки R
Отдел исследований и разработок для изучения английского языка
Обзор использования английского языка
Центр корпусной лингвистики при Университете Бирмингема
Инструменты для корпусной лингвистики (аннотированный список)
Шлюз к корпусной лингвистике в Интернете : аннотированный справочник по корпусным ресурсам в Интернете
Биомедицинские корпуса
Консорциум лингвистических данных , крупный дистрибьютор корпорации
Пенн Разбор корпусов исторического английского языка
Corsis : (ранее Tenka Text) инструмент анализа корпуса с открытым исходным кодом ( GPL ), написанный на C #.
ICECUP и фрагменты нечеткого дерева
Интеллектуальный анализ текста дискуссионной группы
Дискуссионное сообщество Google+ по корпусной лингвистике для изучения и преподавания языков
Корпоративная конференция по лингвистике MAG 2017: Вы можете найти некоторую информацию и события, связанные с Metadiscourse Across Genres, посетив веб-сайт MAG 2017 .
Корпус политических выступлений , свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
LightTag -Text Annotation Tool , инструмент текстовых аннотаций для корпуса машинного обучения, ориентированный на управление командой
LIVAC Synchronous Corpus

[1] Синклер, Дж. «Автоматический анализ корпусов», в Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82) . Берлин: Мутон де Грюйтер. 1992 г.

[2] Уоллис, С. «Аннотация, поиск и эксперименты», в Meurman-Solin, A. & Nurmi, AA (ed.), Аннотируя вариации и изменения. Хельсинки: Вариенг, [Университет Хельсинки]. 2007. Электронная публикация

[3] Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967). Вычислительный анализ современного американского английского . Провиденс: издательство Университета Брауна. ISBN 978-0870571053.

[4] Причуда, Рэндольф (ноябрь 1960). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61.

[5] Причуда, Рэндольф; Гринбаум, Сидней; Пиявка, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349.

[6] Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Выборочные методы опроса и компьютерный анализ в изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.

[7] Poplack Шана (1989). Fasold, R .; Шиффрин, Д. (ред.). «Уход и обращение с мега-корпусом». Смена языка и вариация . Амстердам: Бенджаминс: 411–451.

[8] Андерсен, Фрэнсис I .; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Исследования Древнего Ближнего Востока , 40 , стр. 43–61 [45]

[9] Eyland, Е. Энн (1987), "Откровение от графов слов", в Newing, Эдвард G .; Конрад, Эдгар В. (ред.), Перспективы языка и текста: эссе и стихи в честь шестидесятилетия Фрэнсиса I. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , p. 51, ISBN 0-931464-26-9

[10] Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество для синтаксической аннотации коранического арабского языка». Языковые ресурсы и оценочный журнал . 2011 г.

[11] Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и открытие знаний , 5 : 307–340. 2001 г.

[12] Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.

[1],