Корпусная лингвистика является изучением языка как язык выражается в его корпусе текстов ( во множественном числе корпусов ), его тело «реальный мир» текст. Корпусная лингвистика предполагает, что надежный анализ языка более осуществим с корпусами, собранными в полевых условиях, в их естественном контексте («реалиях») и с минимальным экспериментальным вмешательством.
Метод text-corpus - это пищеварительный подход, который выводит набор абстрактных правил, которые управляют естественным языком из текстов на этом языке, и исследует, как этот язык соотносится с другими языками. Получение корпусов из исходных текстов сначала производилось вручную, но теперь оно автоматизировано.
Корпуса использовались не только для лингвистических исследований, они также использовались для составления словарей (начиная с The American Heritage Dictionary of the English Language в 1969 году) и руководств по грамматике, таких как A Comprehensive Grammar of the English Language , опубликованного в 1985 году.
Эксперты в данной области по-разному относятся к аннотации корпуса. Эти взгляды варьируются от Джона Макхарди Синклера , который выступает за использование минимальных аннотаций, чтобы тексты говорили сами за себя [1], до группы Survey of English Usage ( Университетский колледж, Лондон ), которые выступают за аннотации как на возможность лучшего языкового понимания посредством тщательной записи. [2]
История [ править ]
Часть серии по |
Лингвистика |
---|
Портал |
Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах особого религиозного или культурного значения. Например, в литературе по пратишакхье описываются звуковые паттерны санскрита в том виде , в каком они встречаются в Ведах , а грамматика классического санскрита Панини была основана, по крайней мере частично, на анализе того же самого корпуса. Точно так же ранние арабские грамматисты уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии, позволяющие детально изучить язык Библии и других канонических текстов.
Корпус английского языка [ править ]
Вехой в современной корпусной лингвистике стала публикация « Вычислительного анализа современного американского английского» в 1967 году. Написанная Генри Кучера и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который был современным сборником примерно миллион американских английских слов, тщательно отобранных из самых разных источников. [3] Кучера и Фрэнсис подвергли Коричневый корпус разнообразному вычислительному анализу, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный труд. Следующей ключевой публикацией был Рэндольф Куирк."На пути к описанию использования английского языка" в 1960 году [4], в котором он представил Обзор использования английского языка .
Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для своего нового словаря American Heritage Dictionary , первого словаря, составленного с использованием корпусной лингвистики. AHD принял инновационную стадию объединения предписывающих элементов (как язык должен быть использован) с описательной информацией (как это на самом деле это используется).
Другие издатели последовали его примеру. Одноязычный словарь для учащихся COBUILD британского издателя Collins , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Обзор английского Usage корпус был использован в развитии одного из самых важных Corpus на основе грамматик, который был написан Квирком и др. и опубликована в 1985 году как «Полная грамматика английского языка» . [5]
Браун Корпус также породил целый ряд аналогично структурированных корпусов: чем LOB Corpus (1960 - е годы британский английский ), Kolhapur ( индийский английский ), Веллингтон ( Новая Зеландия английский ), австралийский Корпус английского языка ( австралийский английский ), хмуриться корпус ( в начале 1990 - х годов Американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и форм, и включают Международный корпус английского языка и Британский национальный корпус , собрание из 100 миллионов слов разнообразных устных и письменных текстов, созданное в 1990-х годах консорциумом издателей, университетов (Оксфорд и Ланкастер ) и Британской библиотеке . Что касается современного американского английского, то работа над Американским национальным корпусом застопорилась , но Корпус современного американского английского языка (с 1990 г. по настоящее время) из 400 миллионов слов теперь доступен через веб-интерфейс.
Первый компьютеризированный корпус транскрибированной разговорной речи был создан в 1971 году Монреальским французским проектом [6] и содержал один миллион слов, который вдохновил Шана Поплак на создание гораздо более обширного корпуса разговорного французского языка в районе Оттава-Халл. [7]
Многоязычный корпус [ править ]
В 1990-х годах многие из первых заметных успехов статистических методов в программировании на естественном языке (НЛП) произошли в области машинного перевода , особенно благодаря работе в IBM Research. Эти системы могли использовать преимущества существующих многоязычных текстовых корпусов , которые были созданы парламентом Канады и Европейского союза в результате принятия законов, требующих перевода всех правительственных заседаний на все официальные языки соответствующих систем государственного управления.
Корпуса древних языков [ править ]
Помимо этих корпусов живых языков, компьютеризированные корпуса также были составлены из коллекций текстов на древних языках. Примером может служить база данных Андерсена- Форбса еврейской Библии, разработанная с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. [8] [9] Корпус Корана на арабском языке представляет собой аннотированный корпус классического арабского языка Корана . Это недавний проект с несколькими уровнями аннотации, включая морфологическую сегментацию, тегирование частей речи и синтаксический анализ с использованием грамматики зависимостей. [10]
Корпуса из определенных полей [ править ]
Помимо чисто лингвистического исследования, исследователи начали применять корпусную лингвистику к другим академическим и профессиональным областям, таким как возникающая суб-дисциплина права и корпусная лингвистика , которая стремится понимать юридические тексты с использованием корпусных данных и инструментов.
Методы [ править ]
Корпоративная лингвистика создала ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) [11] впервые представили то, что они назвали перспективой 3А: аннотации, абстракция и анализ.
- Аннотация состоит в применении схемы к текстам. Аннотации могут включать структурную разметку, теги частей речи , синтаксический анализ и множество других представлений.
- Абстракция состоит из перевода (отображения) терминов схемы в термины теоретически мотивированной модели или набора данных. Абстракция обычно включает поиск под руководством лингвиста, но может включать, например, изучение правил для синтаксических анализаторов.
- Анализ состоит из статистического исследования, обработки и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методы обнаружения знаний.
Большинство лексических корпусов сегодня имеют теги части речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным простым текстом», неизбежно применяют какой-либо метод для выделения основных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.
Преимущество публикации аннотированного корпуса заключается в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпусов ). Лингвисты с другими интересами и взглядами, отличными от интересов авторов, могут использовать эту работу. Обмениваясь данными, лингвисты корпуса могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. [12]
См. Также [ править ]
- Лингвистический атлас раннего среднего английского языка
- Словосочетание
- Коллокструктивный анализ
- Конкорданс ( KWIC )
- Европейская ассоциация языковых ресурсов
- Ключевое слово (лингвистика)
- Консорциум лингвистических данных
- Список корпусов текстов
- Машинный перевод
- Набор инструментов для естественного языка
- Грамматика паттернов
- Поисковые системы : они обращаются к «веб-корпусу».
- Семантическая просодия
- Речевой корпус
- Текстовый корпус
- Память переводов
- Treebank
Примечания и ссылки [ править ]
- ^ Синклер, Дж. «Автоматический анализ корпусов», в Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82) . Берлин: Мутон де Грюйтер. 1992 г.
- ^ Уоллис, С. «Аннотация, поиск и эксперименты», в Meurman-Solin, A. & Nurmi, AA (ed.), Аннотируя вариации и изменения. Хельсинки: Вариенг, [Университет Хельсинки]. 2007. Электронная публикация
- ^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967). Вычислительный анализ современного американского английского . Провиденс: издательство Университета Брауна. ISBN 978-0870571053.
- ^ Причуда, Рэндольф (ноябрь 1960). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61.
- ^ Причуда, Рэндольф; Гринбаум, Сидней; Пиявка, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349.
- ^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Выборочные методы опроса и компьютерный анализ в изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
- ^ Poplack Шана (1989). Fasold, R .; Шиффрин, Д. (ред.). «Уход и обращение с мега-корпусом». Смена языка и вариация . Амстердам: Бенджаминс: 411–451.
- ^ Андерсен, Фрэнсис I .; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Исследования Древнего Ближнего Востока , 40 , стр. 43–61 [45]
- ^ Eyland, Е. Энн (1987), "Откровение от графов слов", в Newing, Эдвард G .; Конрад, Эдгар В. (ред.), Перспективы языка и текста: эссе и стихи в честь шестидесятилетия Фрэнсиса I. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , p. 51, ISBN 0-931464-26-9
- ^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество для синтаксической аннотации коранического арабского языка». Языковые ресурсы и оценочный журнал . 2011 г.
- ^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и открытие знаний , 5 : 307–340. 2001 г.
- ^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.
Дальнейшее чтение [ править ]
Книги [ править ]
- Бибер, Д., Конрад, С., Реппен Р. Лингвистика корпуса, Исследование структуры и использования языка , Кембридж: Cambridge UP, 1998. ISBN 0-521-49957-7
- Маккарти, Д., и Сэмпсон Г. Лингвистика корпуса: чтения в расширяющейся дисциплине , Continuum, 2005. ISBN 0-8264-8803-X
- Факкинетти, Р. Теоретическое описание и практическое применение языковых корпусов . Верона: QuiEdit, 2007 ISBN 978-88-89480-37-3
- Факкинетти, Р. (ред.) Корпуса лингвистики 25 лет спустя . Нью-Йорк / Амстердам: Родопи, 2007 ISBN 978-90-420-2195-2
- Факкинетти Р. и Риссанен М. (ред.) Основанные на корпусе исследования диахронического английского языка . Берн: Питер Ланг, 2006 ISBN 3-03910-851-4
- Кредиторы, В. Компьютерная лексикография и корпусная лингвистика до ок. 1970/1980 , в: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с упором на электронную и вычислительную лексикографию . Берлин: De Gruyter Mouton, 2013 ISBN 978-3112146651
- Fuß, Eric et al. (Ред.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi : 10.17885 / heiup.361.509 ( цифровой открытый доступ ).
- Стефанович А. 2020. Корпусная лингвистика: Руководство по методологии. Берлин: Language Science Press. ISBN 978-3-96110-225-9 , DOI : 10,5281 / zenodo.3735822 Open Access https://langsci-press.org/catalog/book/148 .
Книжная серия [ править ]
Книжные серии в этой области включают:
- Язык и компьютеры (Brill)
- Исследования в области лингвистики корпуса (Джон Бенджаминс)
- English Corpus Linguistics (Питер Лэнг)
- Корпус и дискурс (Блумсбери)
Журналы [ править ]
Существует несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:
- Корпорация
- Корпусная лингвистика и лингвистическая теория
- Журнал ICAME
- Международный журнал корпусной лингвистики
- Журнал «Языковые ресурсы и оценка» при поддержке Европейской ассоциации языковых ресурсов.
- Исследования в области корпусной лингвистики при поддержке Испанской ассоциации корпусной лингвистики (AELINCO)
Внешние ссылки [ править ]
Викискладе есть медиафайлы по лингвистике корпуса . |
- Закладки для лингвистов на основе корпуса - очень подробный сайт с категоризированными и аннотированными ссылками на языковые корпуса, программное обеспечение, ссылки и т. Д.
- Список обсуждений корпусов
- Свободно доступные веб-корпуса (от 100 до 400 миллионов слов каждый): американский (COCA, COHA), британский (BNC), TIME, испанский, португальский
- Обзорный сайт Мануэля Барбера
- Список литературы Пшемека Кашубского
- AskOxford.com состав и использование Оксфордского корпуса
- DMCBC.com
- Datum Multilanguage Corpora На основе китайского бесплатного скачивания образца
- Corpus4u Community - китайский онлайн-форум корпусной лингвистики
- Страница Корпуса лингвистики МакЭнери и Уилсона
- Corpus Linguistics со списком рассылки R
- Отдел исследований и разработок для изучения английского языка
- Обзор использования английского языка
- Центр корпусной лингвистики при Университете Бирмингема
- Инструменты для корпусной лингвистики (аннотированный список)
- Шлюз к корпусной лингвистике в Интернете : аннотированный справочник по корпусным ресурсам в Интернете
- Биомедицинские корпуса
- Консорциум лингвистических данных , крупный дистрибьютор корпорации
- Пенн Разбор корпусов исторического английского языка
- Corsis : (ранее Tenka Text) инструмент анализа корпуса с открытым исходным кодом ( GPL ), написанный на C #.
- ICECUP и фрагменты нечеткого дерева
- Интеллектуальный анализ текста дискуссионной группы
- Дискуссионное сообщество Google+ по корпусной лингвистике для изучения и преподавания языков
- Корпоративная конференция по лингвистике MAG 2017: Вы можете найти некоторую информацию и события, связанные с Metadiscourse Across Genres, посетив веб-сайт MAG 2017 .
- Корпус политических выступлений , свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
- LightTag -Text Annotation Tool , инструмент текстовых аннотаций для корпуса машинного обучения, ориентированный на управление командой
- LIVAC Synchronous Corpus