Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Корпусная лингвистика является изучением языка как язык выражается в его корпусе текстов ( во множественном числе корпусов ), его тело «реальный мир» текст. Корпусная лингвистика предполагает, что надежный анализ языка более осуществим с корпусами, собранными в полевых условиях, в их естественном контексте («реалиях») и с минимальным экспериментальным вмешательством.

Метод text-corpus - это пищеварительный подход, который выводит набор абстрактных правил, которые управляют естественным языком из текстов на этом языке, и исследует, как этот язык соотносится с другими языками. Получение корпусов из исходных текстов сначала производилось вручную, но теперь оно автоматизировано.

Корпуса использовались не только для лингвистических исследований, они также использовались для составления словарей (начиная с The American Heritage Dictionary of the English Language в 1969 году) и руководств по грамматике, таких как A Comprehensive Grammar of the English Language , опубликованного в 1985 году.

Эксперты в данной области по-разному относятся к аннотации корпуса. Эти взгляды варьируются от Джона Макхарди Синклера , который выступает за использование минимальных аннотаций, чтобы тексты говорили сами за себя [1], до группы Survey of English Usage ( Университетский колледж, Лондон ), которые выступают за аннотации как на возможность лучшего языкового понимания посредством тщательной записи. [2]

История [ править ]

Некоторые из самых ранних попыток грамматического описания были основаны, по крайней мере частично, на корпусах особого религиозного или культурного значения. Например, в литературе по пратишакхье описываются звуковые паттерны санскрита в том виде , в каком они встречаются в Ведах , а грамматика классического санскрита Панини была основана, по крайней мере частично, на анализе того же самого корпуса. Точно так же ранние арабские грамматисты уделяли особое внимание языку Корана . В западноевропейской традиции ученые готовили симфонии, позволяющие детально изучить язык Библии и других канонических текстов.

Корпус английского языка [ править ]

Вехой в современной корпусной лингвистике стала публикация « Вычислительного анализа современного американского английского» в 1967 году. Написанная Генри Кучера и У. Нельсоном Фрэнсисом , работа была основана на анализе Коричневого корпуса , который был современным сборником примерно миллион американских английских слов, тщательно отобранных из самых разных источников. [3] Кучера и Фрэнсис подвергли Коричневый корпус разнообразному вычислительному анализу, а затем объединили элементы лингвистики, преподавания языков, психологии , статистики и социологии, чтобы создать богатый и разнообразный труд. Следующей ключевой публикацией был Рэндольф Куирк."На пути к описанию использования английского языка" в 1960 году [4], в котором он представил Обзор использования английского языка .

Вскоре после этого бостонское издательство Houghton-Mifflin обратилось к Кучере с просьбой предоставить трехстрочную базу цитирования из миллиона слов для своего нового словаря American Heritage Dictionary , первого словаря, составленного с использованием корпусной лингвистики. AHD принял инновационную стадию объединения предписывающих элементов (как язык должен быть использован) с описательной информацией (как это на самом деле это используется).

Другие издатели последовали его примеру. Одноязычный словарь для учащихся COBUILD британского издателя Collins , предназначенный для пользователей, изучающих английский как иностранный , был составлен с использованием Bank of English . Обзор английского Usage корпус был использован в развитии одного из самых важных Corpus на основе грамматик, который был написан Квирком и др. и опубликована в 1985 году как «Полная грамматика английского языка» . [5]

Браун Корпус также породил целый ряд аналогично структурированных корпусов: чем LOB Corpus (1960 - е годы британский английский ), Kolhapur ( индийский английский ), Веллингтон ( Новая Зеландия английский ), австралийский Корпус английского языка ( австралийский английский ), хмуриться корпус ( в начале 1990 - х годов Американский английский ) и FLOB Corpus (британский английский 1990-х годов). Другие корпуса представляют множество языков, разновидностей и форм, и включают Международный корпус английского языка и Британский национальный корпус , собрание из 100 миллионов слов разнообразных устных и письменных текстов, созданное в 1990-х годах консорциумом издателей, университетов (Оксфорд и Ланкастер ) и Британской библиотеке . Что касается современного американского английского, то работа над Американским национальным корпусом застопорилась , но Корпус современного американского английского языка (с 1990 г. по настоящее время) из 400 миллионов слов теперь доступен через веб-интерфейс.

Первый компьютеризированный корпус транскрибированной разговорной речи был создан в 1971 году Монреальским французским проектом [6] и содержал один миллион слов, который вдохновил Шана Поплак на создание гораздо более обширного корпуса разговорного французского языка в районе Оттава-Халл. [7]

Многоязычный корпус [ править ]

В 1990-х годах многие из первых заметных успехов статистических методов в программировании на естественном языке (НЛП) произошли в области машинного перевода , особенно благодаря работе в IBM Research. Эти системы могли использовать преимущества существующих многоязычных текстовых корпусов , которые были созданы парламентом Канады и Европейского союза в результате принятия законов, требующих перевода всех правительственных заседаний на все официальные языки соответствующих систем государственного управления.

Корпуса древних языков [ править ]

Помимо этих корпусов живых языков, компьютеризированные корпуса также были составлены из коллекций текстов на древних языках. Примером может служить база данных Андерсена- Форбса еврейской Библии, разработанная с 1970-х годов, в которой каждое предложение анализируется с использованием графиков, представляющих до семи уровней синтаксиса, и каждый сегмент помечен семью полями информации. [8] [9] Корпус Корана на арабском языке представляет собой аннотированный корпус классического арабского языка Корана . Это недавний проект с несколькими уровнями аннотации, включая морфологическую сегментацию, тегирование частей речи и синтаксический анализ с использованием грамматики зависимостей. [10]

Корпуса из определенных полей [ править ]

Помимо чисто лингвистического исследования, исследователи начали применять корпусную лингвистику к другим академическим и профессиональным областям, таким как возникающая суб-дисциплина права и корпусная лингвистика , которая стремится понимать юридические тексты с использованием корпусных данных и инструментов.

Методы [ править ]

Корпоративная лингвистика создала ряд исследовательских методов, которые пытаются проследить путь от данных к теории. Уоллис и Нельсон (2001) [11] впервые представили то, что они назвали перспективой 3А: аннотации, абстракция и анализ.

  • Аннотация состоит в применении схемы к текстам. Аннотации могут включать структурную разметку, теги частей речи , синтаксический анализ и множество других представлений.
  • Абстракция состоит из перевода (отображения) терминов схемы в термины теоретически мотивированной модели или набора данных. Абстракция обычно включает поиск под руководством лингвиста, но может включать, например, изучение правил для синтаксических анализаторов.
  • Анализ состоит из статистического исследования, обработки и обобщения набора данных. Анализ может включать статистические оценки, оптимизацию баз правил или методы обнаружения знаний.

Большинство лексических корпусов сегодня имеют теги части речи (POS-теги). Однако даже корпусные лингвисты, работающие с «неаннотированным простым текстом», неизбежно применяют какой-либо метод для выделения основных терминов. В таких ситуациях аннотация и абстракция объединяются в лексическом поиске.

Преимущество публикации аннотированного корпуса заключается в том, что другие пользователи могут затем проводить эксперименты с корпусом (через менеджеров корпусов ). Лингвисты с другими интересами и взглядами, отличными от интересов авторов, могут использовать эту работу. Обмениваясь данными, лингвисты корпуса могут рассматривать корпус как место лингвистических дебатов и дальнейших исследований. [12]

См. Также [ править ]

  • Лингвистический атлас раннего среднего английского языка
  • Словосочетание
  • Коллокструктивный анализ
  • Конкорданс ( KWIC )
  • Европейская ассоциация языковых ресурсов
  • Ключевое слово (лингвистика)
  • Консорциум лингвистических данных
  • Список корпусов текстов
  • Машинный перевод
  • Набор инструментов для естественного языка
  • Грамматика паттернов
  • Поисковые системы : они обращаются к «веб-корпусу».
  • Семантическая просодия
  • Речевой корпус
  • Текстовый корпус
  • Память переводов
  • Treebank

Примечания и ссылки [ править ]

  1. ^ Синклер, Дж. «Автоматический анализ корпусов», в Svartvik, J. (ed.) Directions in Corpus Linguistics (Proceedings of Nobel Symposium 82) . Берлин: Мутон де Грюйтер. 1992 г.
  2. ^ Уоллис, С. «Аннотация, поиск и эксперименты», в Meurman-Solin, A. & Nurmi, AA (ed.), Аннотируя вариации и изменения. Хельсинки: Вариенг, [Университет Хельсинки]. 2007. Электронная публикация
  3. ^ Фрэнсис, В. Нельсон; Кучера, Генри (1 июня 1967). Вычислительный анализ современного американского английского . Провиденс: издательство Университета Брауна. ISBN 978-0870571053.
  4. ^ Причуда, Рэндольф (ноябрь 1960). «К описанию использования английского языка». Труды Филологического общества . 59 (1): 40–61.
  5. ^ Причуда, Рэндольф; Гринбаум, Сидней; Пиявка, Джеффри; Свартвик, Ян (1985). Комплексная грамматика английского языка . Лондон: Лонгман. ISBN 978-0582517349.
  6. ^ Санкофф, Дэвид; Санкофф, Джиллиан (1973). Дарнелл, Р. (ред.). «Выборочные методы опроса и компьютерный анализ в изучении грамматических вариаций». Канадские языки в их социальном контексте . Эдмонтон: Linguistic Research Incorporated: 7–63.
  7. ^ Poplack Шана (1989). Fasold, R .; Шиффрин, Д. (ред.). «Уход и обращение с мега-корпусом». Смена языка и вариация . Амстердам: Бенджаминс: 411–451.
  8. ^ Андерсен, Фрэнсис I .; Форбс, А. Дин (2003), «Визуализация грамматики иврита: I. Синтаксис», Исследования Древнего Ближнего Востока , 40 , стр. 43–61 [45]
  9. ^ Eyland, Е. Энн (1987), "Откровение от графов слов", в Newing, Эдвард G .; Конрад, Эдгар В. (ред.), Перспективы языка и текста: эссе и стихи в честь шестидесятилетия Фрэнсиса I. Андерсена, 28 июля 1985 г. , Вайнона Лейк, IN: Eisenbrauns , p. 51, ISBN 0-931464-26-9
  10. ^ Дьюкс, К., Этвелл, Э. и Хабаш, Н. «Контролируемое сотрудничество для синтаксической аннотации коранического арабского языка». Языковые ресурсы и оценочный журнал . 2011 г.
  11. ^ Уоллис, С. и Нельсон Г. Открытие знаний в грамматически проанализированных корпусах . Интеллектуальный анализ данных и открытие знаний , 5 : 307–340. 2001 г.
  12. ^ Бейкер, Пол; Эгберт, Джесси, ред. (2016). Триангуляция методологических подходов в корпусно-лингвистических исследованиях . Нью-Йорк: Рутледж.

Дальнейшее чтение [ править ]

Книги [ править ]

  • Бибер, Д., Конрад, С., Реппен Р. Лингвистика корпуса, Исследование структуры и использования языка , Кембридж: Cambridge UP, 1998. ISBN 0-521-49957-7 
  • Маккарти, Д., и Сэмпсон Г. Лингвистика корпуса: чтения в расширяющейся дисциплине , Continuum, 2005. ISBN 0-8264-8803-X 
  • Факкинетти, Р. Теоретическое описание и практическое применение языковых корпусов . Верона: QuiEdit, 2007 ISBN 978-88-89480-37-3 
  • Факкинетти, Р. (ред.) Корпуса лингвистики 25 лет спустя . Нью-Йорк / Амстердам: Родопи, 2007 ISBN 978-90-420-2195-2 
  • Факкинетти Р. и Риссанен М. (ред.) Основанные на корпусе исследования диахронического английского языка . Берн: Питер Ланг, 2006 ISBN 3-03910-851-4 
  • Кредиторы, В. Компьютерная лексикография и корпусная лингвистика до ок. 1970/1980 , в: Gouws, RH, Heid, U., Schweickard, W., Wiegand, HE (ред.) Словари - Международная энциклопедия лексикографии. Дополнительный том: Последние разработки с упором на электронную и вычислительную лексикографию . Берлин: De Gruyter Mouton, 2013 ISBN 978-3112146651 
  • Fuß, Eric et al. (Ред.): Grammar and Corpora 2016, Heidelberg: Heidelberg University Publishing, 2018. doi : 10.17885 / heiup.361.509 ( цифровой открытый доступ ).
  • Стефанович А. 2020. Корпусная лингвистика: Руководство по методологии. Берлин: Language Science Press. ISBN 978-3-96110-225-9 , DOI : 10,5281 / zenodo.3735822 Open Access https://langsci-press.org/catalog/book/148 . 

Книжная серия [ править ]

Книжные серии в этой области включают:

  • Язык и компьютеры (Brill)
  • Исследования в области лингвистики корпуса (Джон Бенджаминс)
  • English Corpus Linguistics (Питер Лэнг)
  • Корпус и дискурс (Блумсбери)

Журналы [ править ]

Существует несколько международных рецензируемых журналов, посвященных корпусной лингвистике, например:

  • Корпорация
  • Корпусная лингвистика и лингвистическая теория
  • Журнал ICAME
  • Международный журнал корпусной лингвистики
  • Журнал «Языковые ресурсы и оценка» при поддержке Европейской ассоциации языковых ресурсов.
  • Исследования в области корпусной лингвистики при поддержке Испанской ассоциации корпусной лингвистики (AELINCO)

Внешние ссылки [ править ]

  • Закладки для лингвистов на основе корпуса - очень подробный сайт с категоризированными и аннотированными ссылками на языковые корпуса, программное обеспечение, ссылки и т. Д.
  • Список обсуждений корпусов
  • Свободно доступные веб-корпуса (от 100 до 400 миллионов слов каждый): американский (COCA, COHA), британский (BNC), TIME, испанский, португальский
  • Обзорный сайт Мануэля Барбера
  • Список литературы Пшемека Кашубского
  • AskOxford.com состав и использование Оксфордского корпуса
  • DMCBC.com
  • Datum Multilanguage Corpora На основе китайского бесплатного скачивания образца
  • Corpus4u Community - китайский онлайн-форум корпусной лингвистики
  • Страница Корпуса лингвистики МакЭнери и Уилсона
  • Corpus Linguistics со списком рассылки R
  • Отдел исследований и разработок для изучения английского языка
  • Обзор использования английского языка
  • Центр корпусной лингвистики при Университете Бирмингема
  • Инструменты для корпусной лингвистики (аннотированный список)
  • Шлюз к корпусной лингвистике в Интернете : аннотированный справочник по корпусным ресурсам в Интернете
  • Биомедицинские корпуса
  • Консорциум лингвистических данных , крупный дистрибьютор корпорации
  • Пенн Разбор корпусов исторического английского языка
  • Corsis : (ранее Tenka Text) инструмент анализа корпуса с открытым исходным кодом ( GPL ), написанный на C #.
  • ICECUP и фрагменты нечеткого дерева
  • Интеллектуальный анализ текста дискуссионной группы
  • Дискуссионное сообщество Google+ по корпусной лингвистике для изучения и преподавания языков
  • Корпоративная конференция по лингвистике MAG 2017: Вы можете найти некоторую информацию и события, связанные с Metadiscourse Across Genres, посетив веб-сайт MAG 2017 .
  • Корпус политических выступлений , свободный доступ к политическим выступлениям американских и китайских политиков, разработанный библиотекой Гонконгского баптистского университета
  • LightTag -Text Annotation Tool , инструмент текстовых аннотаций для корпуса машинного обучения, ориентированный на управление командой
  • LIVAC Synchronous Corpus