Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Разговорный английский Корпус ( SEC ) является речь корпус сборник записей разговорной британский английский , составленный во время 1984-7. Руководство по корпусу можно найти на ICAME . [1]

История [ править ]

Проект Разговорный английский корпус (SEC) поддерживался совместно в 1984-1985 гг. Фондом гуманитарных исследований в Ланкастерском университете и IBM (UK) Ltd, а затем IBM UK Ltd. Проект поддержали Джеффри Лич из Ланкастера и Джеффри Кэй. в IBM. Проект был результатом сотрудничества, финансируемого IBM , между Отделом компьютерных исследований английского языка (UCREL) в Ланкастерском университете и Научным центром IBM в Винчестере . [2]

Компиляция [ править ]

SEC состоит из 53 записанных отрывков, в основном из BBC , произносимых с акцентом, обычно называемым « Полученное произношение» или RP. Коллекция охватывает такие категории, как комментарии, новости, лекции, диалоги, стихи и пропаганда. [3] Корпус содержит 52 637 слов, всего 339 минут. Составление корпуса описано Литой Тейлор в ее статье 1996 г. «The Compilation of the Speken English Corpus». [4]

Транскрипция [ править ]

Ноулз и др., (1996) Корпус формальной британской английской речи, Routledge
Корпус формального британского английского.jpg

Разработана система транскрипции интонации материала в записях. Два транскрибатора, Джерри Ноулз и Бриони Уильямс, оба при поддержке Литы Тейлор, проанализировали весь корпус. Система транскрипции объяснена Уильямсом [5], а Брайан Пикеринг провел эксперимент, чтобы оценить степень согласия между двумя транскрибаторами на участке Корпуса, содержащем около 1000 тональных единиц, который был транскрибирован обоими транскриберами. [6] Было обнаружено хорошее согласие.

Важным атрибутом современного корпуса является то, что он читается компьютером: корпус обычно находится на жестком диске, а не на книжной полке. Представляя корпус в этой форме книги, авторы приняли во внимание потребности признанных лингвистов корпуса и тех, кто еще не знаком с корпусами. Любой, у кого есть корпус на диске, может делать бумажные копии большинства файлов; но без специального шрифта для печати просодических символов просодические тексты будут либо непечатными, либо нечитаемыми. По этой причине для публикации была выбрана просодическая версия.

Вся печатная транскрипция была сделана в ее нынешнем виде Питером Олдерсоном, который позже занял должность менеджера по исследованиям речи в IBM. Позднее том был назван «Корпус формальной британской английской речи: Корпус разговорного английского языка Lancaster / IBM» и был впервые опубликован Longman в 1996 году, позже Routledge в 2013 году. В настоящее время книгу можно приобрести в книжных онлайн-магазинах, включая Routledge и Book Депозитарий или в электронном формате из Google Play Книг. [7] [8]

Другие анализы [ править ]

Грамматические теги каждого слова на основе набора тегов CLAWS1 были добавлены в текст SEC автоматически. [9] [10] Тот факт, что эти теги были в машиночитаемой форме, позволил связать грамматическую и просодическую информацию в текстах. Последующая работа использовала вероятностные модели для дальнейшего развития грамматических тегов и создания методов автоматического синтаксического анализа . [11]

Энн Вичманн опубликовала свое исследование интонации SEC «Интонация в тексте и дискурсе: начало, середины и конец» в 2000 году [12].

Машиносчитываемый разговорный английский корпус (MARSEC) [ править ]

Хотя текст и связанные с ним теги существовали в машиночитаемой форме, сами записи существовали только как магнитофонные записи. В результате сотрудничества, финансируемого Советом по экономическим и социальным исследованиям в 1992-4 годах, между учеными-речевыми из университетов Ланкастера и Лидса в Соединенном Королевстве была поставлена ​​цель создать версию корпуса, которая содержала записи в цифровой форме с привязкой по времени. к тексту. [13] Основными исследователями были Джерри Ноулз и Тамас Варади (Ланкастер), а также Питер Роуч и Саймон Арнфилд (Лидс). Схема проекта изложена в Ноулз [14], а автоматическая синхронизация по времени описана Роучем и Арнфилдом. [15] Оцифрованные записи были записаны наCD-ROM . Впоследствии он был доступен для загрузки в исследовательских целях из Университета Лидса, хотя эта возможность больше не поддерживается. [16]

Экс-МАРСЕК [ править ]

Работа над MARSEC в Ланкастере и Лидсе закончилась примерно в 1995 году, но впоследствии корпус был предметом значительного дальнейшего развития в Университете Экс-ан-Прованса , Франция, под руководством Даниэля Херста. [17] База данных состоит из двух основных компонентов: оцифрованных записей с MARSEC и аннотаций. Аннотации до сих пор проводились на девяти уровнях, включая фонемы , слоги , слова , ударные ноги , ритмические единицы, а также второстепенные и основные поворотные единицы.. Вскоре будут интегрированы два дополнительных уровня: грамматическая аннотация от CLAWS и система грамматики собственности, разработанная в Экс-ан-Провансе. [18] Возможным недостатком такой обработки является то, что поиск в корпусе можно выполнять только с использованием специально написанных скриптов. [19] База данных вместе с инструментами доступна под лицензией GNU GPL на сайте проекта Aix-MARSEC. [20]

  • Скачать аудиофайлы Aix-MARSEC (требуется регистрация)

Ссылки [ править ]

  1. ^ "ИНФОРМАЦИОННОЕ РУКОВОДСТВО ДЛЯ СОПРОВОЖДЕНИЯ SEC CORPUS" . korpus.uib.no . Проверено 15 октября 2020 .
  2. ^ Пиявка, Джеффри . (1996). «Разговорный английский корпус в его контексте». Предисловие. Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. п. ix. ISBN 9780582045347.
  3. ^ Сяо, Ричард; Тоно, Юкио (2006). МакЭнери, Тони (ред.). Корпоративные языковые исследования: расширенный справочник . Тейлор и Фрэнсис. п. 63. ISBN 9780415286220.
  4. ^ Тейлор, Лита. (1996). «Сборник Разговорного английского корпуса». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. С. 20–37. ISBN 9780582045347.
  5. ^ Уильямс, Бриони. (1996). «Формулировка системы транскрипции интонации для британского английского». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. С. 38–57. ISBN 9780582045347.
  6. ^ Пикеринг, Брайан. (1996). «Анализ расхождений транскриберов в SEC». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. С. 61–86. ISBN 9780582045347.
  7. ^ "Корпус формальной британской английской речи: Ланкастер / IBM Разговорный корпус английского языка (в мягкой обложке) - Рутледж" . Routledge.com . Проверено 22 июля 2018 .
  8. ^ «Корпус формальной британской английской речи: Джеральд Ноулз: 9781138457768» . www.bookdepository.com . Проверено 30 января 2019 .
  9. ^ Тейлор, Лита. (1996). «Сборник Разговорного английского корпуса». Ноулз, Джерард; Вичманн, Энн; Олдерсон, Питер, ред. (1996). Работа с речью . Лонгман. п. 30. ISBN 9780582045347.
  10. ^ "Набор тегов UCREL CLAWS1 (LOB)" . ucrel.lancs.ac.uk . Проверено 15 октября 2020 .
  11. ^ Сэмпсон, Джеффри . (1987). «Вероятностные модели анализа». Гарсайд, Роджер; Сэмпсон, Джеффри ; Пиявка, Джеффри (1987). Вычислительный анализ английского языка . Лонгман. ISBN 9780582291492.
  12. ^ «Интонация в тексте и дискурсе: начало, середина и конец» . Рутледж и CRC Press . Проверено 15 октября 2020 .
  13. ^ Роуч, П., Ноулз, Г., Варади, Т. и Арнфилд, С. (1994) "MARSEC: Машинно-читаемый разговорный английский корпус". Журнал Международной фонетической ассоциации . 23 (2): 47–54. DOI : 10.1017 / s0025100300004849 . ISSN 0025-1003 . 
  14. ^ Ноулз, Г. «Преобразование корпуса в реляционную базу данных: SEC становится MARSEC» Джеффри, Пиявка ; Майерс, Грег; Томас, Дженни (1995). Разговорный английский на компьютере . Лонгман. С. 208–219. ISBN 9780582250215.
  15. ^ Роуч, Питер и Арнфилд, Саймон. «Связывание просодической транскрипции с измерением времени». Джеффри, Пиявка ; Майерс, Грег; Томас, Дженни (1995). Разговорный английский на компьютере . Лонгман. С. 149–160. ISBN 9780582250215.
  16. ^ "MARSEC: Машиносчитываемый разговорный английский корпус" . www.reading.ac.uk . Проверено 15 октября 2020 .
  17. Херст, Дэниел; Де Луз, Селин; Ауран, Кирилл; Бузон, Кэролайн (27 июля 2010 г.). "База данных Aix-MARSEC" . Проверено 15 апреля 2013 года .
  18. ^ Орон, Кирилл; Бузон, Кэролайн (2003). « Предиктивная фонотактика и автоматическое выравнивание: приложение в корпусе MARSEC и перспективы» [Предиктивная фонотактика и автоматическое согласование: применение в корпусе MARSEC и перспективы]. Travaux interdisciplinaires du labratoire parole et langage d'Aix-en-Provence (на французском языке). Publications de l'Université de Provence . 22 : 33–63 . Проверено 15 апреля 2013 года .
  19. ^ Вичманн, Энн "Речевые корпуса и разговорные корпуса" Люделинг, Анке; Кито, Мерджа (2006). Корпусная лингвистика 1 . Вальтер де Грюйтер. п. 200. ISBN 9783110180435.
  20. ^ Херст, Дэниел. «Проект Экс-МАРСЕК» . Проверено 15 апреля 2013 года .