Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Проект CorCenCC и логотип Корпуса

CorCenCC или (валлийский: Corpws Cenedlaethol Cymraeg Cyfoes ) Национальный корпус современного валлийского языка - это языковой ресурс для носителей валлийского языка, изучающих валлийский язык, исследователей валлийского языка и всех, кто интересуется валлийским языком. CorCenCC представляет собой свободно доступную коллекцию образцов на нескольких языках, собранных в ходе общения в реальной жизни и представленных в текстовом корпусе CorCenCC с возможностью поиска . Корпус сопровождается онлайн-набором инструментов для преподавания и обучения - Y Tiwtiadur [1], который напрямую использует данные корпуса, чтобы предоставить ресурсы для изучения валлийского языка для всех возрастов и уровней.

CorCenCC, запущенный в сентябре 2020 года, является первым корпусом валлийского языка, который включает в себя все три аспекта современного валлийского: разговорный, письменный и электронный (электронный).

Состав [ править ]

CorCenCC расширяет 11 миллионов слов естественного валлийского языка (примечание: версия корпуса, доступная на веб-сайте CorCenCC, дает результаты в токенах, а не в словах). Создание CorCenCC было проектом сообщества, который предлагал пользователям валлийского языка возможность внести свой вклад в ресурс валлийского языка, отражающий то, как валлийский используется в настоящее время. Таким образом, набор данных предлагает моментальный снимок валлийского языка в различных контекстах использования, например, в частных беседах, групповом общении, деловых и других рабочих ситуациях, в образовании, в различных изданных СМИ и в общественных местах. Полный список контекстов, жанров и тем доступен на сайте проекта.

Разговоры записывались исследовательской группой, а приложение для краудсорсинга позволяло носителям валлийского языка в сообществе записывать и загружать образцы использования своего собственного языка в корпус. В опубликованный корпус CorCenCC были взяты образцы разных носителей и пользователей валлийского языка из всех регионов Уэльса, всех возрастов и полов, с широким спектром занятий и с различным лингвистическим образованием (например, как они начали говорить Валлийский), чтобы отразить разнообразие типов текста и говорящих на валлийском языке в современном Уэльсе. [2]

Инструменты [ править ]

  • Набор данных на валлийском языке из 11 миллионов слов
  • Основа выборки CorCenCC
  • Протоколы транскрипции для разговорного валлийского языка
  • Валлийский язык POS и множества ярлыков Таггер, CyTag [3] (английский: / к ə т æ ɡ / м ): Таггер Вельш POS (с заказ множества ярлыков) спроектированы и изготовлены для проекта. Он используется вместе с семантическим тегом для тегирования всех лексических элементов в корпусе.
  • CySemTag (английский: / к ə с ɛ м ˌ т æ ɡ / ): Уэльсский Семантический Таггер [4] [5] [6] применяется мозолистое аннотацию автоматически данных уэльских языка.
  • Педагогический инструментарий на валлийском языке Y Tiwtiadur [7] ( валлийское произношение:  [ə tiutˈjadɪr] ), который включает:
    • инструмент для заполнения зазоров (закрытия)
    • инструмент Word Profiler
    • инструмент идентификации слов
    • инструмент Word Task Creator
  • Приложение краудсорсинга [2] для сбора данных: разработано, чтобы позволить носителям валлийского языка записывать разговоры между собой и другими людьми в различных контекстах и ​​загружать их с согласия участников с соблюдением этических норм для включения в окончательный корпус. Краудсорсинговый корпус данных - это относительно новое направление, которое дополняет более традиционные методы сбора языковых данных и соответствует духу сообщества, существующему среди носителей и изучающих валлийский и другие языки меньшинств .
  • Инструменты запросов новой инфраструктуры корпуса [8] CorCenCC, которые включают следующие функции:
    • Простой запрос
    • Сложный запрос
    • Генерация списка частот
    • Анализ коллокаций
    • N-граммовый анализ
    • Согласование
    • Анализ ключевых слов

Финансирование [ править ]

Исследование, на котором был основан проект CorCenCC, финансировалось Советом по экономическим и социальным исследованиям Великобритании ( ESRC ) и Советом по исследованиям в области искусства и гуманитарных наук ( AHRC ) под названием Corpws Cenedlaethol Cymraeg Cyfoes (Национальный корпус современного валлийского языка): подход к решению проблемы проект строительства лингвистического корпуса »(номер гранта ES / M011348 / 1).

Внешние ссылки [ править ]

Ссылки [ править ]

  1. ^ "Y Tiwtiadur - CorCenCC - Национальный корпус современного валлийского языка" . Проверено 18 сентября 2020 .
  2. ^ a b Neale, S .; Спасич, I .; Потребности, Дж .; Watkins, G .; Morris, S .; Фитцпатрик, Т .; Marshall, L .; Найт, Д. (2017), «Краудсорсинговое приложение CorCenCC: индивидуальный инструмент для управляемого пользователями создания национального корпуса современного валлийского языка», Corpus Linguistics Conference 2017 , Ньюкаслский университет
  3. ^ Нил, S .; Доннелли, К .; Watkins, G .; Найт, Д. (май 2018 г.). «Использование лексических ресурсов и грамматики ограничений для разметки частей речи на основе правил на валлийском языке». Постер представлен на конференции LREC (Language Resources Evaluation) 2018 . Миядзаки, Япония.CS1 maint: date and year (link)
  4. ^ "Система семантического анализа UCREL (USAS)" . ucrel.lancs.ac.uk . Проверено 18 сентября 2020 .
  5. ^ Piao, S .; Rayson, P .; Knight, D .; Уоткинс, Г. (май 2018 г.), «К валлийской системе семантической аннотации», Труды конференции LREC (Оценка языковых ресурсов) 2018 г. , Миядзаки, ЯпонияCS1 maint: date and year (link)
  6. ^ Piao, S .; Rayson, P .; Knight, D .; Watkins, G .; Доннелли, К. (июль 2017 г.), «На пути к валлийскому семантическому теггеру: создание лексиконов для языка с ограниченными ресурсами», Труды конференции Corpus Linguistics 2017 , Бирмингемский университет, Бирмингем, ВеликобританияCS1 maint: date and year (link)
  7. ^ Дэвис, Дж .; Thomas, EM .; Фитцпатрик, Т .; Потребности, Дж .; Энтони, L .; Cobb, T .; Рыцарь, Д. (2020). «Y Tiwtiadur. [Цифровой ресурс]» .
  8. ^ Knight, D .; Loizides, F .; Neale, S .; Энтони, L .; Спасич, И. (2020). «Разработка вычислительной инфраструктуры для корпуса CorCenCC: Национальный корпус современного валлийского языка» . Языковые ресурсы и оценка : 1–28. DOI : 10.1007 / s10579-020-09501-9 .