CorCenCC или (валлийский: Corpws Cenedlaethol Cymraeg Cyfoes ) Национальный корпус современного валлийского языка - это языковой ресурс для носителей валлийского языка, изучающих валлийский язык, исследователей валлийского языка и всех, кто интересуется валлийским языком. CorCenCC представляет собой свободно доступную коллекцию образцов на нескольких языках, собранных в ходе общения в реальной жизни и представленных в текстовом корпусе CorCenCC с возможностью поиска . Корпус сопровождается онлайн-набором инструментов для преподавания и обучения - Y Tiwtiadur [1], который напрямую использует данные корпуса, чтобы предоставить ресурсы для изучения валлийского языка для всех возрастов и уровней.
CorCenCC, запущенный в сентябре 2020 года, является первым корпусом валлийского языка, который включает в себя все три аспекта современного валлийского: разговорный, письменный и электронный (электронный).
Состав [ править ]
CorCenCC расширяет 11 миллионов слов естественного валлийского языка (примечание: версия корпуса, доступная на веб-сайте CorCenCC, дает результаты в токенах, а не в словах). Создание CorCenCC было проектом сообщества, который предлагал пользователям валлийского языка возможность внести свой вклад в ресурс валлийского языка, отражающий то, как валлийский используется в настоящее время. Таким образом, набор данных предлагает моментальный снимок валлийского языка в различных контекстах использования, например, в частных беседах, групповом общении, деловых и других рабочих ситуациях, в образовании, в различных изданных СМИ и в общественных местах. Полный список контекстов, жанров и тем доступен на сайте проекта.
Разговоры записывались исследовательской группой, а приложение для краудсорсинга позволяло носителям валлийского языка в сообществе записывать и загружать образцы использования своего собственного языка в корпус. В опубликованный корпус CorCenCC были взяты образцы разных носителей и пользователей валлийского языка из всех регионов Уэльса, всех возрастов и полов, с широким спектром занятий и с различным лингвистическим образованием (например, как они начали говорить Валлийский), чтобы отразить разнообразие типов текста и говорящих на валлийском языке в современном Уэльсе. [2]
Инструменты [ править ]
- Набор данных на валлийском языке из 11 миллионов слов
- Основа выборки CorCenCC
- Протоколы транскрипции для разговорного валлийского языка
- Валлийский язык POS и множества ярлыков Таггер, CyTag [3] (английский: / к ə т æ ɡ / м ): Таггер Вельш POS (с заказ множества ярлыков) спроектированы и изготовлены для проекта. Он используется вместе с семантическим тегом для тегирования всех лексических элементов в корпусе.
- CySemTag (английский: / к ə с ɛ м ˌ т æ ɡ / ): Уэльсский Семантический Таггер [4] [5] [6] применяется мозолистое аннотацию автоматически данных уэльских языка.
- Педагогический инструментарий на валлийском языке Y Tiwtiadur [7] ( валлийское произношение: [ə tiutˈjadɪr] ), который включает:
- инструмент для заполнения зазоров (закрытия)
- инструмент Word Profiler
- инструмент идентификации слов
- инструмент Word Task Creator
- Приложение краудсорсинга [2] для сбора данных: разработано, чтобы позволить носителям валлийского языка записывать разговоры между собой и другими людьми в различных контекстах и загружать их с согласия участников с соблюдением этических норм для включения в окончательный корпус. Краудсорсинговый корпус данных - это относительно новое направление, которое дополняет более традиционные методы сбора языковых данных и соответствует духу сообщества, существующему среди носителей и изучающих валлийский и другие языки меньшинств .
- Инструменты запросов новой инфраструктуры корпуса [8] CorCenCC, которые включают следующие функции:
- Простой запрос
- Сложный запрос
- Генерация списка частот
- Анализ коллокаций
- N-граммовый анализ
- Согласование
- Анализ ключевых слов
Финансирование [ править ]
Исследование, на котором был основан проект CorCenCC, финансировалось Советом по экономическим и социальным исследованиям Великобритании ( ESRC ) и Советом по исследованиям в области искусства и гуманитарных наук ( AHRC ) под названием Corpws Cenedlaethol Cymraeg Cyfoes (Национальный корпус современного валлийского языка): подход к решению проблемы проект строительства лингвистического корпуса »(номер гранта ES / M011348 / 1).
Внешние ссылки [ править ]
- CorCenCC Национальный корпус современного валлийского сайта
- CorCenCC GitHub
- Y Tiwtiadur , инструментарий для преподавания валлийского языка
Ссылки [ править ]
- ^ "Y Tiwtiadur - CorCenCC - Национальный корпус современного валлийского языка" . Проверено 18 сентября 2020 .
- ^ a b Neale, S .; Спасич, I .; Потребности, Дж .; Watkins, G .; Morris, S .; Фитцпатрик, Т .; Marshall, L .; Найт, Д. (2017), «Краудсорсинговое приложение CorCenCC: индивидуальный инструмент для управляемого пользователями создания национального корпуса современного валлийского языка», Corpus Linguistics Conference 2017 , Ньюкаслский университет
- ^ Нил, S .; Доннелли, К .; Watkins, G .; Найт, Д. (май 2018 г.). «Использование лексических ресурсов и грамматики ограничений для разметки частей речи на основе правил на валлийском языке». Постер представлен на конференции LREC (Language Resources Evaluation) 2018 . Миядзаки, Япония.CS1 maint: date and year (link)
- ^ "Система семантического анализа UCREL (USAS)" . ucrel.lancs.ac.uk . Проверено 18 сентября 2020 .
- ^ Piao, S .; Rayson, P .; Knight, D .; Уоткинс, Г. (май 2018 г.), «К валлийской системе семантической аннотации», Труды конференции LREC (Оценка языковых ресурсов) 2018 г. , Миядзаки, ЯпонияCS1 maint: date and year (link)
- ^ Piao, S .; Rayson, P .; Knight, D .; Watkins, G .; Доннелли, К. (июль 2017 г.), «На пути к валлийскому семантическому теггеру: создание лексиконов для языка с ограниченными ресурсами», Труды конференции Corpus Linguistics 2017 , Бирмингемский университет, Бирмингем, ВеликобританияCS1 maint: date and year (link)
- ^ Дэвис, Дж .; Thomas, EM .; Фитцпатрик, Т .; Потребности, Дж .; Энтони, L .; Cobb, T .; Рыцарь, Д. (2020). «Y Tiwtiadur. [Цифровой ресурс]» .
- ^ Knight, D .; Loizides, F .; Neale, S .; Энтони, L .; Спасич, И. (2020). «Разработка вычислительной инфраструктуры для корпуса CorCenCC: Национальный корпус современного валлийского языка» . Языковые ресурсы и оценка : 1–28. DOI : 10.1007 / s10579-020-09501-9 .