Коранический арабский корпус | |
---|---|
Исследовательский центр: | Университет Лидса |
Изначальный выпуск: | Ноябрь 2009 г. |
Язык: | Коранический арабский, английский |
Аннотация: | Синтаксис, морфология |
Рамки: | Грамматика зависимостей |
Лицензия: | Стандартная общественная лицензия GNU |
Интернет сайт: | http://corpus.quran.com/ |
Quranic арабский Корпус представляет собой аннотированный лингвистический ресурс , состоящий из 77,430 слов коранического арабского. Цель проекта - предоставить морфологические и синтаксические аннотации для исследователей, желающих изучать язык Корана. [1] [2] [3] [4] [5]
Функции [ править ]
Грамматический анализ помогает читателям глубже раскрыть предполагаемые значения каждого стиха и предложения. Каждое слово Корана помечено частью речи, а также множеством морфологических особенностей. В отличие от других аннотированных корпусов арабского языка, структура грамматики, принятая Корпусом Корана, представляет собой традиционную арабскую грамматику и'раба ( إﻋﺮﺍﺏ ). Исследовательский проект под руководством Каис герцогов в Университете Лидса , [4] и является частью арабского языка вычислительного исследовательской группы в школе вычислительной техники, под руководством Эрики Атуэлл. [6]
Аннотированный корпус включает: [1] [7]
- Подтвержденный вручную корпус Корана на арабском языке с тегами части речи .
- Аннотированный древовидный список коранического арабского языка.
- Новая визуализация традиционной арабской грамматики через графы зависимостей.
- Морфологический поиск Корана.
- Машиночитаемый морфологический словарь коранических слов на английском языке.
- Неполные из речи конкорданса для коранических арабского организованной леммой.
- Онлайн-доска объявлений для комментариев волонтеров сообщества.
Аннотации корпуса присваивают каждому слову тег части речи и морфологические особенности. Например, при аннотации необходимо решить, является ли слово существительным или глаголом, и имеет ли оно склонение к мужскому или женскому роду. Первый этап проекта включал автоматическую разметку частей речи с применением компьютерной технологии арабского языка к тексту. Аннотации для каждого из 77 430 слов Корана затем были поэтапно проверены двумя аннотаторами, и все еще продолжаются улучшения для дальнейшего повышения точности.
Лингвистическое исследование Корана, в котором используется аннотированный корпус, включает обучение скрытых марковских тегеров частей речи для арабского языка [8], автоматическую категоризацию глав Корана [9] и просодический анализ текста. [10]
Кроме того, в рамках проекта вместо нового перевода Корана предоставляется дословный перевод Корана на основе общепринятых английских источников. [4]
См. Также [ править ]
Ссылки [ править ]
- ^ a b К. Дьюкс, Э. Этвелл и Н. Хабаш (2011). Совместная работа с руководителем для синтаксической аннотации коранического арабского языка. Языковые ресурсы и оценочный журнал (LREJ). Специальный выпуск о совместно созданных языковых ресурсах.
- ^ Совместная работа с руководителем по синтаксической аннотации коранического арабского языка в ResearchGate . Загружено Nizar Habash, Колумбийский университет .
- ^ К. Герцоги и Т. Buckwalter (2010). Древовидный банк зависимостей Корана с использованием традиционной арабской грамматики. В материалах 7-й Международной конференции по информатике и системам (INFOS). Каир, Египет.
- ^ a b c Корпус Корана на арабском языке, архивированный 23 февраля 2013 г. в Wayback Machine в The Muslim Tribune. 20 июня 2011 г.
- ↑ Эрик Этвелл, Клэр Бриерли, Кейс Дьюкс, Маджди Савальха и Абдул-Бакы Шараф. Подход искусственного интеллекта к арабскому и исламскому контенту в Интернете [ постоянная мертвая ссылка ] , стр. 2. Эр-Рияд : Университет короля Сауда , 2011 г.
- ^ Инженерия. "Профиль доктора Эрика Этвелла - Школа вычислительной техники - Университет Лидса" . www.comp.leeds.ac.uk .
- ^ К. Дьюкс и Н. Хабаш (2011). Одношаговый статистический анализ гибридных синтаксических представлений зависимостей и групп. Международная конференция по технологиям парсинга (IWPT). Дублин, Ирландия.
- ^ М. Альбаред, Н. Омар и М. Аб Азиз (2011). Разработка конкурентоспособного HMM Arabic POS Tagger с использованием небольших обучающих корпусов. Интеллектуальные информационные системы и системы баз данных. Springer Berlin, Гейдельберг.
- ^ AM Шараф и Э. Этвелл (2011). Автоматическая категоризация глав Корана. 7-я Международная компьютерная конференция на арабском языке (ICCA11). Эр-Рияд, Саудовская Аравия.
- ^ С. Бриерли, М. Савалха и Е. Этвелл (2012). Корпус Корана с аннотациями границ для предсказания разрыва арабской фразы. Архивировано 15 декабря 2018 года наежегодном симпозиуме Wayback Machine IVACS. Кембридж.
Внешние ссылки [ править ]
- Коранический арабский корпус