Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Дерево синтаксиса зависимостей для стиха (67: 1)

Quranic арабский Корпус представляет собой аннотированный лингвистический ресурс , состоящий из 77,430 слов коранического арабского. Цель проекта - предоставить морфологические и синтаксические аннотации для исследователей, желающих изучать язык Корана. [1] [2] [3] [4] [5]

Функции [ править ]

Грамматический анализ помогает читателям глубже раскрыть предполагаемые значения каждого стиха и предложения. Каждое слово Корана помечено частью речи, а также множеством морфологических особенностей. В отличие от других аннотированных корпусов арабского языка, структура грамматики, принятая Корпусом Корана, представляет собой традиционную арабскую грамматику и'раба ( إﻋﺮﺍﺏ ). Исследовательский проект под руководством Каис герцогов в Университете Лидса , [4] и является частью арабского языка вычислительного исследовательской группы в школе вычислительной техники, под руководством Эрики Атуэлл. [6]

Аннотированный корпус включает: [1] [7]

  • Подтвержденный вручную корпус Корана на арабском языке с тегами части речи .
  • Аннотированный древовидный список коранического арабского языка.
  • Новая визуализация традиционной арабской грамматики через графы зависимостей.
  • Морфологический поиск Корана.
  • Машиночитаемый морфологический словарь коранических слов на английском языке.
  • Неполные из речи конкорданса для коранических арабского организованной леммой.
  • Онлайн-доска объявлений для комментариев волонтеров сообщества.

Аннотации корпуса присваивают каждому слову тег части речи и морфологические особенности. Например, при аннотации необходимо решить, является ли слово существительным или глаголом, и имеет ли оно склонение к мужскому или женскому роду. Первый этап проекта включал автоматическую разметку частей речи с применением компьютерной технологии арабского языка к тексту. Аннотации для каждого из 77 430 слов Корана затем были поэтапно проверены двумя аннотаторами, и все еще продолжаются улучшения для дальнейшего повышения точности.

Лингвистическое исследование Корана, в котором используется аннотированный корпус, включает обучение скрытых марковских тегеров частей речи для арабского языка [8], автоматическую категоризацию глав Корана [9] и просодический анализ текста. [10]

Кроме того, в рамках проекта вместо нового перевода Корана предоставляется дословный перевод Корана на основе общепринятых английских источников. [4]

См. Также [ править ]

Ссылки [ править ]

  1. ^ a b К. Дьюкс, Э. Этвелл и Н. Хабаш (2011). Совместная работа с руководителем для синтаксической аннотации коранического арабского языка. Языковые ресурсы и оценочный журнал (LREJ). Специальный выпуск о совместно созданных языковых ресурсах.
  2. ^ Совместная работа с руководителем по синтаксической аннотации коранического арабского языка в ResearchGate . Загружено Nizar Habash, Колумбийский университет .
  3. ^ К. Герцоги и Т. Buckwalter (2010). Древовидный банк зависимостей Корана с использованием традиционной арабской грамматики. В материалах 7-й Международной конференции по информатике и системам (INFOS). Каир, Египет.
  4. ^ a b c Корпус Корана на арабском языке, архивированный 23 февраля 2013 г. в Wayback Machine в The Muslim Tribune. 20 июня 2011 г.
  5. Эрик Этвелл, Клэр Бриерли, Кейс Дьюкс, Маджди Савальха и Абдул-Бакы Шараф. Подход искусственного интеллекта к арабскому и исламскому контенту в Интернете [ постоянная мертвая ссылка ] , стр. 2. Эр-Рияд : Университет короля Сауда , 2011 г.
  6. ^ Инженерия. "Профиль доктора Эрика Этвелла - Школа вычислительной техники - Университет Лидса" . www.comp.leeds.ac.uk .
  7. ^ К. Дьюкс и Н. Хабаш (2011). Одношаговый статистический анализ гибридных синтаксических представлений зависимостей и групп. Международная конференция по технологиям парсинга (IWPT). Дублин, Ирландия.
  8. ^ М. Альбаред, Н. Омар и М. Аб Азиз (2011). Разработка конкурентоспособного HMM Arabic POS Tagger с использованием небольших обучающих корпусов. Интеллектуальные информационные системы и системы баз данных. Springer Berlin, Гейдельберг.
  9. ^ AM Шараф и Э. Этвелл (2011). Автоматическая категоризация глав Корана. 7-я Международная компьютерная конференция на арабском языке (ICCA11). Эр-Рияд, Саудовская Аравия.
  10. ^ С. Бриерли, М. Савалха и Е. Этвелл (2012). Корпус Корана с аннотациями границ для предсказания разрыва арабской фразы. Архивировано 15 декабря 2018 года наежегодном симпозиуме Wayback Machine IVACS. Кембридж.

Внешние ссылки [ править ]

  • Коранический арабский корпус