Хамшахри Корпус

Логотип Hamshahri Corpus

Hamshahri Корпус ( персидский : پیکره همشهری ) является значительная персидский корпус на основе иранской газеты Hamshahri , один из первых интернет - газет на персидском языке в Иране. Первоначально она была собрана и составлена Ehsan Darrudi в группе DBRG ^[1] из Тегеранского университета . Позднее группа во главе с Але Ахмадом ^[2] построила этот корпус и создала первую коллекцию персидских текстов, подходящую для задач оценки информационного поиска .

Этот корпус был создан путем сканирования новостных онлайн-статей с веб -сайта Hamshahri и обработки HTML-страниц для создания стандартного текстового корпуса для современных экспериментов по поиску информации.

Версия 1.0 [ править ]

Сборник содержит более 160 000 статей по следующим тематическим категориям: политика, городские новости, экономика, репортажи, редакционные статьи, литература, наука, общество, зарубежные новости, спорт и т. Д. Размер документов варьируется от коротких новостей (до 1 КБ). ) на достаточно длинные статьи (например, 140 КБ) со средним размером 1,8 КБ.

Корпус доступен для скачивания в нескольких форматах: ^[2]

Текст с тегами: 560 МБ
В таблицах SQL Server 2000: 712 МБ

Версия 2.0 [ править ]

Второй выпуск Hamshahri Corpus был выпущен 20 октября 2008 года. Он предлагает несколько новых функций и улучшений:

Другие новости: 323 616 текстовых историй в 3206 файлах XML (по одному файлу на каждый день)
Увеличенный временной интервал: с 22 июня 1996 г. по 13 мая 2007 г.
Больше по размеру: 1,42 ГБ без сжатия
Стандартный контейнер: Unicode XML
Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает его пригодным для задач поиска изображений.
Категоризированные новости: новости распределяются по категориям полуавтоматически (подходит для задач категоризации текста и классификации ).

Корпус доступен для скачивания в формате XML.

См. Также [ править ]

Ссылки [ править ]

^ Группа исследований базы данных новостей DBRG
^ ^a ^b Исследовательская группа базы данных Хамшахри

[1] Группа исследований базы данных новостей DBRG

[ham-2] Исследовательская группа базы данных Хамшахри

[1]

vтеКорпусная лингвистика
Текстовые корпуса, английский	Американский национальный корпус Банк английского языка Бергенский корпус лондонского подросткового языка Британский национальный корпус Коричневый корпус Buckeye Corpus Cambridge English Corpus Корпус современного американского английского Enron Corpus EnTenTen Международный корпус английского языка Ланкастер-Осло-Берген Корпус Oxford English Corpus PropBank Разговорный английский корпус ТИМИТ VerbNet Веллингтонский корпус разговорного новозеландского английского языка
Корпуса текстов, не на английском языке	Bijankhan Corpus ДЕТИ CorCenCC - национальный корпус современного валлийского языка Корпус хорватского языка Хорватский национальный корпус Чешский национальный корпус Europarl Corpus Немецкий справочный корпус Хамшахри Корпус Национальный корпус польского языка Проект корпуса неоасирийских текстов Коранический арабский корпус Русский Национальный Корпус Шотландский корпус текстов и речи Словенский национальный корпус TalkBank Татоеба Tehran Monolingual Corpus Tekstaro de Esperanto Семья TenTen Corpus Thesaurus Linguae Graecae
Организации	Консорциум BNC COBUILD Sketch Engine