Hamshahri Корпус ( персидский : پیکره همشهری ) является значительная персидский корпус на основе иранской газеты Hamshahri , один из первых интернет - газет на персидском языке в Иране. Первоначально она была собрана и составлена Ehsan Darrudi в группе DBRG [1] из Тегеранского университета . Позднее группа во главе с Але Ахмадом [2] построила этот корпус и создала первую коллекцию персидских текстов, подходящую для задач оценки информационного поиска .
Этот корпус был создан путем сканирования новостных онлайн-статей с веб -сайта Hamshahri и обработки HTML-страниц для создания стандартного текстового корпуса для современных экспериментов по поиску информации.
Версия 1.0 [ править ]
Сборник содержит более 160 000 статей по следующим тематическим категориям: политика, городские новости, экономика, репортажи, редакционные статьи, литература, наука, общество, зарубежные новости, спорт и т. Д. Размер документов варьируется от коротких новостей (до 1 КБ). ) на достаточно длинные статьи (например, 140 КБ) со средним размером 1,8 КБ.
Корпус доступен для скачивания в нескольких форматах: [2]
- Текст с тегами: 560 МБ
- В таблицах SQL Server 2000: 712 МБ
Версия 2.0 [ править ]
Второй выпуск Hamshahri Corpus был выпущен 20 октября 2008 года. Он предлагает несколько новых функций и улучшений:
- Другие новости: 323 616 текстовых историй в 3206 файлах XML (по одному файлу на каждый день)
- Увеличенный временной интервал: с 22 июня 1996 г. по 13 мая 2007 г.
- Больше по размеру: 1,42 ГБ без сжатия
- Стандартный контейнер: Unicode XML
- Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает его пригодным для задач поиска изображений.
- Категоризированные новости: новости распределяются по категориям полуавтоматически (подходит для задач категоризации текста и классификации ).
Корпус доступен для скачивания в формате XML.