Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Логотип Hamshahri Corpus

Hamshahri Корпус ( персидский : پیکره همشهری ) является значительная персидский корпус на основе иранской газеты Hamshahri , один из первых интернет - газет на персидском языке в Иране. Первоначально она была собрана и составлена Ehsan Darrudi в группе DBRG [1] из Тегеранского университета . Позднее группа во главе с Але Ахмадом [2] построила этот корпус и создала первую коллекцию персидских текстов, подходящую для задач оценки информационного поиска .

Этот корпус был создан путем сканирования новостных онлайн-статей с веб -сайта Hamshahri и обработки HTML-страниц для создания стандартного текстового корпуса для современных экспериментов по поиску информации.

Версия 1.0 [ править ]

Сборник содержит более 160 000 статей по следующим тематическим категориям: политика, городские новости, экономика, репортажи, редакционные статьи, литература, наука, общество, зарубежные новости, спорт и т. Д. Размер документов варьируется от коротких новостей (до 1 КБ). ) на достаточно длинные статьи (например, 140 КБ) со средним размером 1,8 КБ.

Корпус доступен для скачивания в нескольких форматах: [2]

  • Текст с тегами: 560 МБ
  • В таблицах SQL Server 2000: 712 МБ

Версия 2.0 [ править ]

Второй выпуск Hamshahri Corpus был выпущен 20 октября 2008 года. Он предлагает несколько новых функций и улучшений:

  • Другие новости: 323 616 текстовых историй в 3206 файлах XML (по одному файлу на каждый день)
  • Увеличенный временной интервал: с 22 июня 1996 г. по 13 мая 2007 г.
  • Больше по размеру: 1,42 ГБ без сжатия
  • Стандартный контейнер: Unicode XML
  • Включенные изображения: изображения были извлечены из новостей и сохранены (доступны в дополнительном пакете), что делает его пригодным для задач поиска изображений.
  • Категоризированные новости: новости распределяются по категориям полуавтоматически (подходит для задач категоризации текста и классификации ).

Корпус доступен для скачивания в формате XML.

См. Также [ править ]

Ссылки [ править ]

  1. ^ Группа исследований базы данных новостей DBRG
  2. ^ a b Исследовательская группа базы данных Хамшахри

Внешние ссылки [ править ]