Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску
Логотип Bijankhan Corpus

Корпус Bijankhan ( персидский : پیکرهٔ بی‌جن‌خان ) - это корпус с тегами, который подходит для исследования обработки естественного языка (NLP) на персидском языке . Эта коллекция собрана из ежедневных новостей и общих текстов. В этой коллекции все документы разбиты на категории по различным предметам, таким как политические, культурные и т. Д .; примерно в 4300 различных тематических категориях. Корпус содержит около 2,6 миллиона слов, помеченных вручную, с набором тегов, который содержит 550 персидских тегов части речи .

Bijankhan корпус был создан базами данных исследовательской группы в университете Тегерана . [1] Корпус не является бесплатным в том смысле, что его нельзя использовать в коммерческих целях, хотя эти ограничения различаются в зависимости от страны . Корпус Биджанхана назван в честь Махмуда Биджанхана , профессора лингвистики Тегеранского университета из-за его вклада в эту область.

См. Также [ править ]

Ссылки [ править ]

Внешние ссылки [ править ]