Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

Хорватский национальный корпус ( хорватский : Hrvatski nacionalni КОРПУС , HNK ) является самым большим и самым важным корпус на хорватском языке . Его компиляция началась в 1998 году в Институте языкознания [1] на факультете гуманитарных и социальных наук , Загребский университет следуя идеям Марко Тадича . Теоретические основы и выражение потребности в универсальном, репрезентативном и многомиллионном корпусе хорватского языка начали появляться еще раньше. [2] Хорватский национальный корпус составлен из избранных текстов, написанных на хорватском языке, охватывающих все области, темы, жанры и стили: от литературных и научных текстов до учебников, газет, групп пользователей и чатов.

Первоначальный состав был разделен на две составляющие:

  1. 30-миллионный корпус современного хорватского языка (30м), в который вошли образцы текстов с 1990 года. Критериями включения образцов текста были: написаны носителями языка, разные области, жанры и темы. Переведенный текст или стихи были исключены.
  2. Хорватский электронный текстовый архив (HETA), куда был включен полный текст, в частности, серийные публикации (тома, серии, издания и т. Д.), Которые нарушили бы баланс 30 метров, если бы они туда были помещены.

С 2004 года, с принятием концепции корпуса 3-го поколения, от двухкомпонентной структуры отказались в пользу нескольких субкорпусов и большего размера. С 2005 года 105 миллионов токенов HNK состоит из множества различных подкорпораций, которые можно искать по отдельности и все вместе в целом корпусе. С 2004 года HNK также перешла на новую серверную платформу, а именно сервер-клиентскую архитектуру Manatee / Bonito. Для поиска в HNK (сегодня все еще с бесплатным тестовым доступом) необходима бесплатная клиентская программа Bonito [3] . Автором этого руководящего корпуса является Павел Рыхлы [4] из Лаборатории обработки естественного языка [5] факультета информатики [6] Университета Масарика.в Брно, Чехия. Его интерфейс включает сложные и более сложные запросы по корпусу, различные типы статистических результатов, полные или частичные списки слов в соответствии с различными критериями запроса (с их частотами), частотное распределение типов, автоматическое определение словосочетания и т. Д.

Последняя версия этого корпуса (версия 3) [7] имеет 216,8 миллиона токенов. Онлайн-поиск доступен через поиск в веб-интерфейсе Bonito 2, который является частью NoSketch Engine, [8] ограниченной версии программного обеспечения Sketch Engine .

Ссылки [ править ]

  1. ^ Институт лингвистики
  2. ^ Тадич 1990, 1996 Архивировано 10 февраля2006 г. в Wayback Machine , 1998 Архивировано 10 февраля2006 г. в Wayback Machine
  3. ^ Бонито
  4. ^ Rychlý, Павел (2007). «Ламантин / бонито - модульный корпус-менеджер» (PDF) . 1-й семинар по последним достижениям в обработке славянского естественного языка . Масариковский университет: 65–70.
  5. ^ Обработки естественного языка Лаборатория архивации 2005-10-28 в Wayback Machine
  6. ^ Факультет информатики
  7. ^ Тадич, Марко (2009). «Новая версия Хорватского национального корпуса». После полувека обработки славянского естественного языка . Масариковский университет: 199–205.
  8. ^ NoSketch Engine

Внешние ссылки [ править ]