Болгарский национальный корпус


Болгарский национальный корпус (BulNC) представляет собой большой репрезентативный корпус болгарского языка, включающий около 200 000 текстов и объем более 1 миллиарда слов. [1]

Болгарский национальный корпус создан в Институте болгарского языка им. проф. Л. Андрейчин» научных сотрудников кафедры компьютерной лингвистики и кафедры болгарской лексикологии и лексикографии. BulNC включает в себя несколько отдельных электронных корпусов, разработанных в период 2001-2009 годов для нужд двух отделов. Корпус постоянно пополняется новыми текстами. [2] [3]

Болгарский национальный корпус состоит из одноязычной (болгарской) части и 47 параллельных корпусов. Болгарская часть включает около 1,2 миллиарда слов в более чем 240 000 текстовых образцах. Материалы корпуса отражают состояние болгарского языка (преимущественно в письменной форме) с середины ХХ века (1945 г.) до настоящего времени. [4]

Болгарский национальный корпус позволяет использовать ряд приложений в различных лингвистических областях: в компьютерной лингвистике; в лексикографии; в рамках теоретических исследований конкретных языковых явлений; для наблюдения за характеристиками отдельных языковых областей; для извлечения примерных предложений по обучению на болгарском языке и т.д.