Языки России


Языки Российской Федерации — языки, распространённые на территории России. Они относятся к 15 языковым семьям — индоевропейской, тунгусо-маньчжурской, монгольской, тюркской, уральской, юкагиро-чуванской, картвельской, абхазо-адыгской, нахско-дагестанской, сино-тибетской, семитской, эскимосско-алеутской, чукотско-камчатской, енисейской, австроазиатской; нивхский и корейский являются изолированными.

В работе[2] в таблице 1 перечислены 32 языка России, обладающие собственными корпусами, снабжёнными поисковыми системами. Из них для пяти языков текстовые ресурсы доступны по открытой лицензии Creative Commons, для 22 языков лицензия неизвестна[2].

Самыми крупными корпусами, включающими более миллиона токенов, являются аварский (2,3 млн), адыгейский (7,8 млн), башкирский (20,6 млн), бурятский (2,2 млн), чувашский (1,1 млн), эрзянский (3,1 млн), коми-зырянский (54 млн), осетинский (12 млн), татарский (180 млн), удмуртский (7 млн), идиш (4,9 млн). Из этих крупных корпусов только про корпус эрзянского языка известно, какую он имеет лицензию (CC-BY 4.0), у остальных корпусов лицензия неизвестна[2].

В списке ниже после каждого языка указана численность говорящих в России: либо по переписи 2021, либо (если данные переписи считаются недостоверными) по оценке лингвистов[3]. В последнем случае перед ними стоит значок тильды (~).

Из индоевропейских языков в России представлены славянская, иранская, германская, армянская, греческая, индоарийская, романская, балтийская и албанская ветви. Всего: 40 живых языков и 1 книжный.