Из Википедии, бесплатной энциклопедии
Перейти к навигации Перейти к поиску

ISO 639-3: 2007 , Коды для представления названий языков - Часть 3: Код Alpha-3 для всестороннего охвата языков , является международным стандартом для кодов языков в серии ISO 639 . Он определяет трехбуквенные коды для идентификации языков. Стандарт был опубликован Международной организацией по стандартизации (ISO) 1 февраля 2007 г. [1]

ISO 639-3 расширяет коды ISO 639-2 alpha-3 с целью охвата всех известных естественных языков . Расширенный языковой охват был основан в первую очередь на языковых кодах, используемых в Ethnologue (тома 10-14), опубликованном SIL International , которая в настоящее время является органом регистрации ISO 639-3. [2] Он обеспечивает максимально полное перечисление языков, включая живые и вымершие, древние и искусственно созданные, основные и второстепенные, письменные и ненаписанные. [1] Однако он не включает реконструированные языки, такие как протоиндоевропейский . [3]

ISO 639-3 предназначен для использования в качестве кодов метаданных в широком диапазоне приложений. Он широко используется в компьютерных и информационных системах, таких как Интернет, в которых требуется поддержка многих языков. В архивах и других хранилищах информации он используется в системах каталогизации, указывая, на каком языке находится ресурс. Коды также часто используются в лингвистической литературе и в других местах, чтобы компенсировать тот факт, что названия языков могут быть неясными или двусмысленными.

Коды языков [ править ]

ISO 639-3 включает все языки в ISO 639-1 и все отдельные языки в ISO 639-2 . ISO 639-1 и ISO 639-2 ориентированы на основные языки, наиболее часто представленные в общем объеме мировой литературы. Поскольку ISO 639-2 также включает языковые коллекции, а Часть 3 - нет, ISO 639-3 не является расширенным набором ISO 639-2. Там, где коды B и T существуют в ISO 639-2, ISO 639-3 использует T-коды.

По состоянию на 30 января 2020 года стандарт содержит 7868 записей. [6] Перечень языков основан на ряде источников, включая: отдельные языки, содержащиеся в 639-2, современные языки из Ethnologue , исторические разновидности, древние языки и искусственные языки из Списка лингвистов , [7] а также языки, рекомендованные в течение ежегодного периода общественного обсуждения.

Машиночитаемые файлы данных предоставляются регистрирующим органом. [6] Сопоставления из ISO 639-1 или ISO 639-2 в ISO 639-3 могут быть выполнены с использованием этих файлов данных.

ИСО 639-3 предполагает различия, основанные на критериях, которые не являются полностью субъективными. [8] Он не предназначен для документирования или предоставления идентификаторов диалектов или других разновидностей подязыков. [9] Тем не менее, суждения относительно различий между языками могут быть субъективными, особенно в случае языковых разновидностей без устоявшихся литературных традиций, использования в образовании или СМИ или других факторов, которые способствуют стандартизации языка. Следовательно, стандарт не следует рассматривать как авторитетное заявление о том, какие различные языки существуют в мире (в отношении чего могут быть существенные разногласия в некоторых случаях), а скорее как один полезный способ точного определения различных языковых разновидностей.

Пространство кода [ править ]

Поскольку код состоит из трех букв алфавита, верхняя граница количества языков, которые могут быть представлены, составляет 26 × 26 × 26 = 17 576. Поскольку ISO 639-2 определяет специальные коды (4), зарезервированный диапазон (520) и коды B-only (22), 546 кодов не могут использоваться в части 3. Следовательно, более строгая верхняя граница составляет 17 576 - 546 = 17 030.

Верхняя граница становится еще более строгой, если вычесть языковые коллекции, определенные в 639-2, и те, которые еще не определены в ISO 639-5 .

Макроязыки [ править ]

В ISO 639-2 есть 58 языков, которые для целей стандарта считаются «макроязыками» в ISO 639-3. [10]

У некоторых из этих макроязыков не было отдельного языка, как это определено ISO 639-3 в кодовом наборе ISO 639-2, например, «ara» (общий арабский). У других, таких как «nor» (норвежский), две отдельные части («nno» ( нюнорск ), «nob» ( букмол )) уже были в ISO 639-2.

Это означает, что некоторые языки (например, «arb», стандартный арабский язык), которые считались ISO 639-2 диалектами одного языка («ara»), теперь включены в ISO 639-3 в определенных контекстах, которые сами считаются отдельными языками.

Это попытка иметь дело с разновидностями, которые могут лингвистически отличаться друг от друга, но рассматриваются их носителями как две формы одного и того же языка, например, в случаях диглоссии .

Например:

  • http://www-01.sil.org/iso639-3/documentation.asp?id=ara (Общий арабский язык, 639-2)
  • http://www-01.sil.org/iso639-3/documentation.asp?id=arb (стандартный арабский, 639-3)

Полный список см. В [11] .

Коллективные языки [ править ]

«Элемент коллективного языкового кода - это идентификатор, который представляет группу отдельных языков, которые не считаются одним языком в любом контексте использования». [12] Эти коды неточно представляют конкретный язык или макроязык.

Хотя ISO 639-2 включает трехбуквенные идентификаторы для собирательных языков, эти коды исключены из ISO 639-3. Следовательно, ISO 639-3 не является расширением ISO 639-2.

ISO 639-5 определяет трехбуквенные коллективные коды для языковых семей и групп, включая коллективные коды языков из ISO 639-2.

Специальные коды [ править ]

В ISO 639-2 и ISO 639-3 выделено четыре кода для случаев, когда ни один из конкретных кодов не подходит. Они предназначены в первую очередь для таких приложений, как базы данных, где требуется код ISO независимо от того, существует ли он.

  • mis (некодированные языки, первоначально сокращение от «разное») предназначен для языков, которые (пока) не были включены в стандарт ISO.
  • mul (несколько языков) предназначен для случаев, когда данные включают более одного языка, и (например) для базы данных требуется один код ISO.
  • und(неопределенный) предназначен для случаев, когда язык в данных не был идентифицирован, например, когда он неправильно маркирован или никогда не был маркирован. Он не предназначен для таких случаев, как троян, когда неизвестному языку было присвоено имя.
  • zxx(без лингвистического содержания / неприменимо) предназначен для данных, которые вообще не являются языком, таких как крики животных. [13]

Кроме того, 520 кодов в диапазоне qaa- qtz«зарезервированы для местного использования». Например, Ребекка Беттенкур назначает код сконструированным языкам , а новые назначения выполняются по запросу. [14] Список Лингвист использует их для вымерших языков . Linguist List присвоил одному из них общее значение: qnpбезымянный протоязык. Это используется для предлагаемых промежуточных узлов в генеалогическом дереве, у которых нет имени.

Процессы обслуживания [ править ]

Кодовая таблица ISO 639-3 открыта для изменений. В целях защиты стабильности существующего использования разрешенные изменения ограничиваются: [15]

  • изменения справочной информации для записи (включая имена или категоризации для типа и области действия),
  • добавление новых записей,
  • отказ от повторяющихся или поддельных записей,
  • объединение одной или нескольких записей с другой записью, и
  • разделение существующей языковой записи на несколько новых языковых записей.

Код, присвоенный языку, не изменяется, если также не изменяется обозначение. [16]

Изменения вносятся в годовой цикл. Каждому запросу дается минимум три месяца для публичного рассмотрения.

На веб-сайте ISO 639-3 есть страницы, описывающие «области обозначения» [17] ( языковые типы) и типы языков [18], которые объясняют, какие концепции входят в область применения кодирования и определенные критерии, которые необходимо соблюдать. Например, сконструированные языки можно кодировать, но только если они предназначены для человеческого общения и имеют массу литературы, предотвращающей запросы на идиосинкразические изобретения.

Регистрирующий орган документирует на своем веб-сайте инструкции, содержащиеся в тексте стандарта ISO 639-3, относительно того, как должны поддерживаться кодовые таблицы. [19] Он также документирует процессы, используемые для получения и обработки запросов на изменение. [20]

Предоставляется форма запроса на изменение и вторая форма для сбора информации о предлагаемых дополнениях. Любая сторона может подавать запросы на изменение. После подачи заявки сначала проверяются регистрирующим органом на полноту.

Когда получен полностью задокументированный запрос, он добавляется в опубликованный индекс запросов на изменение. Кроме того, объявления отправляются в общий список обсуждения LINGUIST в Linguist List и другие списки, которые регистрирующий орган может счесть уместными, с приглашением на общественное рассмотрение и внесение предложений по запрошенному изменению. Любой владелец списка или физическое лицо может запрашивать уведомления о запросах на изменение для определенных регионов или языковых семей. Полученные комментарии публикуются для просмотра другими сторонами. На основе консенсуса в полученных комментариях запрос на изменение может быть отозван или повышен до «статуса кандидата».

За три месяца до окончания годового цикла проверки (обычно в сентябре) в список обсуждения LINGUIST и другие списки вносится объявление о запросах на изменение статуса кандидата. Все запросы остаются открытыми для рассмотрения и комментариев до конца годового цикла обзора.

Решения объявляются в конце годового цикла обзора (обычно в январе). В это время запросы могут быть приняты полностью или частично, изменены и перенесены в следующий цикл проверки или отклонены. Отклонения часто включают предложения о том, как изменить предложения для повторной подачи. Публичный архив каждого запроса на изменение поддерживается вместе с принятыми решениями и их обоснованием. [21]

Критика [ править ]

Лингвисты Мори, Пост и Фридман неоднократно критиковали ISO 639, в частности ISO 639-3: [16]

  • Сами по себе трехбуквенные коды проблематичны, потому что, хотя они официально являются произвольными техническими обозначениями, они часто являются производными от мнемонических сокращений названий языков, некоторые из которых носят уничижительный характер. Например, Йемсе был присвоен код jnjот уничижительного «Janejero». Таким образом, носители языка могут посчитать эти коды оскорбительными, но коды в стандарте, однажды назначенные, не могут быть изменены.
  • Применение стандарта проблематично, потому что SIL - это миссионерская организация с недостаточной прозрачностью и подотчетностью. Решения относительно того, что следует закодировать как язык, принимаются внутри компании. Хотя сторонний вклад может приветствоваться, а может и не приветствоваться, сами решения непрозрачны, и многие лингвисты отказались от попыток улучшить стандарт.
  • Постоянная идентификация языка несовместима с изменением языка.
  • Языки и диалекты часто невозможно строго разделить, а диалектные континуумы можно подразделить по-разному, тогда как стандарт дает преимущество только одному выбору. Вместо этого такие различия часто основываются на социальных и политических факторах.
  • ИСО 639-3 может быть неправильно понят и неправильно использован властями, которые принимают решения относительно идентичности и языка людей, отменяя право говорящих идентифицировать или отождествлять себя с разнообразием своей речи. Хотя SIL чувствителен к таким вопросам, эта проблема присуща природе установленного стандарта, который может использоваться (или использоваться неправильно) способами, не предназначенными для ISO и SIL.

Мартин Хаспелмат согласен с четырьмя из этих пунктов, но не с вопросом об изменении языка. [22] Он не согласен, потому что любое описание языка требует его идентификации, и мы можем легко идентифицировать различные стадии языка. Он предполагает, что лингвисты могут предпочесть использовать кодификацию, сделанную на лангоиде.уровень, поскольку «для лингвистов редко имеет значение, является ли то, о чем они говорят, языком, диалектом или сплоченной семьей языков». Он также сомневается, уместен ли стандарт ISO для идентификации языка, поскольку ISO является промышленной организацией, в то время как он рассматривает языковую документацию и номенклатуру как научное направление. Он ссылается на первоначальную потребность в стандартизованных языковых идентификаторах как на «экономическое значение перевода и локализации программного обеспечения », для чего были установлены стандарты ISO 639-1 и 639-2. Но он сомневается в потребности отрасли во всеобъемлющем покрытии, обеспечиваемом стандартом ISO 639-3, в том числе в том, что " малоизвестные языки небольших сообществ, которые никогда или почти не используются в письменной форме и которые часто находятся под угрозой исчезновения ".

Использование [ править ]

  • Этнолог
  • Список лингвистов
  • OLAC : сообщество архивов открытых языков [23]
  • Microsoft Windows 8 : [24] Поддерживает все коды ISO 639-3 на момент выпуска.
  • Фонд Викимедиа: новые языковые проекты (например, Википедии на новых языках) должны иметь идентификатор из ISO 639-1, -2 или -3. [25]
  • Другие стандарты, основанные на ISO 639-3:
    • Языковые теги, определенные Инженерной группой Интернета (IETF) , как описано в:
      • BCP 47: Best Current Practice 47 , [26], который включает RFC 5646
      • RFC 5646 , который заменил RFC 4646 , который заменил RFC 3066 . (Следовательно, все стандарты, которые зависят от любого из этих трех стандартов IETF, теперь используют ISO 639-3.)
    • Стандарт ePub 3.0 для языковых метаданных [27] использует элементы метаданных Dublin Core. Эти элементы метаданных языка в ePub должны содержать действительные коды RFC 5646 для языков. [27] RFC5646 указывает на ISO 639-3 для языков без более коротких кодов IANA.
    • Dublin Core Metadata Initiative : DCMI Metadata Term [28] для языка через RFC 4646 IETF (теперь заменен RFC 5646 ).
    • Internet Assigned Numbers Authority (IANA) W3C рекомендует использовать реестр языковых вложенных тегов IANA для выбора кодов языков. [29] Реестр языковых подтэгов IANA [30] зависит от кодов ISO 639-3 для языков, которые ранее не имели кодов в других частях стандарта ISO 639.
    • HTML5: [31] через IETF BCP 47.
    • Коды библиотеки MARC .
    • Коды библиотеки MODS : [32] Включает RFC 3066 IETF (теперь замененный RFC 5646 ).
    • Инициатива кодирования текста (TEI): [33] через BCP 47 IETF.
    • Lexical Markup Framework : спецификация ISO для представления машиночитаемых словарей.
    • Unicode «s Общие локаль хранилище данных : Использует несколько сотен кодов из ISO 639-3 не включены в ISO 639-2.

Ссылки [ править ]

  1. ^ a b «Статус и реферат ISO 639-3» . iso.org. 2010-07-20 . Проверено 14 июня 2012 .
  2. ^ «Службы технического обслуживания и регистрационные органы» . ISO.
  3. ^ «Типы отдельных языков - Древние языки» . sil.org . Проверено 11 июня 2018 .
  4. ^ Ethnologue отчет по ISO 639 Код: Жо В архиве 2014-09-12 в Wayback Machine на ethnologue.com
  5. ^ ISO639-3 на SIL.org
  6. ^ a b «Кодовый набор ISO 639-3» . Sil.org. 2007-10-18 . Проверено 14 июня 2012 .
  7. ^ «ISO 639-3» . sil.org.
  8. ^ «Объем обозначения: отдельные языки» . sil.org.
  9. ^ «Объем обозначения: диалекты» . sil.org.
  10. ^ «Объем обозначения: макроязыки» . sil.org . Проверено 14 июня 2012 .
  11. ^ «Макроязыковые сопоставления» . sil.org . Проверено 14 июня 2012 .
  12. ^ «Объем обозначения: Коллективные языки» . sil.org . Проверено 14 июня 2012 .
  13. ^ Полевые записи верветка вызовов . Запись в каталоге Консорциума лингвистических данных . Проверено 4 сентября 2012.
  14. ^ Беттанкур, Ребекка. «Реестр кода ConLang» . KreativeKorp . Проверено 12 марта 2021 .
  15. ^ «Подача запросов на изменение ISO 639-3: типы изменений» . sil.org.
  16. ^ a b Мори, Стивен; Пост, Марк В .; Фридман, Виктор А. (2013). Коды языков ISO 639: преждевременная, в конечном итоге недостижимая и, возможно, вредная стандартизация . Конференция PARADISEC RRR. Архивировано из оригинала на 2016-02-23 . Проверено 3 ноября 2015 .
  17. ^ «Объем обозначения языковых идентификаторов» . sil.org.
  18. ^ «Типы языков» . sil.org.
  19. ^ «ISO 639-3 Управление изменениями» . sil.org.
  20. ^ «Отправка запросов на изменение ISO 639-3» . sil.org.
  21. ^ «Индекс запроса на изменение ISO 639-3» . sil.org.
  22. ^ Мартин Хаспельмат, «Можно ли стандартизировать языковую идентичность? О критике ISO 639-3 Мори и др.» , Комментарий по лингвистике разнообразия , 2013/12/04
  23. ^ «Расширение языка OLAC» . language-archives.org . Дата обращения 3 августа 2015 .
  24. ^ «Более 7000 языков, всего 1 Windows» . Microsoft. 2014-02-05.
  25. ^ «Политика языковых предложений» . wikimedia.org . Дата обращения 3 августа 2015 .
  26. ^ «BCP 47 - Теги для идентификации языков» . ietf.org . Дата обращения 3 августа 2015 .
  27. ^ a b «Публикации EPUB 3.0» . idpf.org . Дата обращения 3 августа 2015 .
  28. ^ «Условия метаданных DCMI» . purl.org . Дата обращения 3 августа 2015 .
  29. ^ «Двухбуквенные или трехбуквенные коды языков ISO» . w3.org . Дата обращения 3 августа 2015 .
  30. ^ «Реестр языков» . Iana.org . Проверено 12 августа 2015 .
  31. ^ «3 Семантика, структура и API документов HTML - HTML5» . w3.org . Дата обращения 3 августа 2015 .
  32. ^ «Элементы - Руководство пользователя MODS: Схема описания объекта метаданных: MODS (Библиотека Конгресса)» . loc.gov . Дата обращения 3 августа 2015 .
  33. ^ "Язык элементов TEI" . tei-c.org . Дата обращения 3 августа 2015 .

Дальнейшее чтение [ править ]

  • Аристар, Энтони (2006). «Стандартизированные языковые коды ISO и этнолог» (PDF) . Бюллетень SSILA . 247 . Архивировано из оригинального (PDF) 20 мая 2014 года.
  • Добрин, Лиза М .; Хорошо, Джефф (2009). «Практическое развитие языка: чья миссия?» (PDF) . Язык . 85 (3): 619–629. DOI : 10.1353 / lan.0.0152 .
  • Эппс, Терпение (2006). «Против принятия языковых кодов Ethnologue для ISO 639-3» (PDF) . Бюллетень SSILA . 246 . Архивировано из оригинального (PDF) 20 мая 2014 года.
  • Голла, Виктор, изд. (2006). «Заявление SSILA о кодах языков ISO 639-3» (PDF) . Бюллетень SSILA . 249 . Архивировано из оригинального (PDF) 20 мая 2014 года.
  • Хорошо, Джефф; Cysouw, Майкл (2013). «Лангоид, документ и глоссоним: формализация понятия« язык » ». Языковая документация и сохранение . 7 : 331–359. ЛВП : 10125/4606 .

Внешние ссылки [ править ]

  • Орган регистрации ISO 639-3
  • FAQ в США Библиотеки Конгресса сайта
  • Ожидающие рассмотрения приложения ISO 639-3
  • Список лингвистов - Список древних и вымерших языков
  • объяснение Håvard Hjulstad