КОИ ( КОИ ) - это семейство из нескольких кодовых страниц для кириллицы . Название расшифровывается как « Код обмена информацией» ( русский : Код Обмена Информацией ), что означает «Код обмена информацией».
Особенностью кодовых страниц KOI является то, что текст остается читаемым человеком, когда крайний левый бит удален, если он случайно пройдет через оборудование или программное обеспечение, которое может работать только с 7-битными символами. Это связано с тем, что символы размещены в особом порядке (128 кодовых точек, кроме латинской буквы, на которую они наиболее похожи), что, однако, не соответствует алфавитному порядку на любом языке, написанном на кириллице, и требует использования таблицы поиска для выполнения сортировки .
Эти кодировки получены из ASCII на основе некоторого соответствия между латиницей и кириллицей (почти фонетическим), которое уже использовалось в русском диалекте азбуки Морзе и в телеграфном коде МТК-2 . Первые 26 символов из А (0xE1) в KOI8-R: А, Б, Ц, Д, Е, Ф, Г, Х, И, Й, К, Л, М, Н, О, П, Я, Р, С, Т, У, Ж, В, Ь, Ы, З.
КОИ-7
Исходная кодировка KOI (1967) представляла собой 7-битную кодовую страницу с именем KOI-7 ( КОИ-7 ), которая не содержала строчных букв. В КОИ-7 коды 31 или 32 русских букв упорядочены по латинским буквам. Другие кодовые точки такие же, как в ASCII (однако знак доллара $ (кодовая точка 24 в шестнадцатеричном формате ) может быть заменен знаком универсальной валюты ¤).
КОИ-8
КОИ-8 (КОИ-8), стандартизированный в 1974 г. ГОСТ 19768, представляет собой 8-битное расширение ASCII . [1] [2] Изначально он включал только 32 строчные и 31 прописную русские буквы.
Более поздние производные от KOI-8 составляют семейство кодировок, известных как KOI8 , KOI 8 и KOI-8 .
Члены семьи:
- КОИ8-Б (с Ё ё и Ъ ) [1]
- KOI8-R / KOI8-RUSSIA для русского и болгарского языков (RFC 1489). [3]
- KOI8-U / KOI8-UKRAINE для украинского языка (RFC 2319). [3]
- KOI8-RU для украинского , белорусского и русского языков . [4] [5] [6] [7] [8]
- КОИ8-Т для таджикского . [9]
- KOI8-C , также KOI8-CA , предложение для Кавказа и Центральной Азии ; почти никогда не использовался. [10]
- ISO-IR-111 / KOI8-E [11] (ECMA-113 (1-е изд., 1986), [12] многоязычный для славянских языков).
- КОИ8-Ф , КОИ-8 Унифицированный. Включает выделение букв как из KOI8-U, так и из KOI8-E, с подмножеством псевдографических изображений из KOI8-R. [13] [14]
- КОИ8-К1 «Кириллица-1» (определена в ДНС 36 9103, СТ СЭВ 358-88)
- КОИ8-О (ранее КОИ8-С) для древнерусской орфографии . [15]
Кроме того, ГОСТ Р 34.303-92 определяет «KOI-8 V1», который соответствует ISO-IR-153 , и «KOI-8 N1» и «KOI-8 N2», которые являются вариантами кодовой страницы 866 . [16] Они не соответствуют компоновке KOI-8.
DKOI
DKOI - это кодировка на основе EBCDIC, используемая в мэйнфреймах ES EVM . Он определен несколькими стандартами: ГОСТ 19768-74 / СТ СЭВ 358-76, СТ СЭВ 358-88 / ГОСТ 19768-93, CSN 36 9103. [17]
Есть два варианта:
- ДКОИ К1 (ДКОИ К1) каждой букве кириллицы присваивается собственная кодовая точка.
- ДКОИ К2 (ДКОИ К1), некоторые буквы кириллицы (А, В, Е, К, М, Н, О, Р, С, Т, Х, а, е, о, р, с, у, х) объединены с визуально идентичные латинские буквы.
Латинские варианты
Некоторые кодировки называются KOI, но определяют латинские алфавиты:
- KOI8-CS [18] / KOI8-CS2 [17] для чешского и словацкого языков (ČSN (чешский технический стандарт) 369103, разработанный Comecon . В нем кодируется латынь с диакритическими знаками , как в чешском и словацком языках, а не кириллица, но основная идея была та же - текст должен оставаться разборчивым с очищенным 8-м битом, например, Č стал C и т. д.).
- KOI8-L2 "Latin-2" (определено в CSN 36 9103), ISO IR 139 [19] (почти идентично ISO 8859-2 (1987), но поменяны местами знак доллара и знак валюты)
- DKOI CS2 (определено в CSN 36 9103) [17]
- DKOI L2 (определено в CSN 36 9103) [17]
Рекомендации
- ^ a b Czyborra, Роман (1998-11-30) [1998-05-25]. «Суп с кириллической кодировкой» . Архивировано 3 декабря 2016 года . Проверено 3 декабря 2016 .
- ^ Флор, Гвидо; Чернов, Андрей А. (2016) [2006]. «Locale :: RecodeData :: KOI_8 - Процедуры преобразования для KOI-8» . CPAN libintl-perl . 1.0. Архивировано 15 января 2017 года . Проверено 15 января 2017 .
- ^ а б да Круз, Франк (2010-04-02). «Кермит и имена наборов символов MIME» . Проект Кермит . Колумбийский университет , Нью-Йорк, США. Архивировано 3 декабря 2016 года . Проверено 2 декабря 2016 .
- ↑ Юрий Демченко. Регистрация набора символов украинской кириллицы KOI8-RU (как расширение русских KOI8-R и ISO-IR-111) (Интернет-проект). 1997 г. (срок действия истек).
- ^ Флор, Гвидо (2016) [2006]. «Locale :: RecodeData :: KOI8_RU - Процедуры конвертации для KOI8-RU» . CPAN libintl-perl . Архивировано 15 января 2017 года . Проверено 15 января 2017 .
- ^ «Информация о кодовой странице SBCS - CPGID: 01167 / Название: Белорусский / Украинский KOI8-RU» . Программное обеспечение IBM: Глобализация: Наборы кодированных символов и связанные ресурсы: Кодовые страницы по CPGID: Идентификаторы кодовых страниц . IBM . СН 3-3220-050. Архивировано 18 февраля 2017 года . Проверено 18 февраля 2017 . [1] [2]
- ^ «Информационный документ CCSID; CCSID 1167; KOI8-RU» . IBM . Архивировано 18 февраля 2017 года . Проверено 18 февраля 2017 .
- ^ Лейшер, Марк (2008) [1999-12-20]. "Таблица преобразования белорусской / украинской кириллицы KOI8-RU в Unicode 2.1" . Департамент математических наук Государственного университета Нью-Мексико. Архивировано из оригинала на 2017-02-19 . Проверено 18 февраля 2017 .
- ^ Флор, Гвидо; Дэвис, Майкл (2016) [2006]. «Locale :: RecodeData :: KOI8_T - Процедуры преобразования для KOI8-T» . CPAN libintl-perl . Архивировано 15 января 2017 года . Проверено 15 января 2017 .
- ^ Обсуждение
- ^ «Наборы символов IANA» .
- ^ ECMA-113. Наборы 8-битных однобайтовых графических символов - латинский / кириллица (1-е изд., Июнь 1986 г.)
- ^ http://segfault.kiev.ua/cyrillic-encodings/
- ^ Лейшер, Марк (2008) [1998-03-05]. «Унифицированная таблица отображения KOI8 кириллицы в Unicode 2.1» . Департамент математических наук Государственного университета Нью-Мексико. Архивировано из оригинала на 2017-02-19 . Проверено 18 февраля 2017 .
- ^ Serge Winitzki. Расширенный набор символов кириллицы KOI8-C (Internet Draft). 2002 г. (срок действия истек).
- ^ (На русском языке ) ГОСТ Р 34.303-92. Наборы 8-битных кодированных символов. 8-битный код обмена и обработки информации. = 8-битные наборы символов. 8-битный код для обмена информацией.
- ^ а б в г Петрлик, Лукас (19.06.1996). «Объяснение путаницы в кодировке чешских и словацких символов» . cs-encodings-faq . 1.10. Архивировано 21 июня 2016 года . Проверено 21 июня 2016 .
- ^ «Архивная копия» . Архивировано из оригинала на 2011-03-21 . Проверено 19 апреля 2011 .CS1 maint: заархивированная копия как заголовок ( ссылка )
- ^ ISO-IR-139
дальнейшее чтение
- Корнаи, Андрас; Бирнбаум, Дэвид Дж .; да Круз, Франк; Дэвис, Бур; Фаулер, Джордж; Пейн, Ричард Б .; Паперно, Слава; Simonsen, Keld J .; Thobe, Glenn E .; Вулис, Дмитрий; ван Винген, Йохан В. (13 марта 1993 г.). «FAQ по КИРИЛИЧЕСКОМУ КОДИРОВАНИЮ Версия 1.3» . 1.3 . Проверено 18 февраля 2017 .
- "Kodierungen und Zeichensätze" [Кодировки и наборы символов]. Robotron Technik (Виртуальный компьютерный музей) (на немецком языке). 2016-11-29. Код ASCII / Код KOI . Проверено 21 февраля 2017 .
Внешние ссылки
- «Дом КОИ8-Р с 1995 года» . Проверено 5 декабря 2016 .
- Хохлов, Ю. E. «Представление кириллической информации в электронном виде - таблицы кодовых страниц» . Архивировано 5 декабря 2016 года . Проверено 5 декабря 2016 .
- Нечаев, Валентин (2013) [2001]. «Обзор вселенной 8-битных кодировок кириллицы» . Архивировано 5 декабря 2016 года . Проверено 5 декабря 2016 .