Корректура (2011)
"Значение первого байта - от 0xA1-0xF7 (161-247), а значение второго байта - от 0xA1-0xFE (161-254). Следовательно, как и UTF-8, можно проверить, есть ли byte является частью двухбайтовой конструкции при использовании EUC-CN. "
Эти два предложения не имеют для меня смысла. Как второе предложение следует из первого?
- Насколько я могу судить, это неверно. Невозможно проверить, является ли байт хвостом двухбайтовой конструкции, с UTF-8 это можно сделать, потому что хвостовой байт начинается с двоичного числа 10, а байт заголовка начинается с двоичного числа 11.
- « По сравнению с UTF-8, GB2312 (собственный или закодированный в EUC-CN) также более эффективен при хранении, поскольку китайские символы ограничены максимум двумя байтами каждый, в то время как UTF-8 использует не менее трех байтов ».
- Эта строка тоже неверна. UTF-8 содержит 2048 двухбайтовых последовательностей. Я пойду и исправлю статью. - Scandum ( разговор ) 00:20, 8 мая 2011 г. (UTC)
- Унифицированные иероглифы CJK (блок Unicode) имеют минимальную кодовую точку 4E00, что далеко за пределами двухбайтового диапазона UTF-8. Всегда учитывайте контекст: GB 2312 - это китайская кодировка. - Artoria 2e5 издает дерьмо 13:24, 29 сентября 2016 г. (UTC)
Внешние ссылки изменены
Привет, друзья Википедии,
Я только что модифицировал 2 внешние ссылки на ГБ 2312 . Пожалуйста, найдите время, чтобы просмотреть мою правку . Если у вас есть какие-либо вопросы или вам нужно, чтобы бот игнорировал ссылки или страницу в целом, посетите этот простой FAQ для получения дополнительной информации. Я внес следующие изменения:
- Добавлен архив https://web.archive.org/web/20160303230643/http://cs.nyu.edu/~yusuke/tools/unicode_to_gb2312_or_gbk_table.html на http://www.cs.nyu.edu/~yusuke/ инструменты / unicode_to_gb2312_or_gbk_table.html
- Исправлено форматирование / использование http://www.itscj.ipsj.or.jp/ISO-IR/058.pdf.
Когда вы закончите просмотр моих изменений, вы можете следовать инструкциям в шаблоне ниже, чтобы исправить любые проблемы с URL-адресами.
По состоянию на февраль 2018 г. разделы страницы обсуждения «Изменены внешние ссылки» больше не создаются и не отслеживаются InternetArchiveBot . В отношении этих уведомлений на странице обсуждения не требуется никаких специальных действий, кроме регулярной проверки с использованием приведенных ниже инструкций инструмента архивации. Редакторы имеют разрешение удалить эти разделы «Внешние ссылки изменены» на странице обсуждения, если они хотят убрать беспорядок на страницах обсуждения, но перед массовым систематическим удалением просматривают RfC . Это сообщение динамически обновляется с помощью шаблона (последнее обновление: 15 июля 2018 г.) .{{sourcecheck}}
- Если вы обнаружили URL-адреса, которые бот ошибочно считал мертвыми, вы можете сообщить о них с помощью этого инструмента .
- Если вы обнаружили ошибку в каких-либо архивах или самих URL-адресах, вы можете исправить их с помощью этого инструмента .
Ура. - InternetArchiveBot ( Сообщить об ошибке ) 12:18, 9 октября 2017 г. (UTC)
Проблемы преобразования EUC-CN
«Чтобы сопоставить кодовые точки с байтами, добавьте 158 (0x98) к номеру строки кодовой точки, чтобы сформировать старший байт, и добавьте 158 номер столбца кодовой точки, чтобы сформировать младший байт. Номер строки - это кодовая точка. целое число, деленное на 94, а в столбце - кодовая точка по модулю 94.
Например, если у вас есть кодовая точка 4566 GB2312 («外», что означает иностранный), старший байт будет 4566/94 + 158 = 206 = 0xCE, а младший байт будет иметь значение 4566% 94 + 158 = 212. = 0xD4. Итак, полная кодировка - 0xCED4 = 52948 ».
Этот раздел не кажется правильным. Приведенный пример кодовой точки 4566 (строка 45, столбец 66, см. Символ на https://archive.org/details/GB2312-1980/page/n17 ) преобразуется в EUC-CN путем добавления 160 (0xA0) в каждую строку. и значение столбца, что приводит к новому двухбайтовому значению 0xCDE2 (45 + 160 = 205 (0xCD), 66 + 160 = 226 (0xE2)). Текущее значение страницы 0xCED4 - это другой символ (卧), кодовая точка 4652, строка 46, столбец 52).
Оба этих значения (0xCDE2 и 0xCED4) и символы, которые они представляют, можно проверить, просмотрев таблицу преобразования Unicode в GB2312 по адресу https://web.archive.org/web/20160303230643/http://cs.nyu.edu/ ~ yusuke / tools / unicode_to_gb2312_or_gbk_table.html и просмотрев символы U + 5916 (外) и U + 5367 (卧) и увидев значения, перечисленные под каждым из них.
Кроме того, константы, указанные в текущем разделе как 158 и 0x98, имеют разные значения. 158 в десятичной системе счисления - это 0x9E, а 0x98 - это 152.
Также похоже, что до редактирования от 15 декабря 2016 года этот раздел был правильным. HalfCap ( разговор ) 23:29, 29 ноября 2018 (UTC)
Я пошел дальше и внес изменения на основе информации выше HalfCap ( обсуждение ) 14:39, 10 декабря 2018 г. (UTC)