Рабочий документ Интернет Автор:Сергей Шариков draft-cyrlinc-idn-reg-00.txt CyrLINC 25 мая 2003 г. Редакторы: Срок действия истекает через 6 месяцев Рекомендуемый статус: Текущая практика Руководство по регистрации и администрированию многоязычных доменных имен на русском, украинском, болгарском и белорусском языках Статус данного документа Этот документ является Рабочим документом Интернет (Internet-Draft) и полностью соответствует требованиям главы 10 RFC2026, за исключением того, что он не дает права на проведение производных работ. Internet-Draft - это рабочий документ IETF, различных комитетов и рабочих групп IETF. Отметим, что другие группы могут также распространять свои рабочие документы, как Internet-Drafts. Рабочие документы представляют собой предварительные версии стандартов, срок действия которых ограничен 6 месяцами; эти документы могут быть обновлены, заменены или обновлены в любой момент другими документами. Допускается использование рабочих документов в качестве справочных материалов, а также их цитирование с пометкой "работа не завершена" (work in progress). Текущий список рабочих документов Internet-Drafts можно загрузить, пользуясь ссылкой http://www.ietf.org/ietf/1id-abstracts.txt . Список "зеркал" рабочих документов Internet-Drafts можно загрузить, пользуясь ссылкой http://www.ietf.org/shadow.html. Краткое описание документа. Данный документ является руководством для Администраторов зон и Регистраторов по регистрации многоязычных доменов на русском, украинском, болгарском и белорусском языках. Перед регистрацией домена в зоне, Администратор зоны должен знать, какие кодовые единицы из набора [UNICODE] могут быть использованы в данной зоне. Также, администратор зоны должен знать, какие кодовые комбинации вызывают регистрацию множества эквивалентных доменных имен. Используя таблицы и алгоритмы, описанные в данном руководстве, Администратор зоны может безопасно регистрировать доменные имена. 1. Введение Алфавит современного русского языка включает в себя 33 буквы (А,Б,В,Г,Д,Е,Ё,Ж,З,И,Й,К,Л,М,Н,О,П,Р,С,Т,У,Ф,Х,Ц,Ч,Ш,Щ,Ь,Ы,Ъ,Э,Ю,Я) ,которые описываются набором из 66 единиц Unicode: U+0401, U+0411-U+042F (33 буквы верхнего регистра), U+0451, U+0430-U+044F (33 буквы верхнего регистра). В украинском алфавите 32 буквы (не используются буквы Ё (U+0401), Ъ (U+042A), Ы (U+042B), Э (U+042D) из русского алфавита, но добавлены буквы І (U+0406), Ї (U+0407), Є(U+0404). 30 букв болгарского алфавита полностью перекрываются русским, за исключением Ё(U+0401), Ы(U+042B), Э(U+042D). В белорусском алфавите, в дополнение к русскому используются буквы І (U+0406) и Ў (U+040E), но не используются И(U+0418), Ы(U+042B), Ъ(U+042A) Для жителей России, Украины, Болгарии и Белоруссии, использующих Кириллицу для написания на родных языках характерно использование также и латинских символов. Стандартные клавиатуры, используемая в этих странах, содержит два набора символов – кириллицу и латиницу. Поэтому, некоторые регистратуры могли бы использовать также и латинский набор символов для регистрации доменов в своих зонах. В документе [FRAMEWORK] рассматривается технология для регистрации многоязычных доменов, имеющая целью предотвратить мошенничество, киберсквоттинг и путаницу, связанные с использованием одинаковых или сходных по начертанию символов из различных языковых наборов. Суть технологии заключается : 1. В разрешении использования ограниченного набора символов для регистрации доменов в зоне. 2. В случае использования символов из нескольких языков, символы с одинаковым начертанием приводятся к одному – базовому. Например, попытка регистрации в русскоязычной зоне .ру домена yandex.ру (все буквы в слове yandex- латинские) приведет также и к регистрации домена yandех.ру, где только две буквы "n" и "d" – латинские, а буквы "у", "а", "е", "х" - русские. С учетом того, что 8 кириллических букв на нижнем регистре (а(U+0430), е(U+0435), к(U+043A), о(U+043E), р(U+0440), с(U+0441), у(U+0443), х(U+0445)) полностью совпадают по начертанию с латинскими символами a(U+0061), e(U+0065), k(U+006B), o(U+006F), p(U+0070), c(U+0063), y(U+0079), x(U+0078), применение данной технологии для регистрации многоязычных доменов на кириллических языках, является целесообразным. 1.1 Термины "Метка" - строка символов, обозначающая имя многоязычного домена. "Базовый символ" - символ, который имеет один или более эквивалентов из других языковых наборов. "Вариант(ы)" - символ(ы), эквивалентные базовому символу. "Регистрационный пакет" - набор всех меток, которые получаются путем использования всех "вариантов" для отображения всех "базовых символов" входной "метки". "Регистратура" – правительство для зоны DNS. Это означает, что регистратура является субъектом, определяющем политику использования зоны DNS. 2. Языковые таблицы. Стратегия регистрации, описанная в этом документе использует таблицы базовых символов, разрешенных для ввода и любые варианты этих символов. 2.1. Таблицы для зон, использующих имена только на одном языке. В этих таблицах не имеется вариантов, и перечислены только символы из используемых алфавитов, цифры и дефис . 2.2. Таблица для общих зон, использующих все четыре кириллических языка. В этой таблице не имеется вариантов и перечислены буквы кириллицы, перекрывающих все языки, цифры и дефис . 2.3. Таблицы для зон, использующих латинский набор символов. В этих таблицах добавлен набор латинских символов и имеются варианты для перекрывающихся латинских символов a,e,k,o,p,c,y,x. 3. Правила обработки таблиц На вход в программу обработки поступает "входная метка". Выходом является или отказ (входная метка не может быть зарегистрирована) или "регистрационный пакет", который содержит одну или более меток, предназначенных для дальнейшей обработки (перевод в ASCII согласно [IDNA]) 4. Формат таблицы Каждый символ в таблице дан в "U+" нотации для символов Unicode. Порядок строк в таблице не имеет значения. Каждая строка таблицы начинается с символа, который допустим для регистрации. Если символ имеет варианты, после него следует вертикальная черта ("|"), затем вариант. Если символ имеет более одного варианта, они отделяются друг от друга двоеточием (":"). Например, предположим, что регистратура: Позволяет использовать Э (U+042D) без вариантов Позволяет использовать А (U+0410) с одним вариантом- латинская A (U+0041) Gозволяет использовать Е (U+0415) с двумя вариантами: латинская Е (U+0045) и кириллическая Ё (U+0401) Таблица будет иметь следующий вид: U+042D U+0410|U+0041 U+0415|U+0045:U+0401 5. Шаги после регистрации входной метки. В случае, когда регистрационный пакет состоит из более, чем одной метки, Регистратура имеет три возможных пути управления регистрацией. 1) Назначить все метки тому же регистранту, сделав для них записи в зоне, идентичные входной метке. 2) Блокировать все метки, чтобы они не могли быть зарегистрированы в будущем. 3) Назначить некоторые метки и заблокировать остальные. Первый путь обеспечивает более простой поиск имени с вариантами, но приводит к увеличению файла зоны. Второй путь не увеличивает файл зоны, но затрудняет доступ к имени с вариантами. Третий путь имеет недостатки первых двух и сложен в реализации. В любом из трех случаев, Регистратура должна иметь базу данных, связывающую каждую метку из регистрационного пакета с входной меткой 6.Ссылки [IDNA] RFC 3490. Internationalizing Domain Names in Applications. http://www.ietf.org/rfc/rfc3490.txt [FRAMEWORK] Framework for Registering Internationalized Domain Names draft-hoffman-idn-reg-00.txt 25 марта 2003 Paul Hoffman. http://www.ietf.org/internet-drafts/draft-hoffman-idn-reg-00.txt [UNICODE] The Unicode Consortium. The Unicode Standard, Version 3.2.0 is defined by The Unicode Standard, Version 3.0 (Reading, MA, Addison-Wesley, 2000. ISBN 0-201-61633-5), as amended by the Unicode Standard Annex #27: Unicode 3.1 (http://www.unicode.org/reports/tr27/) and by the Unicode Standard Annex #28: Unicode 3.2 (http://www.unicode.org/reports/tr28/). 7. Адрес автора Сергей Шариков, Консорциум Кириллических Имен Интернет Ул.1812 года, 2/1 Москва, 121170 Россия, s.shar@regtime.net Приложение. I. Таблица для зон, использующих только русский алфавит. U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0411 U+0412 U+0413 U+0414 U+0415 U+0401 U+0416 U+0417 U+0418 U+0419 U+041A U+041B U+041C U+041D U+041E U+041F U+0420 U+0421 U+0422 U+0423 U+0424 U+0425 U+0426 U+0427 U+0428 U+0429 U+042A U+042B U+042C U+042D U+042E U+042F U+0430 U+0431 U+0432 U+0433 U+0434 U+0435 U+0451 U+0436 U+0437 U+0438 U+0439 U+043A U+043B U+043C U+043D U+043E U+043F U+0440 U+0441 U+0442 U+0443 U+0444 U+0445 U+0446 U+0447 U+0448 U+0449 U+044A U+044B U+044C U+044D U+044E U+044F II. Таблица для зон, использующих русский и латинский алфавит U+0042 U+0044 U+0046 U+0047 U+0048 U+0049 U+004A U+004C U+004D U+004E U+0051 U+0052 U+0053 U+0054 U+0055 U+0056 U+0057 U+005A U+0062 U+0064 U+0066 U+0067 U+0068 U+0069 U+006A U+006C U+006D U+006E U+0071 U+0072 U+0073 U+0074 U+0075 U+0076 U+0077 U+007A U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0041 U+0411 U+0412 U+0413 U+0414 U+0415 U+0045 U+0401 U+0416 U+0417 U+0418 U+0419 U+041A U+004B U+041B U+041C U+041D U+041E U+004F U+041F U+0420 U+0050 U+0421 U+0043 U+0422 U+0423 U+0059 U+0424 U+0425 U+0058 U+0426 U+0427 U+0428 U+0429 U+042A U+042B U+042C U+042D U+042E U+042F U+0430 U+0061 U+0431 U+0432 U+0433 U+0434 U+0435 U+0065 U+0451 U+0436 U+0437 U+0438 U+0439 U+043A U+006B U+043B U+043C U+043D U+043E U+006F U+043F U+0440 U+0070 U+0441 U+0063 U+0442 U+0443 U+0079 U+0444 U+0445 U+0078 U+0446 U+0447 U+0448 U+0449 U+044A U+044B U+044C U+044D U+044E U+044F III. Таблица для зон, использующих только украинский алфавит U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0411 U+0412 U+0413 U+0414 U+0415 U+0416 U+0417 U+0418 U+0419 U+041A U+041B U+041C U+041D U+041E U+041F U+0420 U+0421 U+0422 U+0423 U+0424 U+0425 U+0426 U+0427 U+0428 U+0429 U+042C U+042E U+042F U+0430 U+0431 U+0432 U+0433 U+0434 U+0435 U+0436 U+0437 U+0438 U+0439 U+043A U+043B U+043C U+043D U+043E U+043F U+0440 U+0441 U+0442 U+0443 U+0444 U+0445 U+0446 U+0447 U+0448 U+0449 U+044C U+044E U+044F U+0406 U+0407 U+0404 U+0456 U+0457 U+0454 IV. Таблица для зон, использующих украинский и латинский алфавит U+0042 U+0044 U+0046 U+0047 U+0048 U+0049 U+004A U+004C U+004D U+004E U+0051 U+0052 U+0053 U+0054 U+0055 U+0056 U+0057 U+005A U+0062 U+0064 U+0066 U+0067 U+0068 U+0069 U+006A U+006C U+006D U+006E U+0071 U+0072 U+0073 U+0074 U+0075 U+0076 U+0077 U+007A U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0041 U+0411 U+0412 U+0413 U+0414 U+0415 U+0045 U+0416 U+0417 U+0418 U+0419 U+041A U+004B U+041B U+041C U+041D U+041E U+004F U+041F U+0420 U+0050 U+0421 U+0043 U+0422 U+0423 U+0059 U+0424 U+0425 U+0058 U+0426 U+0427 U+0428 U+0429 U+042C U+042E U+042F U+0430 U+0061 U+0431 U+0432 U+0433 U+0434 U+0435 U+0065 U+0436 U+0437 U+0438 U+0439 U+043A U+006B U+043B U+043C U+043D U+043E U+006F U+043F U+0440 U+0070 U+0441 U+0063 U+0442 U+0443 U+0079 U+0444 U+0445 U+0078 U+0446 U+0447 U+0448 U+0449 U+044C U+044E U+044F U+0406 U+0407 U+0404 U+0456 U+0457 U+0454 V. Таблица для зон, использующих только болгарский алфавит. U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0411 U+0412 U+0413 U+0414 U+0415 U+0416 U+0417 U+0418 U+0419 U+041A U+041B U+041C U+041D U+041E U+041F U+0420 U+0421 U+0422 U+0423 U+0424 U+0425 U+0426 U+0427 U+0428 U+0429 U+042A U+042C U+042E U+042F U+0430 U+0431 U+0432 U+0433 U+0434 U+0435 U+0436 U+0437 U+0438 U+0439 U+043A U+043B U+043C U+043D U+043E U+043F U+0440 U+0441 U+0442 U+0443 U+0444 U+0445 U+0446 U+0447 U+0448 U+0449 U+044A U+044C U+044E U+044F VI. Таблица для зон, использующих болгарский и латинский алфавит U+0042 U+0044 U+0046 U+0047 U+0048 U+0049 U+004A U+004C U+004D U+004E U+0051 U+0052 U+0053 U+0054 U+0055 U+0056 U+0057 U+005A U+0062 U+0064 U+0066 U+0067 U+0068 U+0069 U+006A U+006C U+006D U+006E U+0071 U+0072 U+0073 U+0074 U+0075 U+0076 U+0077 U+007A U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0041 U+0411 U+0412 U+0413 U+0414 U+0415 U+0045 U+0416 U+0417 U+0418 U+0419 U+041A U+004B U+041B U+041C U+041D U+041E U+004F U+041F U+0420 U+0050 U+0421 U+0043 U+0422 U+0423 U+0059 U+0424 U+0425 U+0058 U+0426 U+0427 U+0428 U+0429 U+042A U+042C U+042E U+042F U+0430 U+0061 U+0431 U+0432 U+0433 U+0434 U+0435 U+0065 U+0436 U+0437 U+0438 U+0439 U+043A U+006B U+043B U+043C U+043D U+043E U+006F U+043F U+0440 U+0070 U+0441 U+0063 U+0442 U+0443 U+0079 U+0444 U+0445 U+0078 U+0446 U+0447 U+0448 U+0449 U+044A U+044C U+044E U+044F VII. Таблица для зон, использующих только белорусский алфавит. U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0411 U+0412 U+0413 U+0414 U+0415 U+0401 U+0416 U+0417 U+0419 U+041A U+041B U+041C U+041D U+041E U+041F U+0420 U+0421 U+0422 U+0423 U+0424 U+0425 U+0426 U+0427 U+0428 U+0429 U+042C U+042D U+042E U+042F U+0430 U+0431 U+0432 U+0433 U+0434 U+0435 U+0451 U+0436 U+0437 U+0439 U+043A U+043B U+043C U+043D U+043E U+043F U+0440 U+0441 U+0442 U+0443 U+0444 U+0445 U+0446 U+0447 U+0448 U+0449 U+044C U+044D U+044E U+044F U+0406 U+040E U+0456 U+045E VIII. Таблица для зон, использующих белорусский и латинский алфавит U+0042 U+0044 U+0046 U+0047 U+0048 U+0049 U+004A U+004C U+004D U+004E U+0051 U+0052 U+0053 U+0054 U+0055 U+0056 U+0057 U+005A U+0062 U+0064 U+0066 U+0067 U+0068 U+0069 U+006A U+006C U+006D U+006E U+0071 U+0072 U+0073 U+0074 U+0075 U+0076 U+0077 U+007A U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0041 U+0411 U+0412 U+0413 U+0414 U+0415 U+0045 U+0401 U+0416 U+0417 U+0419 U+041A U+004B U+041B U+041C U+041D U+041E U+004F U+041F U+0420 U+0050 U+0421 U+0043 U+0422 U+0423 U+0059 U+0424 U+0425 U+0058 U+0426 U+0427 U+0428 U+0429 U+042C U+042D U+042E U+042F U+0430 U+0061 U+0431 U+0432 U+0433 U+0434 U+0435 U+0065 U+0451 U+0436 U+0437 U+0439 U+043A U+006B U+043B U+043C U+043D U+043E U+006F U+043F U+0440 U+0070 U+0441 U+0063 U+0442 U+0443 U+0079 U+0444 U+0445 U+0078 U+0446 U+0447 U+0448 U+0449 U+044C U+044D U+044E U+044F U+0406 U+040E U+0456 U+045E IX. Таблица для общих зон для русского, украинского, болгарского и белорусского языков. U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0411 U+0412 U+0413 U+0414 U+0415 U+0401 U+0416 U+0417 U+0418 U+0419 U+041A U+041B U+041C U+041D U+041E U+041F U+0420 U+0421 U+0422 U+0423 U+0424 U+0425 U+0426 U+0427 U+0428 U+0429 U+042A U+042B U+042C U+042D U+042E U+042F U+0430 U+0431 U+0432 U+0433 U+0434 U+0435 U+0451 U+0436 U+0437 U+0438 U+0439 U+043A U+043B U+043C U+043D U+043E U+043F U+0440 U+0441 U+0442 U+0443 U+0444 U+0445 U+0446 U+0447 U+0448 U+0449 U+044A U+044B U+044C U+044D U+044E U+044F U+0406 U+0407 U+0404 U+0456 U+0457 U+0454 U+040E U+045E X. Таблица для общих зон для русского, украинского, болгарского и белорусского языков с использованием латинского алфавита. U+0042 U+0044 U+0046 U+0047 U+0048 U+0049 U+004A U+004C U+004D U+004E U+0051 U+0052 U+0053 U+0054 U+0055 U+0056 U+0057 U+005A U+0062 U+0064 U+0066 U+0067 U+0068 U+0069 U+006A U+006C U+006D U+006E U+0071 U+0072 U+0073 U+0074 U+0075 U+0076 U+0077 U+007A U+002D U+0030 U+0031 U+0032 U+0033 U+0034 U+0035 U+0036 U+0037 U+0038 U+0039 U+0410 U+0041 U+0411 U+0412 U+0413 U+0414 U+0415 U+0045 U+0401 U+0416 U+0417 U+0418 U+0419 U+041A U+004B U+041B U+041C U+041D U+041E U+004F U+041F U+0420 U+0050 U+0421 U+0043 U+0422 U+0423 U+0059 U+0424 U+0425 U+0058 U+0426 U+0427 U+0428 U+0429 U+042A U+042B U+042C U+042D U+042E U+042F U+0430 U+0061 U+0431 U+0432 U+0433 U+0434 U+0435 U+0065 U+0451 U+0436 U+0437 U+0438 U+0439 U+043A U+006B U+043B U+043C U+043D U+043E U+006F U+043F U+0440 U+0070 U+0441 U+0063 U+0442 U+0443 U+0079 U+0444 U+0445 U+0078 U+0446 U+0447 U+0448 U+0449 U+044A U+044B U+044C U+044D U+044E U+044F U+0406 U+0407 U+0404 U+0456 U+0457 U+0454 U+040E U+045E