Конвертер текста в юникод
Конвертер для перевода любого текста (не только кириллицы) в Юникод. Набирайте текст — он будет автоматически преобразован по мере его набора. Либо вставьте текст из буфера и нажмите кнопку. Ограничение на длину текста — 3000 символов.
Что такое Юникод?
Юникод — это стандарт универсальной кодировки символов, который используется для поддержки символов, не входящих в набор ASCII. Изначально Интернет был создан на базе кодировки ASCII, которая содержит символы английского алфавита и состоит всего из 128 символов.
Юникод обеспечивает поддержку всех языков мира и их уникальных наборов символов — Юникод может поддерживать более 1 миллиона символов!
Причина в том, что в Юникоде для представления символа может использоваться больше бит (от английского binary digit — двоичное число), которые представляют собой единицы информации в компьютерах. Символы ASCII требуют только 7 бит, а Юникод может использовать 16 бит. Это необходимо, потому что для таких языков, как китайский, арабский и русский, требуется больше бит.
Есть несколько типов Юникода, самые распространенные — UTF-8 и UTF-16. UTF-8 стал обычным стандартом в Интернете благодаря тому, что он позволяет регулировать количество бит в зависимости от символа. То есть символы ASCII в кодировке UTF-8 занимают только необходимое для них количество бит.
Кодовое пространство
Хотя формы записи UTF-8 и UTF-32 позволяют кодировать до 231 (2 147 483 648) кодовых позиций, было принято решение использовать лишь 220+216 (1 114 112) для совместимости с UTF-16. Впрочем, даже и этого более чем достаточно — сегодня (в версии 5.0) используется чуть больше 99 000 кодовых позиций.
Кодовое пространство разбито на 17 плоскостей по 216 (65536) символов. Нулевая плоскость называется базовой, в ней расположены символы наиболее употребительных письменностей. Первая плоскость используется, в основном, для исторических письменностей. Плоскости 16 и 17 выделены для частного употребления.
Для обозначения символов Unicode используется запись вида «U+xxxx» (для кодов 0…FFFF) или «U+xxxxx» (для кодов 10000…FFFFF) или «U+xxxxxx» (для кодов 100000…10FFFF),
где xxx — шестнадцатеричные цифры.
Например, символ «я» (U+044F) имеет код 044F16 = 110310.
Состоит стандарт из двух главных разделов:
- универсального набора символов (англ. UCS)
- семейства кодировок (в английской интерпретации — UTF).
Универсальным набором символов задаётся однозначная пропорциональность кодам символов. Коды в этом случае представляют собой элементы кодовой сферы, являющиеся неотрицательными целыми числами. Функция семейства кодировок — определение машинного представления последовательности UCS-кодов.
В Юникод-стандарте коды градированы по нескольким областям. Ареал с кодами, начиная с U+0000 и заканчивая U+007F, — включает символы комплекта ASCII с необходимыми кодами. Дальше находятся области символов разных письменностей, символов технических, знаков пунктуации. Отдельную партию кодов хранят в резерве для будущего применения.
Под кириллицу определены следующие области символов с кодами:
- U+0400 — U+052F,
- U+2DE0 — U+2DFF,
- U+A640 — U+A69F.
Таблица соответствия русских заглавных и строчных букв и кодов юникода
Заглавная буква | Строчная буква | ||
---|---|---|---|
А | U+0410 | а | U+0430 |
Б | U+0411 | б | U+0431 |
В | U+0412 | в | U+0432 |
Г | U+0413 | г | U+0433 |
Д | U+0414 | д | U+0434 |
Е | U+0415 | е | U+0435 |
Ё | U+0401 | ё | U+0451 |
Ж | U+0416 | ж | U+0436 |
З | U+0417 | з | U+0437 |
И | U+0418 | и | U+0438 |
Й | U+0419 | й | U+0439 |
К | U+041A | к | U+043A |
Л | U+041B | л | U+043B |
М | U+041C | м | U+043C |
Н | U+041D | н | U+043D |
О | U+041E | о | U+043E |
П | U+041F | п | U+043F |
Р | U+0420 | р | U+0440 |
С | U+0421 | с | U+0441 |
Т | U+0422 | т | U+0442 |
У | U+0423 | у | U+0443 |
Ф | U+0424 | ф | U+0444 |
Х | U+0425 | х | U+0445 |
Ц | U+0426 | ц | U+0446 |
Ч | U+0427 | ч | U+0447 |
Ш | U+0428 | ш | U+0448 |
Щ | U+0429 | щ | U+0449 |
Ъ | U+042A | ъ | U+044A |
Ы | U+042B | ы | U+044B |
Ь | U+042C | ь | U+044C |
Э | U+042D | э | U+044D |
Ю | U+042E | ю | U+044E |
Я | U+042F | я | U+044F |