Конвертер текста в юникод

Что такое Юникод?
Кодовое пространство
Таблица соответствия русских заглавных и строчных букв и кодов юникода

Конвертер для перевода любого текста (не только кириллицы) в Юникод. Набирайте текст — он будет автоматически преобразован по мере его набора. Либо вставьте текст из буфера и нажмите кнопку. Ограничение на длину текста — 3000 символов.

Что такое Юникод?

Юникод — это стандарт универсальной кодировки символов, который используется для поддержки символов, не входящих в набор ASCII. Изначально Интернет был создан на базе кодировки ASCII, которая содержит символы английского алфавита и состоит всего из 128 символов.

Юникод обеспечивает поддержку всех языков мира и их уникальных наборов символов — Юникод может поддерживать более 1 миллиона символов!

Причина в том, что в Юникоде для представления символа может использоваться больше бит (от английского binary digit — двоичное число), которые представляют собой единицы информации в компьютерах. Символы ASCII требуют только 7 бит, а Юникод может использовать 16 бит. Это необходимо, потому что для таких языков, как китайский, арабский и русский, требуется больше бит.

Есть несколько типов Юникода, самые распространенные — UTF-8 и UTF-16. UTF-8 стал обычным стандартом в Интернете благодаря тому, что он позволяет регулировать количество бит в зависимости от символа. То есть символы ASCII в кодировке UTF-8 занимают только необходимое для них количество бит.

Кодовое пространство

Хотя формы записи UTF-8 и UTF-32 позволяют кодировать до 231 (2 147 483 648) кодовых позиций, было принято решение использовать лишь 220+216 (1 114 112) для совместимости с UTF-16. Впрочем, даже и этого более чем достаточно — сегодня (в версии 5.0) используется чуть больше 99 000 кодовых позиций.

Кодовое пространство разбито на 17 плоскостей по 216 (65536) символов. Нулевая плоскость называется базовой, в ней расположены символы наиболее употребительных письменностей. Первая плоскость используется, в основном, для исторических письменностей. Плоскости 16 и 17 выделены для частного употребления.

Для обозначения символов Unicode используется запись вида «U+xxxx» (для кодов 0…FFFF) или «U+xxxxx» (для кодов 10000…FFFFF) или «U+xxxxxx» (для кодов 100000…10FFFF),
где xxx — шестнадцатеричные цифры.
Например, символ «я» (U+044F) имеет код 044F16 = 110310.

Состоит стандарт из двух главных разделов:

универсального набора символов (англ. UCS)
семейства кодировок (в английской интерпретации — UTF).

Универсальным набором символов задаётся однозначная пропорциональность кодам символов. Коды в этом случае представляют собой элементы кодовой сферы, являющиеся неотрицательными целыми числами. Функция семейства кодировок — определение машинного представления последовательности UCS-кодов.

В Юникод-стандарте коды градированы по нескольким областям. Ареал с кодами, начиная с U+0000 и заканчивая U+007F, — включает символы комплекта ASCII с необходимыми кодами. Дальше находятся области символов разных письменностей, символов технических, знаков пунктуации. Отдельную партию кодов хранят в резерве для будущего применения.

Под кириллицу определены следующие области символов с кодами:

U+0400 — U+052F,
U+2DE0 — U+2DFF,
U+A640 — U+A69F.

Таблица соответствия русских заглавных и строчных букв и кодов юникода

Заглавная буква		Строчная буква
А	U+0410	а	U+0430
Б	U+0411	б	U+0431
В	U+0412	в	U+0432
Г	U+0413	г	U+0433
Д	U+0414	д	U+0434
Е	U+0415	е	U+0435
Ё	U+0401	ё	U+0451
Ж	U+0416	ж	U+0436
З	U+0417	з	U+0437
И	U+0418	и	U+0438
Й	U+0419	й	U+0439
К	U+041A	к	U+043A
Л	U+041B	л	U+043B
М	U+041C	м	U+043C
Н	U+041D	н	U+043D
О	U+041E	о	U+043E
П	U+041F	п	U+043F
Р	U+0420	р	U+0440
С	U+0421	с	U+0441
Т	U+0422	т	U+0442
У	U+0423	у	U+0443
Ф	U+0424	ф	U+0444
Х	U+0425	х	U+0445
Ц	U+0426	ц	U+0446
Ч	U+0427	ч	U+0447
Ш	U+0428	ш	U+0448
Щ	U+0429	щ	U+0449
Ъ	U+042A	ъ	U+044A
Ы	U+042B	ы	U+044B
Ь	U+042C	ь	U+044C
Э	U+042D	э	U+044D
Ю	U+042E	ю	U+044E
Я	U+042F	я	U+044F

Работа с текстом Калькулятор Расчёт Конвертер Преобразовать Текст