Конвертер текста в юникод

Конвертер для перевода любого текста (не только кириллицы) в Юникод. Набирайте текст — он будет автоматически преобразован по мере его набора. Либо вставьте текст из буфера и нажмите кнопку. Ограничение на длину текста — 3000 символов.

Конвертер текста в юникод
Входные данные
Ограничение на длину текста — 3000 символов.
Результат
Чтобы скопировать нужный вариант, необходимо его выделить и нажать Ctrl+C

Что такое Юникод?

Юникод — это стандарт универсальной кодировки символов, который используется для поддержки символов, не входящих в набор ASCII. Изначально Интернет был создан на базе кодировки ASCII, которая содержит символы английского алфавита и состоит всего из 128 символов.

Юникод обеспечивает поддержку всех языков мира и их уникальных наборов символов — Юникод может поддерживать более 1 миллиона символов!

Причина в том, что в Юникоде для представления символа может использоваться больше бит (от английского binary digit — двоичное число), которые представляют собой единицы информации в компьютерах. Символы ASCII требуют только 7 бит, а Юникод может использовать 16 бит. Это необходимо, потому что для таких языков, как китайский, арабский и русский, требуется больше бит.

Есть несколько типов Юникода, самые распространенные — UTF-8 и UTF-16. UTF-8 стал обычным стандартом в Интернете благодаря тому, что он позволяет регулировать количество бит в зависимости от символа. То есть символы ASCII в кодировке UTF-8 занимают только необходимое для них количество бит.

Кодовое пространство

Хотя формы записи UTF-8 и UTF-32 позволяют кодировать до 231 (2 147 483 648) кодовых позиций, было принято решение использовать лишь 220+216 (1 114 112) для совместимости с UTF-16. Впрочем, даже и этого более чем достаточно — сегодня (в версии 5.0) используется чуть больше 99 000 кодовых позиций.

Кодовое пространство разбито на 17 плоскостей по 216 (65536) символов. Нулевая плоскость называется базовой, в ней расположены символы наиболее употребительных письменностей. Первая плоскость используется, в основном, для исторических письменностей. Плоскости 16 и 17 выделены для частного употребления.

Для обозначения символов Unicode используется запись вида «U+xxxx» (для кодов 0…FFFF) или «U+xxxxx» (для кодов 10000…FFFFF) или «U+xxxxxx» (для кодов 100000…10FFFF),
где xxx — шестнадцатеричные цифры.
Например, символ «я» (U+044F) имеет код 044F16 = 110310.

Состоит стандарт из двух главных разделов:

  • универсального набора символов (англ. UCS)
  • семейства кодировок (в английской интерпретации — UTF).

Универсальным набором символов задаётся однозначная пропорциональность кодам символов. Коды в этом случае представляют собой элементы кодовой сферы, являющиеся неотрицательными целыми числами. Функция семейства кодировок — определение машинного представления последовательности UCS-кодов.

В Юникод-стандарте коды градированы по нескольким областям. Ареал с кодами, начиная с U+0000 и заканчивая U+007F, — включает символы комплекта ASCII с необходимыми кодами. Дальше находятся области символов разных письменностей, символов технических, знаков пунктуации. Отдельную партию кодов хранят в резерве для будущего применения.

Под кириллицу определены следующие области символов с кодами:

  • U+0400 — U+052F,
  • U+2DE0 — U+2DFF,
  • U+A640 — U+A69F.

Таблица соответствия русских заглавных и строчных букв и кодов юникода

Заглавная букваСтрочная буква
АU+0410 аU+0430
БU+0411 бU+0431
ВU+0412 вU+0432
ГU+0413 гU+0433
ДU+0414 дU+0434
ЕU+0415 еU+0435
ЁU+0401 ёU+0451
ЖU+0416 жU+0436
ЗU+0417 зU+0437
ИU+0418 иU+0438
ЙU+0419 йU+0439
КU+041A кU+043A
ЛU+041B лU+043B
МU+041C мU+043C
НU+041D нU+043D
ОU+041E оU+043E
ПU+041F пU+043F
РU+0420 рU+0440
СU+0421 сU+0441
ТU+0422 тU+0442
УU+0423 уU+0443
ФU+0424 фU+0444
ХU+0425 хU+0445
ЦU+0426 цU+0446
ЧU+0427 чU+0447
ШU+0428 шU+0448
ЩU+0429 щU+0449
ЪU+042A ъU+044A
ЫU+042B ыU+044B
ЬU+042C ьU+044C
ЭU+042D эU+044D
ЮU+042E юU+044E
ЯU+042F яU+044F
Читать по теме
Интересные статьи