❗ Вебсайт в стадии бета-тестирования. Возможны ошибки.

Управляющие символы HTML

В Юникоде категория управляющих символов (category “Control”) содержит кодовые точки, совместимые с управляющими кодами C0 и C1 стандарта ISO/IEC 2022:1994 Information technology — Character code structure and extension techniques. Диапазоны этих кодовых точке составляют:

  • для C0: U+0000 –& U+001F, U+007F, U+0080 –& U+009F;
  • для C1: U+7F16 (удаление), 8016;–& 9F16.

Семантику управляющих символов определяет приложение. При отсутствии управления со стороны приложения управляющие символы интерпретируют в соответствии с семантикой, описанной в стандарте ISO/IEC 6429:1992. Information technology — Control functions for coded character sets.

Применение управляющих символов выходит за рамки Юникода и представляет собой протокол более высокого уровня.

Существует однозначное соответствие между 7-битными и 8-битными управляющими кодами и управляющими кодами Unicode — каждый 7-битный и 8-битный код управления численно равен соответствующей ему кодовой точке Юникода.

Экранирование

Экранирование это протокол представления отдельных управляющих символов. Протокол позволяет низкоуровневым процессам корректно преобразовывать управляющие символы в коды Юникода и обратно.

Управляющие символы не имеют глифов и их представление требует специальной записи. Обычно их представляют в виде экранированных строковых литералов. В URL управляющие символы указывают с помощью кода процента. Например, код U+0000 будет выглядеть как %00. Возможность представления нулевого символа не всегда означает, что результирующая строка будет правильно интерпретирована, поскольку многие программы будут считать нулевой символ концом строки. Таким образом, возможность ввести его создаёт уязвимость, известную как инъекция нулевого байта, и может привести к эксплойтам безопасности.

Спецификация управляющих кодов

Управляющие коды используют для форматирования строк и абзацев.

Колонки расположены в следующей последовательности:

  • код Юникода;
  • код HTML;
  • мнемоника HTML;
  • наименование в стандарте ISO/IEC 6429:1992.
Юникод  HTML    Мнем. HTML  ISO/IEC 6429
=========================================================================
U+0000  �                NUL. Null
U+0001                  SOH. Start of Heading
U+0002                  STX. Start Of Text
U+0003                  End Of Text
U+0009  	    	       HT. Character Tabulation
U+000A  
   
   LF. Line feed
U+000B  	            VT. Line tabulation (vertical tab)
U+000C	               FF. Form feed
U+000D  
               CR. Carriage return
U+001C	               FS. File Separator
U+001D	               GS. Group Separator
U+001E	               RS. Information Separator Two
U+001F	               US. Information Separator One
U+0085	…              NEL. Next line    

Примечание:

  • Символ U+0000 Null обозначает в языке программирования C конец строки.
  • Символы в диапазоне U+0009 –& U+000D и символ U+0085 имеют пробельное свойство White_Space. Значение этого свойства отлично от значений по умолчанию других управляющих кодов.
  • Символ U+000A LF (
) переводит строку.
  • Символ U+000D CR переводят абзац.