Управляющие символы HTML
В Юникоде категория управляющих символов (category “Control”) содержит кодовые точки, совместимые с управляющими кодами C0 и C1 стандарта ISO/IEC 2022:1994 Information technology — Character code structure and extension techniques. Диапазоны этих кодовых точке составляют:
- для C0: U+0000 –& U+001F, U+007F, U+0080 –& U+009F;
- для C1: U+7F16 (удаление), 8016;–& 9F16.
Семантику управляющих символов определяет приложение. При отсутствии управления со стороны приложения управляющие символы интерпретируют в соответствии с семантикой, описанной в стандарте ISO/IEC 6429:1992. Information technology — Control functions for coded character sets.
Применение управляющих символов выходит за рамки Юникода и представляет собой протокол более высокого уровня.
Существует однозначное соответствие между 7-битными и 8-битными управляющими кодами и управляющими кодами Unicode — каждый 7-битный и 8-битный код управления численно равен соответствующей ему кодовой точке Юникода.
Экранирование
Экранирование это протокол представления отдельных управляющих символов. Протокол позволяет низкоуровневым процессам корректно преобразовывать управляющие символы в коды Юникода и обратно.
Управляющие символы не имеют глифов и их представление требует специальной записи. Обычно их представляют в виде экранированных строковых литералов. В URL управляющие символы указывают с помощью кода процента. Например, код U+0000 будет выглядеть как %00. Возможность представления нулевого символа не всегда означает, что результирующая строка будет правильно интерпретирована, поскольку многие программы будут считать нулевой символ концом строки. Таким образом, возможность ввести его создаёт уязвимость, известную как инъекция нулевого байта, и может привести к эксплойтам безопасности.
Спецификация управляющих кодов
Управляющие коды используют для форматирования строк и абзацев.
Колонки расположены в следующей последовательности:
- код Юникода;
- код HTML;
- мнемоника HTML;
- наименование в стандарте ISO/IEC 6429:1992.
Юникод HTML Мнем. HTML ISO/IEC 6429
=========================================================================
U+0000 � NUL. Null
U+0001  SOH. Start of Heading
U+0002  STX. Start Of Text
U+0003  End Of Text
U+0009 	 	 HT. Character Tabulation
U+000A 
 LF. Line feed
U+000B  VT. Line tabulation (vertical tab)
U+000C  FF. Form feed
U+000D CR. Carriage return
U+001C  FS. File Separator
U+001D  GS. Group Separator
U+001E  RS. Information Separator Two
U+001F  US. Information Separator One
U+0085 … NEL. Next line Примечание:
- Символ U+0000 Null обозначает в языке программирования
Cконец строки. - Символы в диапазоне U+0009 –& U+000D и символ U+0085 имеют пробельное свойство White_Space. Значение этого свойства отлично от значений по умолчанию других управляющих кодов.
- Символ U+000A LF (

) переводит строку. - Символ U+000D CR переводят абзац.