字符字面量
语法
' c字符 '
|
(1) | ||||||||
u8' c字符 '
|
(2) | (C++17 起) | |||||||
u' c字符 '
|
(3) | (C++11 起) | |||||||
U' c字符 '
|
(4) | (C++11 起) | |||||||
L' c字符 '
|
(5) | ||||||||
' c字符序列 '
|
(6) | ||||||||
L' c字符序列 '
|
(7) | (C++23 前) | |||||||
c字符 | - | 下列之一: |
基本c字符 | - | 来自基本源字符集 (C++23 前)翻译字符集 (C++23 起)去掉单引号(' )、反斜杠(\ )和换行符后的字符
|
c字符序列 | - | 两个或更多个 c字符 |
解释
不可编码字符字面量
在 (1-5) 中的 c字符 不是数值转义序列(见下文)的情况下:
- 在 (1) 中,如果 c字符 无法在执行字符集中表示 (C++23 前)在通常字面量编码中表示为单个代码单元 (C++23 起),那么该字符字面量受条件性支持,具有 int 类型和实现定义的值。
- 在 (2-4) 中,如果 c字符 无法表示为单个 UTF-8 (2)/UTF-16 (3)/UTF-32 (4) 代码单元,那么字符字面量非良构。
(5) 中, 如果 c字符 无法在执行宽字符集中表示(例如在 wchar_t 为 16 位的 Windows 上的非 BMP 值),那么该字符字面量受条件性支持,具有 wchar_t 类型和实现定义的值。 |
(C++23 前) |
(5) 中, 如果 c字符 无法在宽字面量编码中表示为单个代码单元(例如在 wchar_t 为 16 位的 Windows 上的非 BMP 值),那么该字符字面量非良构。 |
(C++23 起) |
数值转义序列
数值(八进制与十六进制)转义序列能用于指定字符的值。
如果字符字面量只包含一个数值转义序列,且该转义序列指定的值能以它的类型的无符号版本表示,那么字符字面量拥有与指定值(可能在转换到字符类型后)相同的值。 UTF-N 字符字面量能拥有它的类型可表示的任意值。即使该值对应的码位在 Unicode 中不合法或在 UTF-N 中无法以单个代码单元表示,该值的数值转义序列依然可以指定它。例如 u8'\xff' 良构并等于 char8_t(0xFF)。 |
(C++23 起) |
如果一个通常或宽字符字面量中用来指定值的数值转义序列指定了一个无法分别以 char 或 wchar_t 表示的值,那么该字符字面量的值由实现定义。 |
(C++23 前) |
如果一个有单个 c字符 的通常或宽字符字面量中用来指定值的数值转义序列所指定的值能分别以 char 或 wchar_t 的底层类型的无符号版本表示,那么该字面量的值是转换到字面量类型的有该无符号整数类型与指定值的整数值。否则程序非良构。 |
(C++23 起) |
如果一个 UTF-N 字符字面量中用来指定值的数值转义序列所指定的值不能以对应的 |
(C++11 起) |
注解
多字符字面量是 C 从 B 编程语言继承而来的。尽管 C 或 C++ 标准不指定,大多数编译器(值得注意的例外是 MSVC )也如 B 中所指定实现多字符字面量:字面量中的每个字符的值以大端序零填充右对齐顺序初始化结果整数的相继字节,例如 '\1' 的值为 0x00000001 而 '\1\2\3\4' 的值为 0x01020304 。
C 中,诸如 'a' 或 '\n' 之类的字符常量具有 int 类型,而非 char。
示例
#include <cstdint> #include <iomanip> #include <iostream> #include <string_view> template<typename CharT> void dump(std::string_view s, const CharT c) { const uint8_t* data{reinterpret_cast<const uint8_t*>(&c)}; std::cout << "'" << s << "' \t" << std::hex << std::uppercase << std::setfill('0'); for (auto i{0U}; i != sizeof(CharT); ++i) std::cout << std::setw(2) << static_cast<unsigned>(data[i]) << ' '; std::cout << '\n'; } void print(std::string_view str) { std::cout << str; } int main() { print("通常字符字面量:"); char c1 = 'a'; dump("'a'", c1); char c2 = '\x2a'; dump("'*'", c2); print("\n" "通常多字符字面量:"); int mc1 = 'ab'; dump("'ab'", mc1); // 由实现定义 int mc2 = 'abc'; dump("'abc'", mc2); // 由实现定义 print("\n" "不可编码字符字面量:"); int ne1 = '¢'; dump("'¢'", ne1); // 由实现定义 int ne2 = '猫'; dump("'猫'", ne2); // 由实现定义 int ne3 = '🍌'; dump("'🍌'", ne3); // 由实现定义 print("\n" "UTF-8 字符字面量:"); char8_t C1 = u8'a'; dump("u8'a'", C1); // char8_t C2 = u8'¢'; dump("u8'¢'", C2); // 错误:¢ 会映射到两个 UTF-8 代码单元 // char8_t C3 = u8'猫'; dump("u8'猫'", C3); // 错误:猫 会映射到三个 UTF-8 代码单元 // char8_t C4 = u8'🍌'; dump("u8'🍌'", C4); // 错误:🍌 会映射到四个 UTF-8 代码单元 print("\n" "UTF-16 字符字面量:"); char16_t uc1 = u'a'; dump("u'a'", uc1); char16_t uc2 = u'¢'; dump("u'¢'", uc2); char16_t uc3 = u'猫'; dump("u'猫'", uc3); // char16_t uc4 = u'🍌'; dump("u'🍌'", uc4); // 错误:🍌 会映射到两个 UTF-16 代码单元 print("\n" "UTF-32 字符字面量:"); char32_t Uc1 = U'a'; dump("U'a'", Uc1); char32_t Uc2 = U'¢'; dump("U'¢'", Uc2); char32_t Uc3 = U'猫'; dump("U'猫'", Uc3); char32_t Uc4 = U'🍌'; dump("U'🍌'", Uc4); print("\n" "宽字符字面量:"); wchar_t wc1 = L'a'; dump("L'a'", wc1); wchar_t wc2 = L'¢'; dump("L'¢'", wc2); wchar_t wc3 = L'猫'; dump("L'猫'", wc3); wchar_t wc4 = L'🍌'; dump("L'🍌'", wc4); // 从 C++23 开始在 Windows 上不支持 }
可能的输出:
通常字符字面量: 'a' 61 '*' 2A 通常多字符字面量: 'ab' 62 61 00 00 'abc' 63 62 61 00 不可编码字符字面量: '¢' A2 C2 00 00 '猫' AB 8C E7 00 '🍌' 8C 8D 9F F0 UTF-8 字符字面量: u8'a' 61 UTF-16 字符字面量: u'a' 61 00 u'¢' A2 00 u'猫' 2B 73 UTF-32 字符字面量: U'a' 61 00 00 00 U'¢' A2 00 00 00 U'猫' 2B 73 00 00 U'🍌' 4C F3 01 00 宽字符字面量: L'a' 61 00 00 00 L'¢' A2 00 00 00 L'猫' 2B 73 00 00 L'🍌' 4C F3 01 00
缺陷报告
下列更改行为的缺陷报告追溯地应用于以前出版的 C++ 标准。
缺陷报告 | 应用于 | 出版时的行为 | 正确行为 |
---|---|---|---|
CWG 912 | C++98 | 未指明不可编码的通常字符字面量 | 指定为条件性支持 |
CWG 1024 | C++98 | 要求支持多字符字面量 | 改为条件性支持 |
CWG 1656 | C++98 | 字符字面量中的数值转义序列的含义不明确 | 已指定 |
参阅
用户定义字面量(C++11) | 拥有用户定义后缀的字面量 |