对象与对齐

来自cppreference.com
< c‎ | language

C 程序创建、销毁、访问并操作对象。

C 中,一个对象是执行环境中数据存储的一个区域,其内容可以表示(值是对象的内容转译为特定类型时的含义)。

每个对象拥有

  • 大小(可由 sizeof 确定)
  • 对齐要求(可由 _Alignof 确定) (C11 起)
  • 存储期(自动、静态、分配、线程局域)
  • 生存期(等于存储期或临时)
  • 有效类型(见下)
  • 值(可以是不确定的)
  • 可选项,表示该对象的标识符

对象由声明分配函数字符串字面量复合字面量,及返回拥有数组类型的结构体或联合体的非左值表达式创建。

对象表示

除了位域,每个对象都是由一个或更多字节组成的,每个字节由 CHAR_BIT 位组成,而且每个对象可以用 memcpy 复制到 unsigned char[n] 类型的对象中,这里 n 是对象的大小。生成的数组内容被称为对象表示

若两对象拥有相同的对象表示,则它们比较相等(除了它们是浮点数NaN的情况)。逆命题非真:两个比较相等的对象可以拥有不同的对象表示,因为并非对象表示的每一位都需要参与其值。这些位可以用于填充以满足对齐要求,等同性检测,指示陷阱表示等。

若一个对象表示不表示该对象类型的任何值,则它被称为陷阱表示。以异于字符类型左值表达式读取的方式访问陷阱表示是未定义行为。结构体或联合体的值始终不是陷阱表示,即使任何一个成员的值是陷阱表示。

对于 charsigned charunsigned char 类型的对象,对象表示的每一位都要求参与其值表示,而且每种可能的位模式都表示不同的值(不允许填充位、陷阱位或多重表示)。

整数类型( short 、 int 、 long 、 long long )对象占用多个字节时,这些字节的用法是实现定义的,不过二种有主导地位的实现是大端 (big-endian) ( POWER 、 Sparc 、 Itanium )和小端 (little-endian) ( x86 、 x86-64 ):大端平台将最高位字节存储于整数所占据的存储区域的最低地址,小端平台将最低位字节存储于最低地址。细节见端序。参阅下方示例。

尽管大多数实现都不允许整数的陷阱表示、填充位或多重表示,也还存在例外;例如 Itanium 上的整数类型值就可以是陷阱表示

有效类型

每个对象都拥有有效类型,它决定何种左值访问合法,何种违反严格别名使用规则。

若对象是由声明创建的,则该对象的声明类型即是对象的有效类型

若对象由分配函数(包含 realloc )创建,则它没有声明类型。这种对象以下列方式获得有效类型:

  • 首次通过拥有异于字符类型的类型的左值写入该对象,无论何时该左值的类型都会成为该对象该次写入和所有后继读取的有效类型
  • memcpymemmove 复制另一个对象到该对象,无论何时源对象的有效类型(若它有)都会成为该对象该次写入和所有后继读取的有效类型
  • 任何其他对无声明类型的对象的访问,有效类型是访问所用的左值类型。

严格别名使用

给定一个拥有有效类型 T1 的对象,使用相异类型的 T2 左值表达式(典型的是解引用指针)访问它是未定义行为,除非:

  • T2T1兼容类型
  • T2 是与 T1 兼容的类型的 cvr 限定版本。
  • T2 是与 T1 兼容的类型的有符号或无符号版本。
  • T2 是聚合体或联合体类型,其成员中包含一个前述类型(递归地包括子聚合体或被包含联合体的成员)。
  • T2 是字符类型( charsigned charunsigned char )。
int i = 7;
char* pc = (char*)(&i);
if(pc[0] == '\x7') { // 通过 char 别名使用是 OK 的
    puts("This system is little-endian");
} else {
    puts("This system is big-endian");
}
 
float* pf = (float*)(&i);
float d = *pf; // UB : float 左值 *p 不能用来访问 int

这些规则控制接受二个指针的函数,在通过一个指针写入后,是否必须重读取另一个:

// int* 与 double* 不能别名使用
void f1(int *pi, double *pd, double d)
{
    // 从 *pi 的读取可以只做一次,在循环前
    for (int i = 0; i < *pi; i++) *pd++ = d;
}
struct S { int a, b; };
// int* 和 struct S* 可以别名使用,因为 S 拥有 int 类型的成员
void f2(int *pi, struct S *ps, struct S s)
{
    // 从 *pi 的读取必须在每次通过 *ps 写入后进行
    for (int i = 0; i < *pi; i++) *ps++ = s;
}

注意 restrict 限定符可用于指示二个指针不用作别名使用,即使规则允许它们如此。

注意类型双关也可以通过联合体的非活跃成员进行。

对齐

每个完整对象类型拥有一个称作对齐要求的属性,它是一个 size_t 类型的整数值,表示此类型对象可以分配的相继地址之间的字节数。合法的对齐值是二的非负数次幂。

类型的对齐要求可以通过 _Alignof 获得。

(C11 起)

为了满足结构体所有对象的对齐要求,一些成员后面可能会插入填充位。

#include <stdio.h>
#include <stdalign.h>
 
// struct S 的对象可以分配于任何地址
// 因为 S.a 和 S.b 可以分配于任何地址
struct S
{
    char a; // 成员对象大小: 1 ,对齐: 1
    char b; // 成员对象大小: 1 ,对齐: 1
}; // 结构体对象大小: 2 ,对齐: 1
 
// struct X 的对象必须分配于 4字节边界
// 因为 X.n 必须分配于 4 字节边界
// 因为 int 的对齐要求(通常)是 4
struct X
{
    int n;  // 成员对象大小: 4 ,对齐: 4
    char c; // 成员对象大小: 1 ,对齐: 1
    // 剩余的三个字节进行空位填充
}; // 结构体对象大小: 8 ,对齐: 4
 
int main(void)
{
    printf("sizeof(struct S) = %zu\n", sizeof(struct S));
    printf("alignof(struct S) = %zu\n", alignof(struct S));
    printf("sizeof(struct X) = %zu\n", sizeof(struct X));
    printf("alignof(struct X) = %zu\n", alignof(struct X));
}

可能的输出:

sizeof(struct S) = 2
alignof(struct S) = 1
sizeof(struct X) = 8
alignof(struct X) = 4

每个对象类型将其对齐要求强加于该类型的任何一个对象。所有类型中,最严格(最大)的基础对齐是 max_align_t 的对齐。最弱(最小)的对齐是字符类型( charsigned charunsigned char )的对齐,且等于 1。

若用 _Alignas 令一个对象的对齐严格于(大于) max_align_t ,则它拥有扩展对齐要求。成员拥有扩展对齐的结构体或联合体是过对齐类型。是否支持过对齐类型是实现定义的,而且对于每种存储期的支持可以不同。

(C11 起)

引用

  • C11 标准(ISO/IEC 9899:2011):
  • 3.15 object (第 6 页)
  • 6.2.6 Representations of types (第 44-46 页)
  • 6.5/6-7 Expressions (第 77 页)
  • 6.2.8 Alignment of objects (第 48-49 页)
  • C99 标准(ISO/IEC 9899:1999):
  • 3.2 alignment (第 3 页)
  • 3.14 object (第 5 页)
  • 6.2.6 Representations of types (第 37-39 页)
  • 6.5/6-7 Expressions (第 67-68 页)
  • C89/C90 标准(ISO/IEC 9899:1990):
  • 1.6 Definitions of terms

参阅