汇编

程序编码

在编译时指定'-Og'选项让GCC产生符合原始程序结构的机器代码

机器级代码

对C语言隐藏，但对汇编代码可见的：

程序计数器
整数寄存器文件
条件码寄存器
向量寄存器

输出c源码的机器表示

gcc -Og -S mstore.c

机器代码与反汇编的特性：

x86-64的指令长度从1-15字节不等
指令设计的格式，从某个给定位置，能将字节唯一解码成机器指令
_哈夫曼编码_
反汇编无需访问源代码
反汇编与gcc的命名规则有些许差别
_比如movq的q在反汇编中会被省略_

关于格式的注解

.file    "mstore.c"    .text    .globl    mulstore    .type    mulstore, @functionmulstore:.LFB0:    .cfi_startproc    pushq    %rbx    .cfi_def_cfa_offset 16    .cfi_offset 3, -16    movq    %rdx, %rbx    call    mult2    movq    %rax, (%rbx)    popq    %rbx    .cfi_def_cfa_offset 8    ret    .cfi_endproc.LFE0:    .size    mulstore, .-mulstore    .ident    "GCC: (GNU) 4.8.5 20150623 (Red Hat 4.8.5-36)"    .section    .note.GNU-stack,"",@progbits

以上是gcc完整生成的.s文件

所有. 开头的是伪指令，可以忽略

ATT汇编代码格式

.file    "mstore.c"    .text    .globl    mulstore    .type    mulstore, @functionmulstore:.LFB0:    .cfi_startproc    pushq    %rbx    .cfi_def_cfa_offset 16    .cfi_offset 3, -16    movq    %rdx, %rbx    call    mult2    movq    %rax, (%rbx)    popq    %rbx    .cfi_def_cfa_offset 8    ret    .cfi_endproc.LFE0:    .size    mulstore, .-mulstore    .ident    "GCC: (GNU) 4.8.5 20150623 (Red Hat 4.8.5-36)"    .section    .note.GNU-stack,"",@progbits

数据格式

8位：字节(b)
16位：字(w)
32位：双字(l)
64位：四字(q)

访问信息

x86-64的CPU包含一组16个存储64位的通用目的寄存器

63                     31         15          8          0%rax                   %eax       %ax         %ah         %al 返回值%rbx                   %ebx       %bx         %bh         %bl 被调用者保存%rcx                   %ecx       %cx         %ch         %cl 第4个参数%rdx                   %edx       %dx         %dh         %dl 第3个参数%rsi                   %esi       %si                     %sil 第2个参数%rdi                   %edi       %di                     %dil 第1个参数%rbp                   %ebp       %bp                     %bpl 被调用者保存%rsp                   %esp       %sp                     %spl 栈指针%r8                    %r8d       %r8w                    %r8b 第5个参数%r9                    %r9d       %r9w                    %r9b 第6个参数%r10                   %r10d      %r10w                   %r10b 调用者保存%r11                   %r11d      %r11w                   %r11b 调用者保存%r12                   %r12d      %r12w                   %r12b 被调用者保存%r13                   %r13d      %r13w                   %r13b 被调用者保存%r14                   %r14d      %r14w                   %r14b 被调用者保存%r15                   %r15d      %r15w                   %r15b 被调用者保存

每个寄存器都可以作为8位、16位、32位、64位来访问

%rax %rbx %rcx %rdx 是通用目的64位寄存器，用于存储操作数和计算结果
%rsi %rdi 是源索引寄存器和目的索引寄存器，通常用于字符串和数据传输
%rbp %rsp 是基址指针寄存器和栈指针寄存器，用于处理函数调用和栈操作
%r8 %r9 %r10 %r11 %r12 %r13 %r14 %r15 是额外的通用目的寄存器，用于扩展操作数和寄存器的数量
16位操作可以访问2位字节
32位操作可以访问4位字节...

操作数指示符

立即数：代表常数
$后面接c语言表示法的整数
寄存器：表示寄存器里的内容
$r_a$用来表示寄存器a 用$R[r_a]$表示里面的内容
内存引用：指定内存地址里的内容 M[地址]

数据传送指令

指令	效果	描述
MOVE S,D	D←S	传送
movb		传送字节
movw		传送字
movl		传送双字
movq		传送四字
movabsq I,R	R←I	传送绝对的四字

零扩展：用于将较窄的整数类型（如8位或16位整数）扩展为较宽的整数类型（如32位或64位整数），原始数据的低位（等于或小于原始数据位数的位）保持不变，而高位被填充为零

符号扩展：用于将较窄的整数类型（如8位或16位整数）扩展为较宽的整数类型（如32位或64位整数），原始数据的低位（等于或小于原始数据位数的位）保持不变，而高位被填充为原始数据的符号位

指令	效果	描述
MOVEZ S,R	R←零扩展(S)	以零扩展进行传送
movzbw		将做了零扩展的字节传送到字
movzbl		将做了零扩展的字节传送到双字
movzwl		将做了零扩展的字传送到双字
movzbq		将做了零扩展的字节传送到四字
movzwq		将做了零扩展的字传送到四字
MOVS S,R	R←符号扩展(S)	以符号扩展进行传送
movsbw		将做了符号扩展的字节传送到字
movsbl		将做了符号扩展的字节传送到双字
movswl		将做了符号扩展的字传送到双字
movsbq		将做了符号扩展的字节传送到四字
movswq		将做了符号扩展的字传送到四字
movslq		将做了符号扩展的整形传送到四字
cltq	%rax←符号扩展(%eax)	把%eax符号扩展到%rax

压入栈和弹出栈数据

. 将四字压入栈pushq S . 将四字弹出栈popq D

%rsp 是栈指针 %rax是返回值

算术和逻辑操作

指令	效果	描述
leaq S,D	D←&S	加载有效地址
INC D	D←D+1	加1
DEC D	D←D-1	减1
NEG D	D←-D	取反
NOT D	D←~D	取反
ADD S,D	D←D+S	加
SUB S,D	D←D-S	减
IMUL S,D	D←D*S	乘
XOR S,D	D←D^S	异或
OR S,D	D←D	或
AND S,D	D←D&S	与
SAL S,D	`D←D<<S`	左移
SHL S,D	`D←D<<S`	左移 = SAL
SAR S,D	$D←D>>_AS$	算术右移
SHR S,D	$D←D>>_LS$	逻辑右移

加载有效地址

. x= y+x*4leaq    (%rdi,%rsi,4), %rax

一元和二元操作

. 从%edi中减去%esisubl    %esi, %edi

移位操作

. 将x左移四位salq    $4, %rax

特殊的算术操作

指令	效果	描述
imulq S	R[%rdx]: R[%rax]←S * R[%rax]	有符号全乘法
mulq S	R[%rdx]: R[%rax]←S * R[%rax]	无符号全乘法
clto	R[%rdx]: R[%rax]← 符号扩展(R[%rax])	转换为八字
idivq S	R[%rdx]←R[%rdx]: R[%rax] mod/÷ S	有符号除法
divq S	R[%rdx]←R[%rdx]: R[%rax] mod/÷ S	无符号除法

控制

条件码

cmp 指令在被执行时，会首先比较两个变量的大小，并根据比较结果，动态调整 CPU 上 FLAGS 寄存器中的相应位

test 指令的执行方式与 cmp 类似，只不过它会对传入的两个操作数做隐式的“与”操作，而非减法操作

标志位名称	位	全称	什么情况下置位（即变更为值1）
CF	0	Carry	指令执行引起了进位或借位
PF	2	Parity	指令执行结果的最低有效字节中值为1的位个数为偶数
ZF	6	Zero	指令执行结果为0
SF	7	Sign	指令执行结果的最高有效位为1
OF	11	Overtlow	当操作致被当做有符号数时，指令的执行产生了溢出

指令	基于	描述
CMP S2,S1	S1-S2	比较
cmpb	比较 byte
cmpw	比较 word
cmpl	比较 double word
TEST S2,S1	S1&S2	测试
testb	测试 byte
testw	测试 word
testl	测试 double word

这些指令不修改寄存器的值，只设置条件码

cmp     DWORD PTR [rbp-4], 1        jne     .L2        mov     eax, 101        jmp     .L3.L2:        mov     eax, 10.L3:        pop     rbp        ret

对应于

if (num == 1) {    return 101;}return 10;

循环、选择等操作，都是通过 cmp + jmp 来实现的

读取条件码

指令	别名	效果	设置条件
sete D	setz	D←ZF	相等或为0
setne D	setnz	D←!ZF	不相等或非0
sets D		D←SF	负数
setns D		D←!SF	非负数
setg D	setnle	D←~(SF ^ OF) & ~ZF	有符号大于
setge D	setnl	D←~(SF ^ OF)	有符号大于或等于
setl D	setnge	D←SF ^ OF	有符号小于
setle D	setng	`D←(SF ^ OF)	ZF`
seta D	setnbe	D←~CF & ~ZF	无符号大于
setae D	setnb	D←~CF	无符号大于或等于
setb D	setnae	D←CF	无符号小于
setbe D	setna	`D←CF	ZF`

跳转指令

指令	别名	跳转条件	描述
jmp LABEL		1	直接跳转
jmp *Operand		1	间接跳转
je LABEL	jz	ZF	相等或为0
jne LABEL	jnz	ZF	不相等或不为0
js LABEL		SF	负数
jns LABEL		~SF	非负数
jg LABEL	jnle	~(SF ^ OF) & ~ZF	有符号大于
jge LABEL	jnl	~(SF ^ OF)	有符号大于或等于
jl LABEL	jnge	SF ^ OF	有符号小于
jle LABEL	jng	(SF ^ OF)	ZF
ja LABEL	jnbe	~CF & ~ZF	无符号大于
jae LABEL	jnb	~CF	无符号大于或等于
jb LABEL	jnae	CF	无符号小于
jbe LABEL	jna	`CF	ZF`

用条件控制实现分支控制

cmpq    %rsi, %rdi        jg      .L4        movq    %rdi, %rax        subq    %rsi, %rax        ret.L4:        leaq    (%rdi,%rsi), %rax        ret

对应的c代码：

if (x > y){    return x+y;}else{    return x-y;}

用条件传送实现条件分支

分支预测

指令	别名	传送条件	描述
cmov S,R	cmovz	ZF	相等或为0
cmovne S,R	cmovnz	~ZF	不相等或非0
cmovs S,R		SF	负数
cmovns S,R		~SF	非负数
cmovg S,R	cmovnle	~(SF ^ OF) & ~ZF	有符号大于
cmovge S,R	cmovnl	~(SF ^ OF)	有符号大于或等于
cmovl S,R	cmovnge	SF ^ OF	有符号小于
cmovle S,R	cmovng	`(SF ^ OF)	ZF`
cmova S,R	cmovnbe	~CF & ~ZF	无符号大于
cmovae S,R	cmovnb	~CF	无符号大于或等于
cmovb S,R	cmovnae	CF	无符号小于
cmovbe S,R	cmovna	`CF	ZF`

循环

do-while
while
- guarded-do
for

switch语句

跳转表：一种用空间换时间的条件匹配策略，这种优化手段通过将每个case标签生成一个唯一的标号，然后创建一个跳转表，其中每个条目对应一个case标签，再通过 jmp 指令，对输入值进行计算，以计算出跳转表的实际索引，然后跳转过去

jmp qword ptr [8*rdi +.LJTIO_0].LJT10_0:  .quad .LBBO 4  ...

函数调用

传递控制
传递数据
分配和释放内存

运行时栈

使用栈帧，调用一个方法，就把该方法的变量表、返回地址等压入栈来实现，当从当前方法返回，把当前方法的栈帧弹掉，此时就返回上一个方法了，这点跟JVM的实现是一样的

如果被调用的函数内部没有对其他函数的调用，可以执行一项叫做函数内联的优化，内联带来的优化是，CPU 需要执行的指令数变少了，根据地址跳转的过程不需要了，压栈和出栈的过程也不用了，是一种空间换时间的策略

转移控制

保存当前程序地址，将程序计数器设置为新过程地址返回时读取保存的地址，继续执行

在 x86-64 架构下，其会通过 call 指令将当前的程序地址压入栈中，并跳转到指定的函数地址，被调用的函数通过 ret 指令返回结果

int foo(int n) {    return n +1;}int main() {    foo(1);    return 1;}

foo(int):        push    rbp        mov     rbp, rsp        mov     DWORD PTR [rbp-4], edi        mov     eax, DWORD PTR [rbp-4]        add     eax, 1        pop     rbp        retmain:        push    rbp        mov     rbp, rsp        mov     edi, 1        call    foo(int)        mov     eax, 1        pop     rbp        ret

参数传递

传递函数参数的寄存器

返回值传递

函数调用产生整数类型的返回值，且小于等于 64 位时，通过寄存器 rax 进行传递
大于 64 位，小于等于 128 位时，则使用寄存器 rax 与 rdx 分别存储返回值的低 64 位与高 64 位
对于浮点数类型的返回值，默认使用 xmm0 与 xmm1 寄存器进行存储。而当返回值过大时，则会选择性使用 ymm 与 zmm 来替代 xmm 寄存器

栈上的局部存储

寄存器中的局部存储空间

被调用者保存寄存器
调用者保存寄存器

递归过程

尾递归优化

在一定条件下，编译器可以直接利用跳转指令取代函数调用指令。尾递归调用的一个重要条件是：递归调用语句必须作为函数返回前的最后一条语句

编译器会使用跳转指令（如je、jne、jle等）来替换函数调用时所使用的 call 指令，这样就

int f(int i, int sum) {    if (i == 0) {        return sum;    }    return (i - 1, sum * i);}

f(int, int):        mov     eax, esi        test    edi, edi        je      .L1        imul    eax, edi.L1:        ret

数组的分配和访问

基本原则

T A[N]

指针运算

&D [ i ] [ j ] = X

L(Ci+j)

定长数组

变长数组

异质的数据结构

都是对地址进行偏移得到的

结构
联合
数据对齐

指针

在计算机科学中，指针（Pointer）是编程语言中的一个对象，利用地址，它的值直接指向（points to）存在电脑存储器中另一个地方的值

对于这样的一条语句

int *p = &n;

其会通过 lea 指令找到 n 的地址，然后通过 mov 指令将 n 的值赋给 p

lea     rax, [rbp-12]mov     QWORD PTR [rbp-8], rax

浮点代码

%ymm0 ~ %ymm15

浮点传送和转换操作

指令	源	目的	描述
vmovss	$M_{32}$	X	传送单精度数
vmovss	X	$M_{32}$	传送单精度数
vmovsd	$M_{64}$	X	传送双精度数
vmovsd	X	$M_{64}$	传送双精度数
vmovaps	X	X	传送对齐的封装好的单精度数
vmovapd	X	X	传送对齐的封装好的双精度数
vcvttss2si	$X/M_{32}$	$R_{32}$	用截断的方法把单精度数转换成整数
vevttsd2si	$X/M_{64}$	$R_{32}$	用截断的方法把双精度数转换成整数
vcvttss2siq	$X/M_{32}$	$R_{64}$	用截断的方法把单精度数转换成四字整数
vcvttsd2siq	$X/M_{64}$	$R_{64}$	用截断的方法把双精度数转换成四字整数

指令	源1	源2	目的	描述
vcvtsi2ss	$M_{32}/R_{32}$	X	X	把整数转换成单精度数
vcvtsi2sd	$M_{32}/R_{32}$	X	X	把整数转换成双精度数
vcvtsi2ssq	$M_{64}/R_{64}$	X	X	把四字整数转换成单精度数
vcvtsi2sdq	$M_{64}/R_{64}$	X	X	把四字整数转换成双精度数

过程中的浮点代码

使用XMM寄存器来传递浮点参数

浮点运算操作

单精度	双精度	效果	描述
vaddss	vaddsd	D←S2+S1	浮点数加
vsubss	vsubsd	D←S2-S1	浮点数减
vmulss	vmulsd	D←S2XS1	浮点数乘
vdivss	vdivsd	D←S2/S1	浮点数除
vmaxss	vmaxsd	D←max(S2,S1)	浮点数最大值
vminss	vminsd	D←min(S2,S1)	浮点数最小值
sgrtss	sqrtsd	$D←\sqrt{S1}$	浮点数平方根

定义和使用浮点常数

浮点操作不能把立即数作为操作数

编译器必须为所有浮点常量初始化存储空间

在浮点代码中使用位级操作

单精度	双精度	效果	描述
vxorps	vorpd	D←S2·S1	位级异或(EXCLUSIVE-OR)
vandps	andpd	D←S2&S1	位级与(AND)

汇编