打算为入门ARM指令集写点初级文章,没什么远大理想,写到哪里算哪里,权当娱乐罢了。工作中经常碰到crash的问题,如果是debug版本,那还好, 调试信息多。万一Release给QA甚至客户之后,再发现crash之类的问题,要不熟悉ARM指令、看不懂现场那就麻烦了。
环境准备:现在的学习环境可真是方便啊,几乎人手一台android手机,而绝大多数手机都是ARM家族的,所以只需要给手机或者平板电脑安装一个 BusyBox,然后拷贝一个ARM 的gdb,再安装一个GCC就可以了。
好了,让我们开始启动学习之旅吧!
首先在平板电脑或者手机上,编辑一个最简单的函数,包含变量分配及初始化:test1.c
#include <stdio.h>
void main()
{
int d = 4;
}
然后编译:arm-linux-gnueabihf-gcc test.c -o test1
然后看看汇编代码:arm-linux-gnueabihf-objdump -D test1;每一句的含义我已经给出详细注释。
首先对输出的文件格式说明,对于如下的输出,左边是程序地址(各种函数地址等等),第二列是指令码的十六进制表示也俗称机器码,剩下的就是给人类看的指令助记符号,举例举例:
835c: b480 push {r7}
这里,835c是main函数的地址,b480是机器码表示的指令,push {r7}就是给我们人类看的了。下面看test1的输出:
0000835c <main>:
程序用到了r7寄存器,所以需要保护以免破坏之前的数据 1 835c: b480 push {r7}
堆栈向下增长栈用的不多,只需要12个字节就够用了: int d需要4个,多出来的8个没有使用 2 835e: b083 sub sp, #12
因为r0-r7是通用寄存器,可以使劲用,堆栈寄存器sp只有没办法的时候才使用。只好用r7 = sp + 0这种笨办法 3 8360: af00 add r7, sp, #0
参与int d = 4这条语句的是r3,这是通用寄存器,spec定义大家都可以用,不需要保护 4 8362: f04f 0304 mov.w r3, #4
把4存储到sp+4所指定的栈里,c语言描述:*(sp + 4) = 4;留给大家思考:为何不顶着sp放置--即*(sp+0)=4? 5 8366: 607b str r3, [r7, #4]
还记得第二条:sub sp, #12吗?此句和下一句是为从堆栈里恢复原来的r7--pop {r7},做准备; 6 8368: f107 070c add.w r7, r7, #12
r7已经是原来的sp了 7 836c: 46bd mov sp, r7
弹出sp指向的内存数据给r7,c语言:r7 = *sp; 8 836e: bc80 pop {r7}
没有调用子函数,即没有使用lr寄存器,所以不需要push lr。跳转到lr地址--进入main函数的下一条地址 9 8370: 4770 bx lr 10 8372: bf00 nop
我们再编辑一个稍微增加一个变量:test2.c
#include <stdio.h>
void main()
{
int d = 4;
char b = 2;
}
0000835c <main>: 1 835c: b480 push {r7} 2 835e: b083 sub sp, #12 3 8360: af00 add r7, sp, #0
4 8362: f04f 0304 mov.w r3, #4
把4存储到sp+0所指定的栈里,c语言描述:*(sp + 0) = 4,注意与上一个例子的区别,这里是顶着stack存放,为什么?
5 8366: 603b str r3, [r7, #0]
6 8368: f04f 0302 mov.w r3, #2
为何要这么任性的存放变量b?
7 836c: 71fb strb r3, [r7, #7] 8 836e: f107 070c add.w r7, r7, #12 9 8372: 46bd mov sp, r7 10 8374: bc80 pop {r7} 11 8376: 4770 bx lr
栈里的数据是这样的,b和d中间隔着好几条街呢:)