VC下的函数地址
最近突然有一位同事问我关于虚拟继承(virtual inheritance)的问题,我记得在《虚拟与多型》(繁体版,1998年)里读到过,也许当时读的匆忙,一知半解的,所以现在也答不清楚。于是,我又拿起这本书重新读了第二章C++物件模型。这一次我读的仔细多了。在这章的结尾作者,侯捷老师留下了一个关于函数地址的疑问。在网上搜了一下,没有发现有人解答过这个问题,正好最近比较空,所以就下决心研究了一番。
这里我先重复一下三种取得函数地址的方法:
1.从vtbl观察到的virutal member function的地址。这个地址可以用程序的方法得到,也可以使用调试器直接观察得到。我使用后者。
2.在调试器中直接把光标移到member function的名称上,或者在Watch窗口里,直接输入class::func(比如:A::func1),观察所得。我使用后者。
3.在程序中直接取得member function的地址。
书中留下的问题是,对于同一个函数,有时这三个地址不相同。准确地说,如果是virtual member function,这三个地址总是不同的。如果是non-virtual member function,2和3也不相同。
先说说我的实验结果(所有实验都是在VC6上做的):每一个函数,不管是non-virtual member function,或是virtual member function,或是static member function,编译器都会为它生成一组代码,这组代码的第一条指令的位置,就是函数的地址,姑且称它为函数的实体地址(body address)。这就是使用第二种方法取得的地址。
但是,当程序的其他部分要呼叫某个函数的时候,编译器生成的代码不会直接使用函数的实体地址,而是使用一个另一个地址,姑且称它为函数的符号地址(symbol address)。每当需要呼叫某个函数,无论是non-virtual member function,static function,或是virtual member function,编译器生成的代码都是去呼叫函数的符号地址。在这个地址里,只有一条指令,就是跳转到函数的实体地址。
其实,通过跟踪我发现,编译器在内存的某个位置生成了一张表格(函数的入口表)。这个表格的每一项就是一个函数的符号地址,而表格每一项里的内容,就是一条跳转指令,跳转到相应的函数的实体地址。所以每一项里都是“E9 XX XX XX XX”的形式。
采用这种间接的、表格驱动的函数调用方法,我推测这与编译器(Compiler)和连接器(Linker)的实现方法有关。使用这种方法,编译器在生成调用代码的时候可以不知道函数的实体地址,先使用函数的符号地址。待到函数的实体被编译后,在连结(Link)过程时,再把函数的实体地址,以near jmp指令的形式写入函数入口表中相应的项,这样即使某个函数在多处被调用,最后也只需要修改一处即可。
当使用第一种方法查看virtual member function的地址时,得到就是函数的符号地址。当使用第三种方法取得non-virtual member function的地址时,得到也是函数的符号地址。但是当使用该方法取得virtual member function的地址时,得到的却是vcall thunk函数的符号地址,这里仍然使用了间接的调用方法。
使用vcall thunk可以使编译器在生成代码时,无需关心function ptr指向的函数是non-virtual member function还是virtual member function,都使用相同的调用方法。这种方法的过程大致如此:
1.寄存器准备
2.从右向左依次把参数压栈
3.this指针放入ecx寄存器
4.call 函数指针
对于virtual member function,函数指针指向的是vcall thunk函数的符号地址,由vcall thunk来呼叫真正的virtual member function。由于ecx中已经保存了this指针,通过它可以得到vtbl,所以只要知道virtual member function在vtbl中的index,vcall thunk就可以呼叫这个virtual member function。而这个index信息由编译器直接放在vcall thunk的代码中。所以,假设要取得A::Say,B::Tell和C::Talk三个虚函数的地址,A、B、C三个类没有任何关系,Say和Tell在vtbl中的index是0,Talk在vtbl中的index是1。那么编译器只会生成两个vcall thunk:vcall’{0, {flat}}’和vcall’{4, {flat}}’。显然,其中0和4正好是index*4,至于flat的含义我不是很清楚。Say和Tell都会使用第一个 thunk,Talk会使用第二个thunk。因此,我们会发现,通过程序的方法取得的Say和Tell函数的地址总是相同的。
vcall thunk的实现非常简单,以vcall’{4,{flat}}’为例:
004011A0 8B 01 mov eax,dword ptr [ecx]
004011A2 FF 60 08 jmp dword ptr [eax+4]
第一行代码把vtbl的指针装入eax;第二行代码跳转到index为1的virtual member function的符号地址处,eax+4正好是vtbl中的第二项。
接下来说说我的实验过程:
定义两个类:A和B,B从A派生而来:
A
B
class A
{
public:
void func1(){
printf("A::func1\n");
}
virtual void vfuncA(){
printf("A::vfuncA\n");
}
virtual void vfuncB(){
printf("A::vfuncB\n");
}
};
class B:public A
{
public:
void func2(){
printf("B::func2\n");
}
virtual void vfuncB(){
printf("B::vfuncB\n");
}
};
接下来是main()函数,这里我主要通过调试器来观察结果:
#34 int main(int argc, char* argv[])
#35 {
#36 A a;
#37 B b;
#38 void (A::*pmf1)();
#39 pmf1 = A::func1;
#40
#41 void (B::*pmf2)();
#42 pmf2 = B::func2;
#43
#44 void (A::*pmvfA)();
#45 pmvfA = A::vfuncA;
#46
#47 void (A::*pmvfB)();
#48 pmvfB = A::vfuncB;
#49
#50 void (B::*pmvfB2)();
#51 pmvfB2 = B::vfuncB;
#52
#53 (a.*pmf1)();
#54
#55 (b.*pmf2)();
#56
#57 (a.*pmvfA)();
#58
#59 (a.*pmvfB)();
#60
#61 (b.*pmvfB)();
#62
#63 (b.*pmvfB2)();
#64
#65 return 0;
#66 }
在第53行处设定断点,然后执行程序,当程序停在断点处后,打开Watch窗口
图一
我们发现第一行和第二行显示的A::func1的地址是不一样的。第一行显示的是func1的实体地址,第二行显示的是符号地址。
继续观察:
图二
vtbl
pmvfX
class::func
A::vfuncA
0x00401005
0x00401028
0x00401260
A::vfuncB
0x00401032
0x0040102d
0x004012c0
B::vfuncB
0x0040100a
0x0040102d
0x00401380
vtbl列显示的是函数的符号地址,class::func列显示的是函数的实体地址,A::vfuncA,A::vfuncB,B::vfuncB三个函数各自有自己的符号地址和实体地址。pmvfX列显示的是vcall thunk的地址,因为A::vfuncB和B::vfuncB在vtbl中的index都是1,所以它们使用相同的thunk:vcall ‘{4,{flat}}’。
接下来打开Disassembly窗口,跟踪程序的调用过程:
首先,跟踪一下non-virtual member function的调用:
004010BB 8B F4 mov esi,esp //寄存器准备
004010BD 8D 4D FC lea ecx,[ebp-4] //this指针装入ecx
004010C0 FF 55 F4 call dword ptr [ebp-0Ch]//呼叫pmf1中保存的函数地址
使用Step into(F11),进入call指令调用的地址:
地址0x00401005开始的地方就是一张函数入口表,其中0x0040100F就是A::func1的符号地址,其中存储的5个字节,是一条JMP指令,跳转到A::func1的实体地址。可以和图一做一个比较。
继续单步执行:
我们终于到达了A::func1的函数体内部。
接下来再用同样的方法跟踪一次virtual member function的调用过程:
如果比较一下这一次的汇编代码和上一次调用的汇编代码,我们发现它们并没有什么区别,这就是vcall thunk的用处,它使的编译器在生成代码时,不用关心function ptr指向的是一个non-virtual member function,还是一个virtual member function。
继续跟踪,进入call指令调用的函数:
即使在呼叫thunk函数,编译器仍然使用的是入口表,间接调用的方法。继续
第一行用来在eax中装入vtbl的指针,第二行跳转到vtbl中的第一个地址。A::vfuncA就是vtbl中的第一个函数。继续
再一次回到函数入口表。继续
终于来到了A::vfuncA()的函数体内部。