Pastry学习笔记
作者 cnss 2004-8-19
版权所有 转载请注明出处
★Pastry是一套peer-to-peer网络协议,Pastry有如下基本特性:
1. 每个节点都有一个随机生成的128位nodeid.当收到一条含128位key的消息时,节点能高效地将消息发送到在当前节点中,数值上nodeid最接近key的节点.在Pastry网络中里,发送步骤的复杂度应该是O(log N),在每个Pastry节点中,路由表要维护节点数量的复杂度是O(log N).在消息传递经过的每个Pastry节点时,会通知回调函数,应用程序可以对这条消息做一些处理.
2. 每个Pastry节点监视和它nodeid值最接近的L个节点(这个集合叫作leaf set,其中比当前节点nodeid大及小的节点各占L/2),应用程序可以通过回调知道leaf set中新节点的加入,节点的失效,节点的恢复.
3. 在互联网上的位置很重要,Pastry探寻消息传递的最小距离,比如以ping的延时作为判断的依据. Pastry网络是分散的,灵活的,自组织的;当出现新节点,死节点,节点失败时它会自动配置.
★几个重要的参数:
b:一般取1,2,3,4.内部处理128位id时用的进制为(2的b次方).
L: leaf set的容量,一般取(2的b次方)或(2的b+1次方).
M: neighborhood set的容量,一般取(2的b次方)或(2的b+1次方).
为表达方便,N代表网络中存活的节点数.
★节点需要维护的三种数据,如图1:
1. leaf set:
容量为L,用于保存在数值上最接近nodeid的节点,其中smaller和larger各占一半.
2. routing table
Log以(2的b次方)为底N的对数行,每行(2的b次方)-1条数据.第n行表示nodeid与当前节点的前n位相同,且第n+1位与当前节点的不相同.图1中阴影部分表示当前节点nodeid的相应段,把每行的阴影读下来就是当前节点的nodeid.
3. neighborhood set
保存节点的直接邻居(如ping值最小的M个节点),它不是用来路由消息的,而是为配置网络服务的.
图1:
★路由算法如下:
R代表第l(下标)行第i(上标)列.
L代表在leaf set中第i(下标)个最接近当前nodeid的节点.
D(下标l)代表keyD的第l位数值.
Shl(A,B)代表A和B共享的前缀的长度.
★数据的初始化:
当X通过A加入到Pastry时,由于A与X理应是相近的,所以X的neighborhood set初始化为A的.
假设经过A,B,C..最终到达与nodeid数值上最近的点Z. 因为Z与X的leaf set相近,所以用Z的leaf set初始化X的,最后再通过询问L中最大nodeid和最小nodeid以得到X的L应有的节点.
根据routing table自身的定义以及消息路由的算法,假设X的routin table有i行,那么第0行取A的第0行,第1行取B的第1行….如此到Z.如果X的第1位和A的第1位相同,那么直接将A的第0行赋于X的第0行;如果不同,则将A第0行的阴影替换成A, X第0行的阴影位于X第一位的列上,以此类推.
★心得:
Pastry网络是以nodeid在数值上相近作基础的,脱离了实际的网络,而以数理上的id作为路由的算法的依据 .其它像Kademila,Chord也是采用数理上的方法路由,比如Kademila使用异或计算数理上的距离.
Pastry能在无协调的网络中完成消息的路由,而且非常高效,理论路由步数为Log以(2的b次方)为底N的对数,可以看出b决定着全网的性能,b越大当然越高效,但也会使routing table变大,routing table变大不仅占用更多内存,更意味着传递消息时需要探测更多节点,处理更复杂的问题.因此需要根据网络的特性选择一个b值,如果在以PC机组成的Internet上,可以选择4,如果在小型设备的局部网络上,选择2就足够了.哈,我喜欢有弹性的设计.
每个节点可以选择自己的leaf set数量和neighborhood set数量.如果设备的性能比较低(如嵌入式系统),可以选择少一点的值,如果设备的性能比较高当然选择更大的了,这样消息可以传递的更快些,又是弹性设计.
按照Pastry的设计,数据可以存在离数据的key最近的k个节点上(k的大小可以自己定),这样看来Pastry不适合做数据的存储,一是因为现在的网络能力,二是因为现在存储能力,三是因为它查找东西的方法.想像一下,网民甲将电影<<黑客帝国>>放到网上,碰巧"黑客帝国"字符串的hash key和你的id相近,那么通过调用Pastry API就会把这部电影放到你的电脑上(倒霉啊!!),更惨的是如果网民乙搜索"骇客帝国",由于hash肯定与"黑客帝国"不同,所以他根本不知道你这里有这部电影,真是耽误事.
所以Pastry更适合传递消息,比如在一个复杂的无线网络环境中,你根本无法掌控各种设备混乱的通信,这时如果你知道A的nodeid,你完全不用操心就可以给他发消息.但是如此一来,Pastry的机制就要略改一下了,nodeid不再随机,而是像MAC一样固定,确保在未知环境下,网络可以可靠的路由.
参考资料:Pastry: Scalable, distributed object location and routing for large-scale peer-to-peer systems,A. Rowstron and P. Druschel