分享
 
 
 

并查集

王朝百科·作者佚名  2010-01-02
窄屏简体版  字體: |||超大  

什么是并查集?并查集是一种树型的数据结构,用于处理一些不相交集合(Disjoint Sets)的合并及查询问题。常常在使用中以森林来表示。

并查集的主要操作:(1)查找:查找元素所在的集合即根节点

(2)合并:将两个元素所在的集合合并为一个集合

合并两个不相交集合判断两个元素是否属于同一集合

亲戚(Relations)

思路点拨

一 问题实质

初步分析觉得本题是一个图论中判断两个点是否在同一个连通子图中的问题。对于题目中的样例,以人为点,关系为边,建立无向图如下:

图0-0-1 {请补充图解}

比如判断3和4是否为亲戚时,我们检查3和4是否在同一个连通子图中,结果是,于是他们是亲戚。又如7和10不在同一个连通子图中,所以他们不是亲戚。

用图的数据结构的最大问题是,我们无法存下多至(M=)2 000 000条边的图,后面关于算法时效等诸多问题就免谈了。

用图表示关系过于“奢侈”了。其实本题只是一个对分离集合(并查集)操作的问题。

我们可以给每个人建立一个集合,集合的元素值有他自己,表示最开始时他不知道任何人是它的亲戚。以后每次给出一个亲戚关系a, b,则a和他的亲戚与b和他的亲戚就互为亲戚了,将a所在集合与b所在集合合并。对于样例数据的操作全过程如下:

输入关系 分离集合

初始状态

(2,4) {2,4}

(5,7) {2,4} {5,7}

(1,3) {1,3} {2,4} {5,7}

(8,9) {1,3} {2,4} {5,7} {8,9}

(1,2) {1,2,3,4} {5,7} {8,9}

(5,6) {1,2,3,4} {5,6,7} {8,9}

(2,3) {1,2,3,4} {5,6,7} {8,9}

最后我们得到4个集合{1,2,3,4}, {5,6,7}, {8,9}, ,于是判断两个人是否亲戚的问题就变成判断两个数是否在同一个集合中的问题。如此一来,需要的数据结构就没有图结构那样庞大了。

算法需要以下几个子过程:

(1) 开始时,为每个人建立一个集合SUB-Make-Set(x);

(2) 得到一个关系后a,b,合并相应集合SUB-Union(a,b);

(3) 此外我们还需要判断两个人是否在同一个集合中,这就涉及到如何标识集合的问题。我们可以在每个集合中选一个代表标识集合,因此我们需要一个子过程给出每个集合的代表元SUB-Find-Set(a)。于是判断两个人是否在同一个集合中,即两个人是否为亲戚,等价于判断SUB-Find-Set(a)=SUB-Find-Set(b)。

有了以上子过程的支持,我们就有如下算法。

PROBLEM-Relations(N, M, a1,…,aM, b1,…,bM, Q, c1,…,cQ, d1,…,dQ)

1 for i←1 to N

2 do SUB-Make-Set(i)

3 for i←1 to M

4 do if SUB-Find-Set(ai)SUB-Find-Set(bi)

5 then SUB-Union(ai, bi)

6 for i←1 to Q

7 do if SUB-Find-Set(ci)=SUB-Find-Set(di)

8 then output “Yes”

9 else output “No”

解决问题的关键便为选择合适的数据结构实现分离集合的操作,使算法的实现效率最高。

二 单链表实现

一个节点对应一个人,在同一个集合中的节点串成一条链表就得到了单链表的实现。在集合中我们以单链表的第一个节点作为集合的代表元。于是每个节点x(x也是人的编号)应包含这些信息:指向代表元即表首的指针head[x],指向表尾的指针tail[x],下一个节点的指针next[x]。

SUB-Make-Set(x)过程设计如下:

SUB-Make-Set(x)

10 head[x]←x

11 tail[x]←x

12 next[x]←NIL

求代表元的SUB-Find-Set(x)过程设计如下:

SUB-Find-Set(x)

13 return head[x]

前两个过程比较简单,SUB-Union(a,b)稍微复杂一点。我们要做的是将b所在链表加到a所在链表尾,然后b所在链表中的所有节点的代表元指针改指a所在链表的表首节点,如图所示。

图0-0-2

过程的伪代码如下:

SUB-Union(a,b)

14 next[tail[head[a]]]←head

15 tail[head[a]]←tail[head]

16 p←head

17 while pNIL

18 do head[p]←head[a]

19 p←next[p]

现在我们来分析一下算法的时间效率。SUB-Make-Set(x)和SUB-Find-Set(x)都只需要O(1)的时间,而SUB-Union(a,b)的时间效率与b所在链表的长度成线性关系。最坏情况下,即有操作序列SUB-Union(N-1,N), SUB-Union(N-2,N-1), …, SUB-Union(1,2)时,整个算法PROBLEM-Relations的时间复杂度为O(N+M+N2+Q)=O(N2+M+Q)。

由于算法的时间复杂度中O(M+Q)是必需的,因此我们要让算法更快,就要考虑如何使减小O(N2)。

我们想到合并链表时,我们可以用一种启发式的方法:将较短的表合并到较长表上。为此每个节点中还需包含表的长度的信息。这比较容易实现,我们就不写出伪代码了。

我们来分析一下现在SUB-Union(a,b)的时间复杂度。

首先我们给出一个固定对象x的代表元指针head[x]被更新次数的上界。由于每次x的代表元指针被更新时,x必然在较小的集合中,因此x的代表元指针被更新一次后,集合至少含2个元素。类似地,下一次更新后,集合至少含4个元素,继续下去,当x的代表元指针被更新 log k 次后,集合至少含k个元素,而集合最多含n个元素,所以x的代表元指针至多被更新 log n 次。所以M次SUB-Union(a,b)操作的时间复杂度为O(NlogN+M)。算法总的时间复杂度为O(N log N + M + Q)。

三 分离集合的森林

分离集合的另一种更快的实现是用有根树来表示集合:每棵树表示一个集合,树中的节点对应一个人。图示出了一个分离集合的森林。

图0-0-3

每个节点x包含这些信息:父节点指针p[x],树的深度rank[x]。其中rank[x]将用于启发式合并过程。

于是建立集合过程的时间复杂度依然为O(1)。

SUB-Make-Set(x)

20 p[x]←x

21 rank[x]←0

用森林的数据结构来实现的最大好处就是降低SUB-Union(a,b)过程的时间复杂度。

SUB-Union(a,b)

22 SUB-Link(SUB-Find-Set(a),SUB-Find-Set(b))

SUB-Link(a,b)

23 p[a]←b

合并集合的工作只是将a所在树的根节点的父节点改为b所在树的根节点。这个操作只需O(1)的时间。而SUB-Union(a,b)的时间效率决定于SUB-Find-Set(x)的快慢。

SUB-Find-Set(x)

24 if x=p[x]

25 then return x

26 else return SUB-Find-Set(p[x])

这个过程的时效与树的深度成线性关系,因此其平均时间复杂度为O(logN),但在最坏情况下(树退化成链表),时间复杂度为O(N)。于是PROBLEM-Relations最坏情况的时间复杂度为O(N(M+Q))。有必要对算法进行优化。

第一个优化是启发式合并。在优化单链表时,我们将较短的表链到较长的表尾,在这里我们可以用同样的方法,将深度较小的树指到深度较大的树的根上。这样可以防止树的退化,最坏情况不会出现。SUB-Find-Set(x)的时间复杂度为O(log N),PROBLEM-Relations时间复杂度为O(N + logN (M+Q))。SUB-Link(a,b)作相应改动。

SUB-Link(a,b)

27 if rank[a]>rank

28 then p←a

29 else p[a]←b

30 if rank[a]=rank

31 then rank←rank+1

然而算法的耗时主要还是花在SUB-Find-Set(x)上。

第二个优化是路径压缩。它非常简单而有效。如图所示,在SUB-Find-Set(1)时,我们“顺便”将节点1, 2, 3的父节点权改为节点4,以后再调用SUB-Find-Set(1)时就只需O(1)的时间。

图0-0-4

于是SUB-Find-Set(x)的代码改为:

SUB-Find-Set(x)

32 if xp[x]

33 then p[x]←SUB-Find-Set(p[x])

34 return p[x]

该过程首先找到树的根,然后将路径上的所有节点的父节点改为这个根。实现时,递归的程序有许多栈的操作,改成非递归会更快些。

SUB-Find-Set(x)

35 r←x

36 while rp[r]

37 do r←p[r]

38 while xr

39 do q←p[x]

40 p[x]←r

41 x←q

42 return r

改进后的算法时间复杂度的分析十分复杂,如果完整的写出来足可写一节,这里我们指给出结论:改进后的PROBLEM-Relations其时间复杂度为O(N+(M+Q)(M+Q,N)),其中(M+Q,N)为Ackerman函数的增长极为缓慢的逆函数。你不必了解与Ackerman函数相关的内容,只需知道在任何可想象得到的分离集合数据结构的应用中,(M+Q,N)  4,因此PROBLEM-Relations的时间复杂度可认为是线性的O(N+M+Q)。

解(略)

本题的输入数据量很大,这使得我们的程序会在输入中花去不少时间。如果你用Pascal写程序,可以用库函数SetTextBuf为输入文件设置缓冲区,这可以使输入过程加快不少。如果你是用C语言的话,就不必为此操心了,系统会自动分配缓冲区。

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有