基于Linux的集群系统（八） - 王朝网络宽屏版

作者:许广斌

实现过程之理论先导篇(1)

从本篇开始，作者将就集群系统中某些重要部分的具体实现进行讨论。本篇作为实现过程的理论先导篇，将向我们讲述TCP/IP的基本原理及其在LINUX上的实现。

1 OSI参考模型及TCP/IP参考模型

OSI模型（open system interconnection reference model）是基于国际标准化组织（ISO）的建议而发展起来的，它分为如图3-1所示的七层。当卫星和无线网络出现以后，现有的协议在和这些网络互联时出现了问题，所以需要一种新的参考体系结构，能无缝地连接多个网络。这个体系结构就是TCP/IP参考模型。

：

2 TCP 协议

因特网在传输层有两种主要的协议：一种是面向连接的协议，一种是无连接的协议。传输控制协议TCP是(transmission control protocol)专门用于在不可靠的因特网上提供可靠的、端对端的字节流通信的协议。通过在发送方和接收方分别创建一个称为套接字的通信端口就可以获得TCP服务。所有的TCP 连接均是全双工的和点到点的。

发送和接收方TCP实体以数据报的形式交换数据。一个数据报包含一个固定的20字节的头、一个可选部分以及0或多字节的数据。对数据报的大小有两个限制条件：首先，每个数据报（包括TCP头在内）必须适合IP的载荷能力，不能超过65535字节；其次，每个网络都存在最大传输单元MTU（maximum transfer unit），要求每个数据报必须适合MTU。如果一个数据报进入了一个MTU小于该数据报长度的网络，那么处于网络边界上的路由器会把该数据报分解为多个小的数据报。

TCP实体所采用的基本协议是滑动窗口协议。当发送方传送一个数据报时，它将启动计时器。当该数据报到达目的地后，接收方的TCP实体向回发送一个数据报，其中包含有一个确认序号，它等于希望收到的下一个数据报的顺序号。如果发送方的定时器在确认信息到达之前超时，那么发送方会重发该数据报。

2.1 TCP数据报头

图3-2给出了TCP数据报头的格式。

：

源端口、目的端口：16位长。标识出远端和本地的端口号。

顺序号：32位长。表明了发送的数据报的顺序。

确认号：32位长。希望收到的下一个数据报的序列号。

TCP头长：4位长。表明TCP头中包含多少个32位字。

接下来的6位未用。

ACK：ACK位置1表明确认号是合法的。如果ACK为0，那么数据报不包含确认信息，确认字段被省略。

PSH：表示是带有PUSH标志的数据。接收方因此请求数据报一到便可送往应用程序而不必等到缓冲区装满时才传送。

RST：用于复位由于主机崩溃或其它原因而出现的错误的连接。还可以用于拒绝非法的数据报或拒绝连接请求。

SYN：用于建立连接。

FIN：用于释放连接。

窗口大小：16位长。窗口大小字段表示在确认了字节之后还可以发送多少个字节。

校验和：16位长。是为了确保高可靠性而设置的。它校验头部、数据和伪TCP头部之和。

可选项：0个或多个32位字。包括最大TCP载荷，窗口比例、选择重发数据报等选项。

最大TCP载荷：允许每台主机设定其能够接受的最大的TCP载荷能力。在建立连接期间，双方均声明其最大载荷能力，并选取其中较小的作为标准。如果一台主机未使用该选项，那么其载荷能力缺省设置为536字节。

窗口比例：允许发送方和接收方商定一个合适的窗口比例因子。这一因子使滑动窗口最大能够达到232字节。

选择重发数据报：这个选项允许接收方请求发送指定的一个或多个数据报。

2.2 连接管理

在TCP中建立连接采用三次握手的方法。为了建立连接，其中一方，如服务器，通过执行LISTEN和ACCEPT原语被动地等待一个到达的连接请求。

另一方，如客户方，执行CONNECT原语，同时要指明它想连接到的IP地址和端口号，设置它能够接受的TCP数据报的最大值，以及一些可选的用户数据。CONNECT原语发送一个SYN=1，ACK=0的数据报到目的端，并等待对方响应。

该数据报到达目的端后，那里的TCP实体将察看是否有进程在侦听目的端口字段指定的端口。如果没有，它将发送一个RST=1的应答，拒绝建立该连接。

如果某个进程正在对该端口进行侦听，于是便将到达的TCP数据报交给该进程，它可以接受或拒绝建立连接。如果接受，便发回一个确认数据报。一般情况下，TCP的连接建立过程如图3-3所示。

：

为了释放连接，每方均可发送一个FIN=1的TCP数据报，表明本方已无数据发送。当FIN数据报被确认后，那个方向的连接即告关闭。当两个方向上的连接均关闭后，该连接就被完全释放了。一般情况下，释放一个连接需要4个TCP数据报：每个方向均有一个FIN数据报和一个ACK数据报。

2.3 传输策略

TCP中采用滑动窗口来进行传输控制，滑动窗口的大小意味着接收方还有多大的缓冲区可以用于接收数据。发送方可以通过滑动窗口的大小来确定应该发送多少字节的数据。当滑动窗口为0时，发送方一般不能再发送数据报，但有两种情况除外，一种情况是可以发送紧急数据，例如，允许用户终止在远端机上的运行进程。另一种情况是发送方可以发送一个1字节的数据报来通知接收方重新声明它希望接收的下一字节及发送方的滑动窗口大小。

2.4 拥塞控制

当加载到某个网络上的载荷能力超过其处理能力时，便会出现拥塞现象。对于因特网来说有两个潜在的问题--网络的容量和接收方的容量，应该分别进行处理。发送方始终保持两个窗口：接收方承认的窗口和拥塞窗口。取两个窗口的最小值作为可以发送的字节数。

当建立连接时，发送方将拥塞窗口大小初始化为该连接所用的最大数据报的长度值，并随后发送一个最大长度的数据报。如果该数据报在定时器超时之前得到了确认，那么发送方会在原拥塞窗口的基础上再增加一个数据报的字节值，使其为两倍最大数据报的大小，然后发送两个数据报。当这些数据报中的每一个都被确认后，拥塞窗口大小就再增加一个最大数据报的长度。当拥塞窗口是N个数据报的大小时，如果发送的所有N个数据报都被及时确认，那么将拥塞窗口大小增加N个数据报对应的字节数目。拥塞窗口保持指数规律增大，直到数据传输超时或者达到接收方设定的窗口大小。拥塞窗口便设置为恰好不造成超时或达到接收方的窗口大小的字节数。

2.5 定时器管理

TCP使用多个定时器，如重发定时器、持续定时器、"keep alive"定时器等。

最重要的是重发定时器。在发送一个数据报的同时，启动一个数据重发定时器。如果在定时器超时前该数据报被确认，则关闭该定时器；相反，如果在确认到达之前定时器超时，则需要重发该数据报。

持续定时器用于防止出现死锁情况。

当一个连接长时间闲置时，"keep alive"定时器会超时而使一方去检测另一方是否仍然存在。如果它未得到响应，便终止该连接。

3 UDP协议

因特网协议组也支持无连接的传输协议UDP（user data protocol）。 UDP使用底层的因特网协议来传送报文，提供与IP一样的不可靠的、无连接的数据报传输服务。它不使用确认信息对报文的到达进行确认，不对收到的数据报进行排序，也不提供反馈信息来控制机器之间传输的信息流量。UDP通信的可靠性方面的工作，包括报文的丢失、重复、乱序等现象，由使用UDP的应用程序来承担。

一个UDP数据报包括一个8字节的头和数据部分。报头的格式如下图3-4所示，它包括四个长为16字节的字段。源端口和目的端口的作用与TCP中的相同，是用来标明源端和目的端的端口号。UDP长度字段指明包括8个字节的头和数据在内的数据报长度。UDP校验和字段是可选项，用于纪录 UDP头、UDP伪头、用户数据三者的校验和。

：

4 IP协议

IP协议提供了不可靠的、无连接的数据报传输机制。TCP/IP是为了适应物理网络的多样性而设计的，而这种适应性主要是通过IP层来体现的。由于物理网络的多样性，各种物理网络的数据帧格式、地址格式之间的差异很大。为了将这些底层的细节屏蔽起来，使得采用不同物理网络的网络之间进行通讯， TCP/IP分别采用了IP数据报和IP地址作为物理数据帧与物理地址的统一描述形式。这样IP向上层提供统一的IP数据报和统一的IP地址，使得各种物理帧及物理地址的差异性对上层协议不复存在。

4.1 IP数据报头

一个IP数据报由一个头部和数据部分构成。头部包括一个20字节的固定长度部分和一个可选任意长度部分。头部格式如图3-5所示。

：

版本：4位长。记录了数据报对应的协议版本号。当前的IP协议有两个版本：IPV4 和IPV6。

IHL：4位长。代表头部的总长度，以32位字节为一个单位。

服务类型：8位长。使主机可以告诉子网它想要什么样的服务。如下图所示，服务类型域又分为了5个部分。优先权字段是标志优先级的；三个标志位分别代表延迟、吞吐量、可靠性。

：

总长：16位。指头部和数据的总长。最大长度是65535个字节。

标识：16位。通过它使目的主机判断新来的分段属于哪个分组，所有属于同一分组的分段包含同样的标识值。

DF：代表不要分段。它命令路由器不要将数据报分段，因为目的端不能重组分段。

MF：代表还有进一步