Beej's 网络编程指南 Internet Sockets
Version 1.5.5 (13-Jan-1999)
[http://www.ecst.csuchico.edu/~beej/guide/net]
原著:Brian "Beej" Hall
翻译:Wilbur Lang
介绍
Hey! Socket 编程让你沮丧吗?从 man pages 中很难得到有用的信息吗?你想跟上时代去做一做 Internet 程序,但是为你在调用 connect() 前的 bind() 的结构而愁眉不展?…
好了,我现在已经来了,我将和所有人共享我的知识了。如果你了解 C 语言并想穿过网络编程的沼泽,那么你来对地方了。
--------------------------------------------------------------------------------
读者
这个文档是写成一个指南,而不是参考书。如果你刚开始 socket 编程并想找一本入门书,那么你是我的读者。这可不是一本完全的 socket 编程书。
--------------------------------------------------------------------------------
平台和编译器
这篇文章中的大多数代码都在一台 Linux PC 上用 GNU 的 gcc 成功编译过。而且他们在一台 HPUX 上用 gcc 也成功编译过。但是注意,并不是每个代码片段都独立测试过。
--------------------------------------------------------------------------------
目录:
什么是套接口?
Internet 套接口的两种类型
网络理论
struct--要么了解他们,要么等异形入侵地球
Convert the Natives!
IP 地址和如何处理他们
socket()--得到文件描述符!
bind()--我们在哪个端口?
connect()--Hello!
listen()--有人给我打电话吗?
accept()--"Thank you for calling port 3490."
send() 和 recv()--Talk to me, baby!
sendto() 和 recvfrom()--Talk to me, DGRAM-style
close() 和 shutdown()--滚开!
getpeername()--你是谁?
gethostname()--我是谁?
DNS--你说“白宫”,我说 "198.137.240.100"
客户-服务器背景知识
简单的服务器
简单的客户端
数据报 Socket
阻塞
select()--多路同步 I/O,酷!
参考资料
Disclaimer and Call for Help
--------------------------------------------------------------------------------
什么是 socket?
你始终听到人们谈论着 "socket",而你不知道他的确切含义。那么,现在我告诉你:他是使用 Unix 文件描述符 (fiel descriptor) 和其他程序通讯的方式。
什么?
Ok--你也许听到一些 Unix 高手 (hacker) 这样说:“呀,Unix 中所有的东西 就是文件!”那个家伙也许正在说到一个事实:Unix 程序在执行任何形式的 I/O 的时候,程序是在读或者写一个文件描述符。一个文件描述符只是一个和打开的文件相关联的整数。但是(注意后面的话),这个文件可能是一个网络连接,FIFO,管道,终端,磁盘上的文件或者什么其他的东西。Unix 中所有的东西是文件!因此,你想和 Internet 上别的程序通讯的时候,你将要通过文件描述符。最好相信刚才的话。
现在你脑海中或许冒出这样的念头:“那么我从哪里得到网络通讯的文件描述符呢,聪明人?”无论如何,我要回答这个问题:你利用系统调用 socket()。他返回套接口描述符 (socket descriptor),然后你再通过他来调用 send() 和 recv()。
“但是...”,你可能现在叫起来,“如果他是个文件描述符,那么为什么不用一般的调用 read() 和 write() 来通过套接口通讯?”简单的答案是:“你可以使用一般的函数!”。详细的答案是:“你可以,但是使用 send() 和 recv() 让你更好的控制数据传输。”
有这样一个事实:在我们的世界上,有很多种套接口。有 DARPA Internet 地址 (Internet 套接口),本地节点的路径名 (Unix 套接口),CCITT X.25 地址 (你可以完全忽略 X.25 套接口)。也许在你的 Unix 机器上还有其他的。我们在这里只讲第一种:Internet 套接口。
--------------------------------------------------------------------------------
Internet 套接口的两种类型
什么意思?有两种 Internet 套接口?是的。不,我在撒谎。其实还有很多,但是我可不想吓着你。我们这里只讲两种。 Except for this sentence, where I'm going to tell you that "Raw Sockets" are also very powerful and you should look them up.
好了,好了。那两种类型是什么呢?一种是 "Stream Sockets",另外一种是 "Datagram Sockets"。我们以后谈到他们的时候也会用到 "SOCK_STREAM" 和 "SOCK_DGRAM"。数据报套接口有时也叫“无连接套接口”(如果你确实要连接的时候用 connect()。)
流式套接口是可靠的双向通讯的数据流。如果你向套接口安顺序输出“1,2”,那么他们将安顺序“1,2”到达另一边。他们也是无错误的传递的,有自己的错误控制。
有谁在使用流式套接口?你可能听说过 telnet,不是吗?他就使用流式套接口。你需要你所输入的字符按顺序到达,不是吗?同样,WWW 浏览器使用的 HTTP 协议也使用他们。实际上,当你通过端口80 telnet 到一个 WWW 站点,然后输入 “GET pagename” 的时候,你也可以得到 HTML 的内容。
为什么流式套接口可以达到高质量的数据传输?他使用了“传输控制协议 (The Transmission Control Protocol)”,也叫 “TCP” (请参考 RFC-793 获得详细资料。)TCP 控制你的数据按顺序到达并且没有错误。你也许听到 “TCP” 是因为听到过 “TCP/IP”。这里的 IP 是指 “Internet 协议”(请参考 RFC-791.) IP 只是处理 Internet 路由而已。
那么数据报套接口呢?为什么他叫无连接呢?为什么他是不可靠的呢?恩,有这样的事实:如果你发送一个数据报,他可能到达,他可能次序颠倒了。如果他到达,那么在这个包的内部是无错误的。
数据报也使用 IP 作路由,但是他不选择 TCP。他使用“用户数据报协议 (User Datagram Protocol)”,也叫 “UDP” (请参考 RFC-768.)
为什么他们是无连接的呢?主要原因是因为他并不象流式套接口那样维持一个连接。你只要建立一个包,在目标信息中构造一个 IP 头,然后发出去。不需要连接。应用程序有: tftp, bootp 等等。
“够了!”你也许会想,“如果数据丢失了这些程序如何正常工作?”我的朋友,每个程序在 UDP 上有自己的协议。例如,tftp 协议每发出一个包,收到者发回一个包来说“我收到了!” (一个“命令正确应答”也叫“ACK” 包)。如果在一定时间内(例如5秒),发送方没有收到应答,他将重新发送,直到得到 ACK。这一点在实现 SOCK_DGRAM 应用程序的时候非常重要。
--------------------------------------------------------------------------------
网络理论
既然我刚才提到了协议层,那么现在是讨论网络究竟如何工作和演示 SOCK_DGRAM 的工作。当然,你也可以跳过这一段,如果你认为已经熟悉的话。
朋友们,现在是学习 数据封装 (Data Encapsulation) 的时候了!这非常非常重要。It's so important that you might just learn about it if you take the networks course here at Chico State ;-). 主要的内容是:一个包,先是被第一个协议(在这里是 TFTP )包装(“封装”),然后,整个数据(包括 TFTP 头)被另外一个协议(在这里是 UDP )封装,然后下一个( IP ),一直重复下去,直到硬件(物理)层( Ethernet )。
当另外一台机器接收到包,硬件先剥去 Ethernet 头,内核剥去 IP 和 UDP 头,TFTP 程序再剥去 TFTP 头,最后得到数据。
现在我们终于讲到臭名远播的 网络分层模型 (Layered Network Model)。这种网络模型在描述网络系统上相对其他模型有很多优点。例如,你可以写一个套接口程序而不用关心数据的物理传输(串行口,以太网,连接单元接口 (AUI) 还是其他介质。因为底层的程序为你处理他们。实际的网络硬件和拓扑对于程序员来说是透明的。
不说其他废话了,我现在列出整个层次模型。如果你要参加网络考试,可一定要记住:
应用层 (Application)
表示层 (Presentation)
会话层 (Session)
传输层 (Transport)
网络层 (Network)
数据链路层 (Data Link)
物理层 (Physical)
物理层是硬件(串口,以太网等等)。应用层是和硬件层相隔最远的--他是用户和网络交互的地方。
这个模型如此通用,如果你想,你可以把他作为修车指南。把他应用到 Unix,结果是:
应用层 (Application Layer) (telnet, ftp, 等等)
传输层 (Host-to-Host Transport Layer) (TCP, UDP)
Internet 层 (Internet Layer) (IP 和路由)
网络访问层 (Network Access Layer) (网络层,数据链路层和物理层)
现在,你可能看到这些层次如何协调来封装原始的数据了。
看看建立一个简单的数据包有多少工作?哎呀,你将不得不使用 "cat" 来完成他们!简直是笑话。对于流式套接口你要作的是 send() 发送数据。对于数据报式套接口你按照你选择的方式封装数据然后用 sendto()。内核将为你建立传输层和 Internet 层,硬件完成网络访问层。这就是现代科技。
现在结束我们的网络理论速成班。哦,忘记告诉你关于路由的事情了。但是我不准备谈他。如果你真的想知道,那么参考 IP RFC。如果你从来不曾了解他,也没有关系,你还活着不是吗。
--------------------------------------------------------------------------------
structs
终于到达这里了,终于谈到编程了。在这章,我将谈到被套接口用到的各种数据类型。因为他们中的一些太重要了。
首先是简单的一个:socket descriptor。他是下面的类型:
int
仅仅是一个常见的 int。
从现在起,事情变得不可思议了。请跟我一起忍受苦恼吧。注意这样的事实:有两种字节排列顺序:重要的字节在前面(有时叫 "octet"),或者不重要的字节在前面。前一种叫“网络字节顺序 (Network Byte Order)”。有些机器在内部是按照这个顺序储存数据,而另外一些则不然。当我说某数据必须按照 NBO 顺序,那么你要调用函数(例如 htons() )来将他从本机字节顺序 (Host Byte Order) 转换过来。如果我没有提到 NBO, 那么就让他是本机字节顺序吧。
我的第一个结构(TM)--struct sockaddr. 这个数据结构为许多类型的套接口储存套接口地址信息:
struct sockaddr {
unsigned short sa_family; /* address family, AF_xxx */
char sa_data[14]; /* 14 bytes of protocol address */
};
sa_family 能够是各种各样的事情,但是在这篇文章中是 "AF_INET"。 sa_data 为套接口储存目标地址和端口信息。看上去很笨拙,不是吗。
为了对付 struct sockaddr,程序员创造了一个并列的结构: struct sockaddr_in ("in" 代表 "Internet".)
struct sockaddr_in {
short int sin_family; /* Address family */
unsigned short int sin_port; /* Port number */
struct in_addr sin_addr; /* Internet address */
unsigned char sin_zero[8]; /* Same size as struct sockaddr */
};
这个数据结构让可以轻松处理套接口地址的基本元素。注意 sin_zero (他被加入到这个结构,并且长度和 struct sockaddr 一样) 应该使用函数 bzero() 或 memset() 来全部置零。 Also, and this is the important bit, a pointer to a struct sockaddr_in can be cast to a pointer to a struct sockaddr and vice-versa. 这样的话即使 socket() 想要的是 struct sockaddr *,你仍然可以使用 struct sockaddr_in,and cast it at the last minute! 同时,注意 sin_family 和 struct sockaddr 中的 sa_family 一致并能够设置为 "AF_INET"。最后, sin_port 和 sin_addr 必须是网络字节顺序 (Network Byte Order)!
你也许会反对道:"但是,怎么让整个数据结构 struct in_addr sin_addr 按照网络字节顺序呢?" 要知道这个问题的答案,我们就要仔细的看一看这个数据结构: struct in_addr, 有这样一个联合 (unions):
/* Internet address (a structure for historical reasons) */
struct in_addr {
unsigned long s_addr;
};
他曾经是个最坏的联合,但是现在那些日子过去了。如果你声明 "ina" 是数据结构 struct sockaddr_in 的实例,那么 "ina.sin_addr.s_addr" 就储存4字节的 IP 地址(网络字节顺序)。如果你不幸的系统使用的还是恐怖的联合 struct in_addr ,你还是可以放心4字节的 IP 地址是和上面我说的一样(这是因为 #define。)
--------------------------------------------------------------------------------
Convert the Natives!
我们现在到达下个章节。我们曾经讲了很多网络到本机字节顺序,现在是采取行动的时刻了!
你能够转换两种类型: short (两个字节)和 long (四个字节)。这个函数对于变量类型 unsigned 也适用。假设你想将 short 从本机字节顺序转换为网络字节顺序。用 "h" 表示 "本机 (host)",接着是 "to",然后用 "n" 表示 "网络 [1] [url=http://www.chinamx.com.cn/Article/os/Linux/200605/20060530123325_28282_2.html][2] [3] 下一页