如何利用Perl开发Internet/Intranet应用

Perl原来主要用于编写一些Unix系统上的管理和监控程序，由于Perl与Unix系统紧密相连，故后来很多人都喜欢采用Perl来编写CGI程序。现在相当一部分企业都会采用NT平台，但大部分仍然采用Perl进行应用开发。因为它具有良好的通用性和强大的字处理能力，即使以后改用Unix系统（可能由于接入用户数增多，访问量加大），程序修改量也不大（VBScript则无法移植，VBScriptWindowsonly)。

----与其它CGI编写语言（VBScript、JavaScript-forserver、CShell、C/C++...）相比，Perl具有以下5个优点：

----1具有高度可扩展性和随时可用。

----2具有非常强大的字串处理功能。

----3很容易调用系统命令（shellcommands），易于编写Unix系统程式。

----4具备面向对象的编程能力，代码的可维护性、复用性好。

----5适用于各类Web服务器（如：Unix、NT、Netscape），具有良好的通用性。

----由于具有以上的优点，故可以相信无论以后Internetserver（包括Webserver）的主导是NT（IIS）还是Unix（NCSA、apache...），Perl都会是炙手可热的CGI编写语言。

一CGI基本原理

----client<--->Webserver<--->CGI<--->

DataBase/ServerFile/ServerEnvironment

----当某些Web页面能够产生动态文件，让你填入表格，显示精彩动画，或是收发大型数据库信息，读取和设置各类服务器/路由器环境变量和状态，八成是利用公共网关界面，也就是所谓的CGI(CommonGatewayInterface)。

----CGI本身不是一种程序语言，而是Webserver与DataBaseServer/其它Server之间交互作用的机制。利用CGI，软件工程师得以让Web页面可直接读取和设置各类服务器/路由器、检索各类大型数据库等。

二开发环境的建立

----如果你采用的WebServer是基于unix系统的，只需安装相应的perl编译程序即可；如果是基于Windows95/NT的则除了安装好编译程序外，还要在注册表中作登记。下面以IIS（MicrosoftWebServer，NT自带）为例。

----当你在NT上装好Perl编译程序后，需进行以下几项的设置，IIS才会支持Perl程序的调用。

----1)运行Regedt32.exe注册表编辑器（如果不知在哪里，可用search找）

----2)打开下面的目录（准备添加信息进该目录）

----HKEY_local_machine\System\CurrentControlSet\

Services\W3SVC\Parameters\ScriptMap

----3)在EDIT菜单下选择‘添加数值’选项

----4)'数值名称'填.pl

----5)‘数值类型’填REG_SZ

----6)按确定后，再填写‘字符串’

----‘字符串’=c:\perl5\bin\perl.exe%s%s

----（如果你的perl.exe文件不是位于该目录，只要填上相应路径即可。）

----7)重新起动WebServer

----注：如果是其它WebServer，修改方法类似。希望获取perl编译程序（免费软件）或相关帮助资料，可到相关的站点上进行查找。下面列出部分网址供大家参考。

http://202.96.151.200/zyr/

http://www.perl.hip.com/

http://www.roth.net/odbc/

ftp://ftp.linux.activeState.com/pub/Perl-Win32/

----当一切准备妥当后，就可以着手开发一些程序了。下面将会以一些简单、有用的例子帮助大家理解一些利用perl开发Internet/Intranet应用的方法和技巧。

三利用Perl开发Internet/Intranet应用的方法与技巧

----1 Perl5.0的某些语法

----为了方便大家对后面内容的理解，在这里先介绍一些perl5.0的基础知识。

----1）变量（对象）的表示方法：前面以:Object,

----2）普通阵列的表示方法:前面以@打头，如:@value

----读取方式：,...

----3）相关阵列的表示方法:前面以%打头，如:%value

----相关阵列与普通阵列没有什么不同，差别只在它的索引值是用字串，而非一般常用的整数值。

----读取方式：{ },{ }...

----4）读写文件用open命令

----如：open(INPUT,"< zyr.txt");

----读文件用“< ”、写文件用“ >”、追加文件用“ > >”

----2 强大的字串处理功能

----在前面已提过perl具有非常强大的字串处理功能,它除了提供一些字符运算比较符（eq,ne,le...）外，还提供了大量针对字符串匹配的参数。这是其它一些cgi编写语言所不具有的。

----我们经常会遇到，传递的参数是中文信息，但接收到后却都是乱码。这是什么原因呢?我们都知道，一个中文占用2个字节，而一个英文字母只占用1个字节，unicode编码除外(unicode是Microsoft提出的标准,采用16位同时对中英日韩等多国文字进行编码的机制)。server接收到参数信息后，会以字节为单位把每单位信息转换为两个十六进制数，这时候，中文的高字节会被转换为"%**"，而低字节也被转换为"%**"。如果使用perl，该参数信息非常容易就能被还原出来。

...

={'QUERY_STRING'};

#读取参数信息到变量

=~s/%([\dA-Fa-f][\dA-Fa-f])

/pack("c",hex($1))/eg;

----该语句的语法含义是：s是取代的意思；"/"中的内容是要找的格式（“=~”是一些特殊字符，具体含义见表一）；%([\dA-Fa-f][\dA-Fa-f])表示以%开始，后连续跟着两个十六进制数的字串（\dA是一些字符匹配格式，具体含义见表二），找到该字串后，系统把该值存放在$1中；pack("c",hex($1))表示把$1中的数转换为真正的十六进制字串；e表示把整个要替换的字串当做表达式；g表示整个字串都要做相应的查找替换。

----除了转换中文参数外，我们还经常要面对查找、替代诸如log文件、邮件等大量信息的困难；如果使用perl提供的一系列参数，将省去很多不必要的麻烦。限于篇幅关系，下面仅列出一些常用的参数。

----表一：

=~寻找给定字串的特殊格式

m取消//内“^”、“

i字串匹配时不考虑大小写

x字串匹配时不考虑空格

s取代的意思

表二：

\w匹配一个文字或数字字符，包括“_”

\W匹配一个非文字/数字字符

\s匹配一个空白字符，包括“space”、“tab”键入的字符

\S匹配一个非空白字符

\d匹配一个数字字符

\D匹配一个非数字字符

\b匹配一个二进制字符

\B匹配一个非二进制字符

\A仅从字串开始进行匹配

\Z仅从字串最后进行匹配

\G表示m/结束

----3 图形文件的处理

----虽然client经常向服务器申请的都是text/html文件，但是服务器也可以回送GIF、JPG等图形文件，我们只需在数据的header中指明即可。假如我们用< imgsrc="http://10.0.0.1/Scripts/te.pl" >语句调用CGI程式,向服务器申请一个GIF文件，则服务器收到请求后会以二进制码的形式回送一个GIF的图形文件给client。te.pl源程序如下：

#!/bin/perl

#如果该路径已加入PATH中，上句可省

='c:/InetPub/wwwroot/photo/1.gif';

#图形文件存放的路径

=4096;

#如果图形文件较大，该值可相应取大一些

#header

print"HTTP/1.0200OK\n";

print"Content-type:image/gif\r\n";

print"\r\n";

#如果传输的图形文件为JPG文件，

只需把"image/gif"改为"image/jpeg"

open(MY_FILE,"< ")

ordie("Can'topen:$!\n");

binmode(MY_FILE);

binmode(STDOUT);

#设置传输模式为二进制代码

while(=read(MY_FILE,,))

{

print;

}

close(MY_FILE);

----4 如何实现服务器重导

----服务器重导也就是ServerRedirection。我们不但可以利用CGI程式产生虚拟文件，还可以要求服务器送出一个已经存在的文件（该文件可以是本服务器的，也可以是网上任意的页面），这就是服务器重导。详见下图：

1请求2

------ >---- >

4服务器重导3

client< ------server

< ----CGI(Application)

5产生虚拟文件

< ----

----做法是：在CGI程式中不要header（即不要print"HTTP/1.0200OK\n";print"Content-Type:text/html\n\n";这两行）和多加一行print"Location:http://***","\n\n";即可。（http://***为任意的url地址）

----源程序为：

----#！/bin/perl

----print"Location:http://***","\n\n";

----另外，可用JavaScriptForclient的语句书写，但含重导语句的页面需先出现，会有闪烁的效果。附程式如下：

< Script >

Location.href="http://***";

< /Script >

----5 怎样在程序中调用系统命令

------以在程序中自动收发邮件为例

----CGI的推出就是为了使WebServer可以与更多的数据源沟通，常用的数据源有三种：数据库、非关系型数据文件（如txt文本）、邮件系统。前二者的连接和读写都有很多的方法，这里就不再相述。我主要想谈谈在CGI程式中怎样才能读取到邮件系统的邮件，自动发送邮件又是怎样进行的。Microsoft最近推出了ADO（ActiveXDataObject),只要相应数据源能提供OLEDB(DataProviderInterfaces)，我们的应用程序就可调用ADO透明的访问该数据源（包括前面我们提到的三种数据源）。这种应用在邮件系统方面现在还只限于在MicrosoftExchangeServer上，由于这是新标准，实用与否还要看数据源供应商的反应和是否提供OLEDB接口。下面，我给大家介绍另外一种较为通用的实现方法。

----读取邮件：在很多unix系统中，邮件一般都放在/var/mail目录下，每个用户的邮件就存放在一个以该用户名命名的文本文件中，例如：/var/mail/zyr。如果我们要读取或查找该邮件信息，只要打开相应的文件即可。但该程式的运行者须有读取该用户邮件的权限,可在系统中用命令chmod进行设置。下面以一个perl程序为例：

----#该程序用于读取邮件，如果成功就把每一行数据打印出来

#!/bin/perl

#如果该路径已加入PATH中，上句可省

="/var/mail/zyr";

#邮件路径

if(!open(vmail,"< ")){

print"can'topen";

exit;

}

else{

while(=< vmail >){

#取出每一行数据放在

print;

}

close(vmail);

----发送邮件：可通过调用系统命令实现，如system"mailxzyr\@gznet.com< a.txt"或exec"mailxzyr\@gznet.com< a.txt"。(a.txt为要发送的邮件内容,"\"是取消@特殊字符的含义)前者系统命令运行完后，会继续执行下面的语句；而后者调用结束后，整个程序就会结束，原来的perl程序也不能继续执行。故一般后者通常放在程序最后一行执行。

----6Server与Client传递数据的方法

----很多人都知道由client传送数据到server可通过下面两种方法，

1）< formmethod="GET/POST"

action="http://10.0.0.1/Script/a.pl" >

< inputtype="hidden"name="a"value="1" >

< inputtype="hidden"name="b"value="2" >

< inputtype="submit"name="submit"value="Go" >

< /form >

2）< ahref="http://10.0.0.1/Scripts/a.pl?a=1&b=2" >

CGI< /a >

----结果也是一样的；但却很少有人会去想这两种方法传输数据时用的是哪种方式。其实，前者采用的方式在method中设置可以是GET也可以是POST,而后者采用的则是GET方式。GET与POST的区别在于，如果以GET方式传输，所带参数附加在CGI程式的URL后直接传给server，并可从server端的QUERY_STRING这个环境变量中读取；如果以POST方式传输，则参数会被打包在数据报中传送给server,并可从CONTENT_LENGTH这个环境变量中读取出来。还有一种情况是，你用的是GET方式，但传送的参数是路径，如：

----< ahref="/cgi-bin/a.pl/usr/local/bin/pine" >CGI< /a >

----这时所传递的参数"/usr/local/bin/pine"存放在PATH_INFO这个环境变量中。环境变量的读取方式为={'QUERY_STRING'};

----有时候我们非常希望能记录下访问我们页面的用户所用的浏览器是什么?名字、地址又是什么?这时候我们就要借助server端的一系列环境变量了。下面列出其它一些常用的环境变量。

SERVER_NAMEserver的机器名称或IP地址

SERVER_PORTserver正在运行的端口号

REQUEST_METHOD发出request的方法(GET/POST/HEAD)

SCRIPT_NAME程式被调用的路径，如：cgi-bin/a.pl

REMOTE_HOST发出request请求的远端机器(client)的名称

REMOTE_ADDR发出request请求的远端机器(client)的IP地址

REMOTE_IDENT发出request的使用者名称(如是拨号上网，则为用户

ID)，当NCSAIdentityCheck为enabled，而且client

机器支持RFC931时，该变量有效

CONTENT_TYPE数据的MIME型别，如："text/html"

HTTP_ACCEPTclient可以接受的MIME型别列表

HTTP_USER_AGENTclient发出request的浏览器类型

HTTP_REFERER在读取CGI程式之前，client所指的文本URL

----以上环境变量并非所有webserver都支持，需视具体情况而定，建议使用之前先进行测试。

----下面有一个例子，作用是把访问本页面的客户的ip地址和所用的浏览器类型记录并显示出来。