分享
 
 
 

FTP搜索引擎的安装配置--Parker

王朝other·作者佚名  2006-01-09
窄屏简体版  字體: |||超大  

******************************************************************************************************

程序包:parker-2003.8.20-by-leo.tar.gz

******************************************************************************************************

Parker是一个Linux下ftp搜索引擎服务程序包,原来由Jiri A. Randus所写,后经国内高手多次改进,这个版本是在西安交大的汉化版上经过大量修改得到的。由于目前教育网内FTP还非常的实用,而收集和寻找各个FTP是非常需

要的,希望这个软件包能够给需要的朋友带来一些方便。下载网址: http://sourceforge.net/projects/parker

******************************************************************************************************

安 装 指 南

******************************************************************************************************

1 建议把变动的数据放在/var下。

以root登陆,

解开文件包(如果已经解开,可以拷贝过去)

[root@linux /]$ cd /var

[root@linux /var]$ tar vxzf parker-200x-x-xx.tar.gz

#mkdir /var/www/cgi-bin/parker

#cp /var/parker/html/Parker /var/www/html/Parker -r

2 设定各个文件的读写权限

chown nobody.nobody /var/parker -R

chmod 770 /var/parker -R

nobody是cgi的执行用户.

3 修改源程序文件路径:修改文件src/Makefile、bin/makestat、bin/flashdata

文件src/Makefile:

PARKER_HOME=/var/parker (安装目录)

CGI_HOME=/var/www/cgi-bin/parker (cgi目录)

文件bin/makestat:

PARKERDIR=/var/parker (安装目录)

文件bin/flashdata:

/var/parker/bin/collect

/var/parker/bin/makestat

4 根据喜好修改cgi输出界面

src/cgi* 根据需要修改,主要修改页面的输出外观,主要输出函数是

370 PutHeaders(void)

386 Search(void)

494 void PutEnd(void)

还有显示定义文件 src/language.h

5 重新编译代码

#cd src

#make

#make install

6 配置crontab,以便定时自动更新数据

crontab -u parker –e (回车)

1 1 * * * /var/parker/bin/flashdata % (这里是每天更新,输入以上内容保存退出!)

7 编辑站点列表文件 /var/parker/etc/CollectList

8 执行搜集数据的命令:

[root@linux /var/parker/bin]$ ./flashdata &

9 测试搜索引擎

html是我提供的页面例子.

http://localhost/Parker/index.html

10 注意事项(GUOF)

10.1 注意文件的读写权限和所有权。parker/log下的所有文件都要设置为

[root@linux /var/parker]# chmod 777 log –R

10.2 注意防火墙的设置!iptables的配置不当将阻挡对外部FTP的检索

10.3 注意parker/bin下的脚步(makestat和flashdata)中的目录信息!都修改为

makestat:PARKERDIR= /var/parker (安装目录)

flashdata: /var/parker/bin/collect

/var/parker/bin/makestat

***************************************************************

* 下面是各个文件和目录的作用和安排:

***************************************************************

bin/:

collect [-l|-r|-d] [ftp site]

搜集ftp站点数据用的, ftp站点定义在 etc/CollectList

数据压缩后放在放在LZOData下. 临时工作目录在 tmp/, 站点的统计数据放在 Statist/下

参数使用如下: -l 使用LIST -lR命令列出服务区上的目录;

-d 通过下载类似于 ls-lR.tgz的文件来获得目录。(有的服务器上会定时

建立这样的文件。

-r 自动进入各个子目录得到整个目录的列表。

默认的调用顺序是 -l,-d,-r 搜索etc/CollectList中的ftp站点

flashdata 更新数据的调度文件.调用collect和makestat

convertmask 把从http://www.nic.edu.cn/RS/ipstat/internalip/

取得的教育网免费IP定义列表更新到$parker/HostData/Edu.mask

要求输入文件格式如下:

host subnet netmask

如 202.119.32.0 0.0.31.255 255.255.224.0

使用方法:设拷贝下来的文件为list.txt, 执行convertmask list.txt

flashlist 一段时间后,把很大的$parker/etc/onworkhost一些无法联结的

IP去掉, 备份文件在$parker/etc/backlist

listfilter 把搜集到的ftp站点列表转成onworkhost

getdnsname <ip>

返回ip的DNS名字. 没有的话,返回空行.

makestat 对ftp站点上的各种文件进行统计排序, 供Statist使用,可以分析不同站点对不同文件的偏好。

lzo_comp 把目录数据用LZO算法进行压缩的程序. 读取的部分由search直接进行。

src/:

Makefile make定义文件

config.h 目录,文件、目录的定义, make时由conf.head和conf.end生成

conf.head

conf.end

parker.h 头文件,各个程序的定义,

collect.c 搜集ftp站点数据的C代码源程序

collect.h 头文件

listfilter.c 能够比较自动的一些ftp站点列表文件中抽取从ip, 例如文件oldlist.txt如下:

---------------------------------------

南大FTP: 202.119.32.32

交大FTP: xxx.xxx.xxx.xx "good"

202.119.46.57

清华 166.111.19.56

..........

........

---------------------------------------

使用命令"listfilter oldlist", 可以得到

-----------------------------------

202.119.32.101

xxx.xxx.xxx.xx

166.111.19.56

..........

.....

-----------------------------------

getdnsname.c ->bin/getdnsname 取得IP的DNS域名

convertmask.c 把从http://www.nic.edu.cn/RS/ipstat/internalip/

取得的免费IP定义列表更新到$parker/HostData/Edu.mask

common.c 得到ftp的域名等信息等一些共同的函数

log.c 纪录搜索的历史, 放在 log/, 由search.c 调用

search.c 搜索用的cgi -<LZOData/*

statist.c 显示统计信息的cgi -<Statist/*

submit.c 提交新ftp站点的cgi ->etc/CollectList

minilzo.h miniLZO压缩函数库的头文件

minilzo.c miniLZO压缩函数库的主文件

lzoconf.h

lzo_comp.c 调用miniLZO压缩函数库的目录数据压缩器

lzo_fun.c 调用miniLZO压缩函数库的解压缩函数,供search.c调用

etc/:

CollectList FTP服务器列表文件

LZOData/:

只存放搜集到的目录数据, 以ip为文件名, 以压缩格式存放.

HostData/:

存放站点的信息, ip.info为相应的域名,

$IP.stat 各个FTP的统计数据,最后集合到stat

stat 统计的原始数据

其他 按各个不同要求排序的结果

Inn.mask 为南京大学内部网络的IP定义,

Nju.mask 为南京大学正式IP的定义.

Edu.mask 为教育网的IP定义(免费)

log/:

search.log 用户搜索的完整纪录

searchkey.log 搜索的关键字纪录

submit.log 用户推荐站点的纪录

tmp/:

工作目录

#############################################################################

# 修改列表

#############################################################################

4.0 (May-8-2001)

(1)Support multi keywords, exclusion and filename extention.

(2)FTP site Statistic, include number of files, sepcial archives like .rm,.mp3,

Linux files(tar, gz, bz2),and show the last updata time.

(3)show the updata time at each site when shows the search result.

(4)sort the FTP sites, make the nearest site to the client as the first site. according to IP.

(5)remove many useless features, include interface of telnet,gopher and dos utils.

(6)remove Btree, less memory request, less harddisk space. can contain more site, more data.

如果使用Btree,当处理超过100M原始数据使需要超过250M的内存,在达到150个站点后有很多服务器会无法处理数据。

(7)在线推荐FTP站点, detect the site IP,

DNS name and scope. and collect site data automaticly.

4.1 (May-20-2001)

(1)使用LZO压缩算法保存目录数据,节省硬盘空间,大大提高了搜索速度。

原来100M数据压缩成30M左右,可以自动被放在缓冲中,搜索就不会受到硬盘速度的限制。

(2)优化搜索的关键代码,大大提高了搜索速度。服务器用PIII-450,搜索100个站点数据只用了4秒。

4.2 (FEB-16-2002)

(1)把用perl语言写的搜集数据部分用C语言重写,使其

能够运行在新的Linux版本之上。包括Redhat7.x, Mandrake 8.x

(2)在搜索时自动排除太久没有更新的站点;

(3)Multi user language supported:English and Chinese

(4)修正了许多bug

(5)作了一些清除代码的工作,使其更加的简洁;

(6)搜索列表恢复域名支持, 当然也可以用ip

#############################################################################

# 运行平台

#############################################################################

4.0 Redhat Linux 6.2, PIII-800

4.2 Redhat Linux 7.2,Mandrake Linux 8.1, Celeron 900, PIII-900

经过了对Linux ws-ftpd, Windows NT Server的测试

steff

2002.3.10

 
 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
 
>>返回首頁<<
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有