用Java+MySQL+PHP轻松构建跨平台的搜索引擎

此搜索引擎适于在一个中等规模的局域网中使用，由于找到的网页存在数据库中，不仅可以索静态的HTML页面，可以搜索php、asp等动态页面。对于一个拥有5万个网页的系统(使用PII-400作为服务器)，搜索响应时间在2-10秒左右，完全可以满足要求，由于Java、MySQL、PHP都是跨平台的软件，所以此搜索引擎不仅可以工作在Windows服务器上，而且也可以工作在Linux等其他系统中。

一、建立搜索引擎需要的数据库和数据表。

首先建立数据库：

c:\mysql\bin\＞ mysqladmin -uroot -pmypasswd create Spider

然后建立数据库中的表结构

c:\mysql\bin\＞ mysql -uroot -pmypasswd Spider ＜ Spider.mysql

其中Spider.mysql为一个文本文件，其内容如下：

CREATE TABLE link (

Id int(10) unsigned NOT NULL auto_increment,

Url varchar(120) NOT NULL,

Class tinyint(3) unsigned NOT NULL default 0 ,

IsSearchLink tinyint(3) unsigned default 0,

PRIMARY KEY (Url),

UNIQUE Id (Id),

KEY Url (Url),

KEY Class (Class)

);

# 本局域网的初始主页地址，搜索蜘蛛从此网址开始搜索所有其他网页

INSERT INTO link VALUES( '1', 'HTTP://102.211.69.1/', '0', '0');

# 数据表 webpagelocal 用来存放下载的所有的网页

CREATE TABLE webpagelocal (

Id int(10) unsigned NOT NULL auto_increment,

Url varchar(120) NOT NULL,

Content text NOT NULL,

PRIMARY KEY (Url),

UNIQUE Id (Id),

KEY Url (Url)

);

# 数据表 webpagefindfast

# 用MakeFast.php从表webpagelocal中提取512字节的检索信息存放其中

CREATE TABLE webpagefindfast (

Id int(10) unsigned NOT NULL,

Url varchar(120) NOT NULL,

Title varchar(64),

Content blob,

PRIMARY KEY (Url),

KEY Url (Url),

KEY Title (Title)

);

二、以下为搜索网页和下载网页至本地数据库的Java程序LinkToDB.java，它也是此搜索引擎的核心和基础

/***************************** LinkToDB.java ***********************************

* 对URL中的http链接进行分析,将相对路径转换为绝对路径，排序方式输出结果到数据库

* 如果分析得到的URL是Link表中唯一的，就将其内容下载到表 WebPageLocal 中。

********************************************************************************

import java.io.*;

import java.util.*;

import java.net.*;

import java.lang.String;

import java.sql.*;

import java.text.*;

class Counter {

private int i = 1;

int read() { return i; }

void increment() { i++; }

}

public class LinkToDB {

String UrlHost = "";

String UrlFile = "";

String UrlPath = "";

static String StartWith = null;

boolean outsideTag = true; //判断是否在标记之中

static char[] buffer = new char[4096]; // 缓冲区:用于保存从 URL 读的数据

InputStreamReader read = null;

BufferedReader reader = null;

URLConnection uc = null;

private URL url = null;

private StreamTokenizer st;

private TreeMap counts = new TreeMap();//以排序方式保存找到的链接

LinkToDB(String myurl,String StartOnly){

try {

StartWith = StartOnly;

if(StartOnly!=null) { if(!myurl.startsWith(StartOnly)) return; }//只搜索此网站

url = new URL(myurl);

UrlHost = url.getHost();

UrlHost = UrlHost.toUpperCase();

UrlFile = url.getFile();

int v=UrlFile.lastIndexOf("/");

if(v!=-1) UrlPath = UrlFile.substring(0,v);

System.out.println("分析文件："+myurl);

int uclength=200000;

int ucError=0;

try{

uc = url.openConnection();

uc.setUseCaches(false);

uc.connect();

}

catch(IOException io) { ucError=1; System.out.println("打不开待分析网页:"+myu

rl); }

if(ucError!=1){

uclength = uc.getContentLength();

if (uclength＜200000) {

try{ read = new InputStreamReader(url.openStream()); }

catch(IOException io) {System.out.println("流打开错误:"+myurl);}

}

else System.out.println("文件太大，不分析");

}

if(read!=null){

reader=new BufferedReader(read);

if(reader!=null){

st = new StreamTokenizer(reader);

st.resetSyntax(); // 重置语法表

st.wordChars(0,255); // 令牌范围为全部字符

st.ordinaryChar('＜'); // HTML标记两边的分割符

st.ordinaryChar('＞');

}

catch(MalformedURLException e){ System.out.println("Malformed URL String!");}

}

void cleanup() {

try { read.close(); }

catch(IOException e) { System.out.println("流关闭错误"); }

}

void countWords() {

try {

while(st.nextToken()!=StreamTokenizer.TT_EOF) {

String s0="";

String s_NoCase="";

switch(st.ttype) {

case '＜': //入标记字段

outsideTag=false;

continue; //countWords();

case '＞': //出标记字段

outsideTag=true;

continue; //countWords();

case StreamTokenizer.TT_EOL: s0 = new String("EOL"); break;

case StreamTokenizer.TT_WORD: if(!outsideTag) s0 = st.sval; /*已经是字符

串*/ break;

default: s0 = "";// s0 = String.valueOf((char)st.ttype);/*单一字符*/

}

if(outsideTag) continue;//出了标记区域(＜a ＞)

String s = "";

s_NoCase = s0.trim();

s0=s_NoCase.toUpperCase();

if(s0.startsWith("A ")||s0.startsWith("AREA ")||s0.startsWith("FRAME ")||s0.s

tartsWith("IFRAME ")){ //以这些开始的都是超级链接

int HREF_POS = -1;

if(s0.startsWith("FRAME ")||s0.startsWith("IFRAME ")) {

HREF_POS = s0.indexOf("SRC=");

s0 = s0.substring(HREF_POS+4).trim();

s_NoCase=s_NoCase.substring(HREF_POS+4).trim();

}

else {

HREF_POS=s0.indexOf("HREF=");

s0=s0.substring(HREF_POS+5).trim();

s_NoCase=s_NoCase.substring(HREF_POS+5).trim();

}

if(HREF_POS!=-1) {

if(s0.startsWith("\""))

{s0=s0.substring(1);s_NoCase=s_NoCase.substring(1);}

int QUOTE=s0.indexOf("\"");

if(QUOTE!=-1)

{s0=s0.substring(0,QUOTE).trim();s_NoCase=s_NoCase.substring(0,QUOTE).trim

();}

int SPACE=s0.indexOf(" ");

if(SPACE!=-1)

{s0=s0.substring(0,SPACE).trim();s_NoCase=s_NoCase.substring(0,SPACE).trim

();}

if(s0.endsWith("\""))

{s0=s0.substring(0,s0.length()-1);s_NoCase=s_NoCase.substring(0,s_NoCase.l

ength()-1);}

if(s0.indexOf("'")!=-1||s0.indexOf("JAVASCRIPT:")!=-1||s0.indexOf("..")!=-1

)

{s0="";s_NoCase="";} //有这些符号，认为非合法链接；两点表示上一目录，而我

只想向下级查找

if ( !s0.startsWith("FTP://") &&//以下后缀或前缀通常非网页格式

!s0.startsWith("FTP://") &&

!s0.startsWith("MAILTO:") &&

!s0.endsWith(".SWF") &&

!s0.startsWith("../")) //因../表示上一目录，通常只需考虑本级和下N级目录

s=s0;

if (!s.startsWith("HTTP://")&&!s.equals("")) {s=UrlHost+UrlPath+"/"+s;s_No

Case=UrlHost+UrlPath+"/"+s_NoCase;}

else if(s.startsWith("/")) {s=UrlHost+s;s_NoCase=UrlHost+s_NoCase;}

if(s.startsWith("HTTP://")) {s=s.substring(7);s_NoCase=s_NoCase.substring(

7);}

int JinHao=s.indexOf("#"); //如果含有"#"号，表示有效的链接是此前的部分

if(JinHao!=-1) {s=s.substring(0,JinHao).trim();s_NoCase=s_NoCase.substring(

0,JinHao).trim();}

int H=-1; //以下将/./转换为/

for(int m=0;m＜4;m++){

H=s.indexOf("/./");

if(H!=-1) {s=s.substring(0,H)+s.substring(H+2);s_NoCase=s_NoCase.substring

(0,H)+s_NoCase.substring(H+2);}

}

int TwoXG=-1; //以下将//转换为/

for(int m=0;m＜5;m++){

TwoXG=s.indexOf("//");

if(TwoXG!=-1) {s=s.substring(0,TwoXG)+s.substring(TwoXG+1);s_NoCase=s_NoCa

se.substring(0,TwoXG)+s_NoCase.substring(TwoXG+1);}

}

int OneXG=s.indexOf("/");

if(OneXG==-1) {s=s+"/";s_NoCase+="/";} //将xx.xx.xx.xxx转换为xx.xx.xx.xxx/的

标准形式