分享
 
 
 

开发自己的搜索引擎---Lucene+Heritrix(第2版)(附光盘)

开发自己的搜索引擎---Lucene+Heritrix(第2版)(附光盘)  点此进入淘宝搜索页搜索
  特别声明:本站仅为商品信息简介,并不出售商品,您可点击文中链接进入淘宝网搜索页搜索该商品,有任何问题请与具体淘宝商家联系。
  參考價格: 点此进入淘宝搜索页搜索
  分類: 图书,计算机/网络,程序设计,Java Java Script J2EE,

作者: 邱哲,符滔滔,王学松 编著

出 版 社: 人民邮电出版社

出版时间: 2010-1-1字数: 773000版次: 2页数: 562印刷时间: 2010-1-1开本: 16开印次: 1纸张: 胶版纸I S B N : 9787115215291包装: 平装最佳拍档

开发自己的搜索引擎---Lucene+Heritrix(第2版)(附光盘)

开发自己的搜索引擎---Lucene+Heritrix(第2版)(附光盘)

深入搜索引擎—...

开发自己的搜索引擎---Lucene+Heritrix(第...

与此1件拍档商品一同购买

总定价:¥148.00

总当当价:¥123.50

开发自己的搜索引擎---Lucene+Heritrix(第2版)(附光盘)

请至少保留一件商品。

编辑推荐

原书是国内第一本讲解搜索引擎开发的畅销书

内容新颖、实用,提供了价值上百万元的大型数码产品搜索引擎开发案例,可直接应用于项目

用案例的方式讲解,便于读者实践

内容简介

本书是一本介绍搜索引擎开发的书籍,通过本书,读者可以独立构建一个企业级的搜索引擎网站。本书讲解了搜索引擎与信息检索基础,Lucene入门实例,索引的建立,使用Lucene来搜索,排序,分析器,对Word、Excel和PDF格式文档的解析,Compass搜索引擎框架,Lucene分布式,爬虫Heritrix,HTMLParser,DWR等内容。最后综合这些技术,构建了一个典型的垂直搜索系统,具有很强的商业实用价值。

本书是一本使用Lucene和Heritrix来讲解搜索引擎构建的书,通过对API和源代码的分析,力求使读者在应用的基础上,能够深入其核心,自行扩展和开发相应组件,发挥想象力,开发出更具有创意的搜索引擎产品。

本书适合Java程序员和从事计算机软件开发的编程人员阅读,同时也可以作为搜索引擎爱好者的入门书籍。

目录

第1章搜索引擎与信息检索

1.1搜索引擎的历史

1.1.1萌芽:Archie、Gopher

1.1.2起步:Robot(网络机器人)的出现与Spider(网络爬虫)

1.1.3发展:Excite、Galaxy、Yahoo等

1.1.4繁荣:Infoseek、AltaVista、Google和Baidu

1.2信息检索系统的基本知识

1.2.1信息检索系统

1.2.2信息检索的过程

1.2.3传统查找的优点和不足

1.2.4使用索引提高检索速度

1.2.5倒排索引

1.2.6评价信息检索系统的标准

1.3Lucene的简介

1.4小结

第2章Lucene入门实例

2.1实例介绍

2.1.1实例说明

2.1.2开发过程

2.2准备工作

2.2.1将文档的全角标点转成半角标点

2.2.2将大文档切分成多个小文档

2.2.3预处理源文件的统一接口

2.3创建Eclipse工程

2.3.1准备工作

2.3.2创建工程并引入Lucene的JAR包

2.3.3运行文档预处理类

2.3.4创建处理文档的索引类:IndexProcessor

2.3.5创建检索索引的搜索类

2.4运行效果

2.5小结

第3章索引的建立

3.1Document逻辑文件

3.1.1Lucene的Document

3.1.2为Document添加多种Field

3.1.3Document的内部实现

3.2Field的内部实现

3.2.1Field包含的类

3.2.2Field类的构造方法

3.3Lucene的索引工具IndexWriter

3.3.1IndexWriter的初始化

3.3.2向索引添加文档

3.3.3限制每个Field中的词条的数量

3.4Lucene索引过程详解

3.4.1Lucene索引建立过程概览

3.4.2使用addDocument方法向索引添加文档

3.4.3DocumentWriter的addDocument方法

3.4.4文档的倒排

3.4.5对postingTable进行排序

3.4.6将Posting信息写入索引

3.5索引文件格式

3.5.1索引的segment

3.5.2.fnm格式

3.5.3.fdx与.fdt格式

3.5.4.tii与.tis格式

3.5.5deletable格式

3.5.6复合索引格式.cfs

3.6索引过程的调优

3.6.1合并因子mergeFactor

3.6.2maxMergeDocs

3.6.3minMergeDocs

3.7索引的合并与索引的优化

3.7.1FSDirectory与RAMDirectory

3.7.2使用IndexWriter来合并索引

3.7.3索引的优化

3.8从索引中删除文档

3.8.1索引的读取工具Index-Reader

3.8.2使用文档ID号来删除特定文档

3.8.3使用Field信息来删除批量文档

3.9Lucene的同步问题

3.9.1为什么要进行同步以及Lucene的同步法则

3.9.2commit.lock与write.lock

3.10Lucene 2.0的新类:IndexModifier类

3.11小结

第4章Lucene搜索

第5章排序、过滤和分页

第6章Lucene的分析器

第7章Word、Excel和PDF的处理

第8章Compass:封装了Lucene的框架

第9章Lucene分布式

第10章无比强大的网络爬虫Heritrix

第11章搜索引擎综合实例:准备篇

第12章搜索引擎综合实例:下载篇

第13章使用正则表达式与HTML Parser分析网页

第14章网页内容存储与索引

第15章搜索引擎综合实例:交互篇

第16章搜索引擎综合实例:Web篇

附录Lucene 2.4更新内容

 
 
免责声明:本文为网络用户发布,其观点仅代表作者个人观点,与本站无关,本站仅提供信息存储服务。文中陈述内容未经本站证实,其真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。
2023年上半年GDP全球前十五强
 百态   2023-10-24
美众议院议长启动对拜登的弹劾调查
 百态   2023-09-13
上海、济南、武汉等多地出现不明坠落物
 探索   2023-09-06
印度或要将国名改为“巴拉特”
 百态   2023-09-06
男子为女友送行,买票不登机被捕
 百态   2023-08-20
手机地震预警功能怎么开?
 干货   2023-08-06
女子4年卖2套房花700多万做美容:不但没变美脸,面部还出现变形
 百态   2023-08-04
住户一楼被水淹 还冲来8头猪
 百态   2023-07-31
女子体内爬出大量瓜子状活虫
 百态   2023-07-25
地球连续35年收到神秘规律性信号,网友:不要回答!
 探索   2023-07-21
全球镓价格本周大涨27%
 探索   2023-07-09
钱都流向了那些不缺钱的人,苦都留给了能吃苦的人
 探索   2023-07-02
倩女手游刀客魅者强控制(强混乱强眩晕强睡眠)和对应控制抗性的关系
 百态   2020-08-20
美国5月9日最新疫情:美国确诊人数突破131万
 百态   2020-05-09
荷兰政府宣布将集体辞职
 干货   2020-04-30
倩女幽魂手游师徒任务情义春秋猜成语答案逍遥观:鹏程万里
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案神机营:射石饮羽
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案昆仑山:拔刀相助
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案天工阁:鬼斧神工
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案丝路古道:单枪匹马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:与虎谋皮
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:李代桃僵
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案镇郊荒野:指鹿为马
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:小鸟依人
 干货   2019-11-12
倩女幽魂手游师徒任务情义春秋猜成语答案金陵:千金买邻
 干货   2019-11-12
 
推荐阅读
 
 
>>返回首頁<<
 
 
靜靜地坐在廢墟上,四周的荒凉一望無際,忽然覺得,淒涼也很美
© 2005- 王朝網路 版權所有