当前位置: 王朝网络 >> other >> 浅谈搜索引擎技术的难点

浅谈搜索引擎技术的难点

王朝other·作者佚名 2008-05-31

索引擎的难点包括如下几点：

1) 是否支持并发的爬取数据，如果要并发，要保证所有采集器能合作采集，不会出现重复采集的情况.

2) 采集的数据还要有一个排重的过程. 只需要采集一个网站更新的数据

3) 对于需要cookie数据的网页如何采集的问题,部分网站需要通过cookie数据登陆网站

4) 自动通过识别码的验证

5) 一些网站对于密集访问的请求会拒绝，技术上也要进行处理

6) 对于一些特殊网页的采集问题, 比如flash网页，一些游戏网页等，很多网站会让采集程序陷入其中，采集数万无效数据，显然是浪费了采集程序的精力

7) 大数据量的存储也是个难点，据说Google的存储是自己开发的架构，没用任何的数据库，因为数据库的查询效率还是有一定损失. 可以采用数据块的模式，然后通过散列表的模式连接.

以上主要列出的是后台采集器的相关技术难点，在前台检索、查询效率等方面仍有许多难点.

免责声明：本文为网络用户发布，其观点仅代表作者个人观点，与本站无关，本站仅提供信息存储服务。文中陈述内容未经本站证实，其真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。