[spider] 爬虫总体模型 - 王朝网络宽屏版

最近只想把以前的小程序好好整理，改改简历，提高简历的魅力（至少也得减少一点排斥力，哈~），结果感觉动力不太明显，活干得不怎么利落，面对以前乱七八糟的东西，一下也拾不起来，生活习惯一下改变，也有一点不太习惯……。唉…… WK说他要做一个企业内部的“信息搜索工具”，暂且就这么叫吧，^_^ 想和我讨论一下以前我写的爬虫模型，以及相关实现。于是就重新拿起未完善的spider 代码，重新研究。其实本来我也打算把这个改一下，好提前交了毕业设计。

以前写得较急，说到总的模型，也曾经考虑过，不过没太具体，写代码时，总是基于方便，临时改变了许多，最后还是成了个大杂烩，哈~，是该改改了，和WK花了一天时间讨论，终于讨论了个比较清晰的模型，看起来好象也挺不错，可以写代码了，因为WK只要求企业内部网页搜索，实在是很轻量级的数据，因此什么URL数据库，什么URL消重，页面保存啊几乎都不会成为瓶颈，不过我却想把URL数据存储结构先设计一下，哈~ 因为根据我21年的经验，如果我现在不设计，以后其他的全部写完了，我的动力周期就差不多到低谷了，肯定懒得写了。因此…… 恩EH~··#￥，我还是要先设计一下具体的数据结构，以及如何优化，当然了，基本的思路已经定下：以trie 树为基本数据结构，目的是消重实在很快，尽管缺点是占用N大的额外空间。 ……

******

只顾着改后面的结构，忘记把URL数据处理给分离开了……， spider_manager 负责的只有对各个 downloader 的控制 start stop suspend resume shutdown ... 。至于 URL 数据库和URL队列（功能同cash）应该组合为 UrlManager 这样就差不多了，哈……