2005-2-5
本文档详细介绍了网页数据采集系统的架构和运行机理。第一章简单介绍了Spider的设计意图和模块构成。第二章简单介绍了Spider.Crawler层如何抓取网页并落地。第三章简单介绍了Spider.Parser层如何解析落地网页,并生成数据XML文件。第四章简单介绍了Spider.Saver层如何解析落地XML文件,并生成SQL语句,同时插入数据库记录。
[.NET开发] C#中把RSS输出为HTML——开发自己的RSS Reader #
C#中把RSS输出为HTML的一个简单例子
本文介绍了开发Internet蜘蛛程序的基础知识,下面提供的源代码将帮助你进一步深入理解本文的主题。这里提供的代码非常灵活,你可以方便地将它用于自己的程序。
我认为评价一个Blog的受欢迎程度,主要集中关注它的rss文件被订阅的情况就可以了,因为通过聚合器来阅读Blog是很多Reader的首选,订阅者的欢迎要比搜索者的蜻蜓点水更重要。如果把给Blog进行排名的大任压到Blogline、NetNewsWire等网站身上,会不会又把它们变成第二个Alexa呢?鉴于最近tag满天飞,Blog里面的帖子被摘走的多少也可以做为一个评价因子,人收录的东西要比bot盲目index的有价值多了,这样的话,是不是把del.icio.us也给败坏了呢?顺便说一嘴,相对搜索引擎的bot,聚合器的bot要厚道的多,过来访问的时候还会把订阅数量汇报一下哦。
2004年,段永基说:“史玉柱这个营销团队相当于中国保健品领域的美国戴尔公司。我看好的就是史玉柱和他的这个团队,” “脑白金就其技术含量来说,什么都不是”,但“真的白金卖出白金价,不是本事;而把不是白金的东西卖出了白金价,那才是真功夫。”
我比较感兴趣的是,Monster.com建立有自己的Blog,不知进入到ChinaHR之后,会不会影响到ChinaHR也同样建立公司的Blog呢?如果一家“传统”的在线招聘网站做Blog的话,我觉得不妨学学这个Blog:Blogger Jobs,专门由Blogger发布职位需求或提供Blogger工作机会的Blog,这样Blog的社会性和基于信任关系的特点便能够充分地体现出来。
[IT业界] 数字商业时代:天极TechTarget精准出击 #
1999年成立、总部设在美国波士顿的TechTarget是美国少数业务在2000年之后仍持续增长的IT媒体及服务公司之一。“我们有超过1500个广告客户,包括IBM、惠普、思科、英特尔、Oracle、微软等。我们在2004年的收入为5000万美元,比2003年的3300万美元提高了52%.”TechTarget负责国际业务的副总裁苏珊。奥代尔解释道,该公司从2002年开始盈利,预计在未来3年内的收入将达到1亿美元,利润率超过30%.
[365Key报道] 江民等一批网站联手365key共享用户和流量 #
365key 2.0版正在开发之中,会和Blog/CMS/BBS做深度融合,抄袭365key帮助文件的人,无法抄袭其精髓以及对互联网的理解。另外,365key台湾版和英文版也将陆续上线。
更多新闻,请访问我的365Key(RSS),你可以通过365Key订阅。