SEO非常重要,但对于起步者来说,通过原创或消耗大量人力内容编辑去做流量、做排名并非易事。
SEO是通过合理手段使得网站易于搜索引擎索引,从而使得网站对用户友好(User Friendly)、对搜索引擎友好(Search Engine Friendly),进而更容易被搜索引擎收录并达到优先排序的目的。SEO工作贯穿网站的策划、建设、维护整个过程的每一个细节。策划并非易事,一个好的点子比建设和维护更加重要。对于初学者来说,而有些好的创意往往因为无力建设和维护而不得不搁浅。
下面我们以一个网站为例来说明一个低门槛的创意,以抛砖引玉。在本例中,我们将分析这个网站的得失,希望这一网站的建设者也能看到此文,以参考改进。
近日,一个pdf文档搜索引擎http://paper-search-engine.com引起了我们的注意。这个网站是一个以pdf文档搜索为用途的专业网站,可以提供pdf paper的摘要、预览、搜索功能,是实用的。初学者可能觉得这个网站过于专业,门槛过高,而实际情况并非如此。
这一网站的创意实际上是借鸡下蛋:其提供的搜索内容大都来自于Google。因此可以判定这个paper search engine并未开发自己的搜索引擎内核,而仅仅是一个内容聚合器。(如果判断错误,愿意和网站站长讨论)。那么,这样一个没有自己内核的网站是如何引起爬虫兴趣的呢?
我们在这个网站的搜索框中输入一组关键词,比如“paper search”,然后回车,会看到结果页面为“http://www.paper-search-engine.com/pdf/paper-search-pdf.html”。如果我们细心点,会发现,短时间内如果再搜索这个“paper search”,该网站返回的是一个HTTP 304(Not Modified),这就意味着,用户这一搜索结果页面已经被存储起来。假如爬虫找到这个页面,那么,爬虫肯定会对这一结果页面上的相关文章链接和摘要感兴趣。那么,爬虫并不会自己输入查询,它是怎么到达这一结果页面的呢?
在本网站内容首页,可以看到一行“Popular Searches”。点击任意标签看到这些国家的搜索记录,如果点击这些搜索记录就能进入相应的结果页面。GOOD!这就是秘密所在了:这一文档搜索引擎将用户的最近搜索存入了数据库,并按照国家分类存储了起来。这样,爬虫就能根据这些Popular Searches Tag逐级爬取,并乐此不疲。
更重要的是,当google爬取了搜索结果后,google会将这些关键词页面作为内容存储到google的数据库中。这就是改网站的精妙之处了。因google的收录,当用户通过google搜索响应关键词时,会在不自觉的情况下进入paper-search-engine.com的相应关键词页面上。而因为这一搜索引擎具有一定的实用性,用户可能使用这个引擎再次搜索其它关键词,这样,这些新的关键词又被这一文档搜索引擎写入数据库并生成新的搜索结果页,进而又引起google爬虫兴趣。看吧,这是在滚雪球;而且,无需维护。
在分析本网站时候,我们也注意到设计者并非SEO高手,比如,网站的keyword竟然是“paper search engine,ebook,pdf,business plan,finance book,technology book,business book,marketing book,science book,free ebook,free ebooks,pdf search,search pdf”。这个两公里长的关键词组足以吓死很多爬虫。
希望初学者能从本文中受益。