首先,你必须了解爬虫很喜欢文本。页面上的每段信息最终都转化为一串单词。域名站点的名字)、.URL(网络地址,全称:Uniform Resource Locator)、文件名(你所创建的文件的名字)或者页面标题,这些都是文本块。而页面meta标签(表述页面信息的元素)、标签、页面文本,甚至就连图片的alt标签(用于描述图片的信息,为爬虫或者视觉有障碍的人士提供)也都是文本块。就连每个页面的上的入链和出链也都是文本块。
做得要更多些,它需要查看所有链向你的页面(或者被你链向)的所有页面的文本块。简而言之,对于Googlebot来说,万物皆是文本块。
如果你在论坛里面看到有人说“域名不重要”,或者“alt标签被高估了”,请忽略这些观点。就像SEO葵花宝典http://www.seo-seo.com.cn说过的,SEO就像往一面墙上扔泥巴,你每扔一块,墙上多少都会沾上一些。
你扔得越多,沾的就越多。在你追求成功的时候,不要忽视任何一个文本块。
每个文本块都有开始、结束和中间的模式。Google会单独地检查每个文本块,并放在索引当中作为页面收录的一部分。可以做一个实验,在搜索引擎上通过intitle:
或者inurl:anykeyword操作符(比如intitle:antiques或~inurl:antiques)来搜索,你将会看到,对于每个文本块,Google将其放在单独的索引中(权重也是分别计算的)。在评价一个文本块的时候,Google假定相关关键字在每个文本块中的前部出现;一起出现;经常出现。简单来说,就是爬虫关注突出度、邻近度和密度。