SEO葵花宝典：万物皆是文本块

首先，你必须了解爬虫很喜欢文本。页面上的每段信息最终都转化为一串单词。域名站点的名字)、.URL(网络地址，全称：Uniform Resource Locator)、文件名(你所创建的文件的名字)或者页面标题，这些都是文本块。而页面meta标签(表述页面信息的元素)、标签、页面文本，甚至就连图片的alt标签(用于描述图片的信息，为爬虫或者视觉有障碍的人士提供)也都是文本块。就连每个页面的上的入链和出链也都是文本块。

做得要更多些，它需要查看所有链向你的页面(或者被你链向)的所有页面的文本块。简而言之，对于Googlebot来说，万物皆是文本块。

如果你在论坛里面看到有人说“域名不重要”，或者“alt标签被高估了”，请忽略这些观点。就像SEO葵花宝典http://www.seo-seo.com.cn说过的，SEO就像往一面墙上扔泥巴，你每扔一块，墙上多少都会沾上一些。

你扔得越多，沾的就越多。在你追求成功的时候，不要忽视任何一个文本块。

每个文本块都有开始、结束和中间的模式。Google会单独地检查每个文本块，并放在索引当中作为页面收录的一部分。可以做一个实验，在搜索引擎上通过intitle：

或者inurl：anykeyword操作符(比如intitle：antiques或~inurl：antiques)来搜索，你将会看到，对于每个文本块，Google将其放在单独的索引中(权重也是分别计算的)。在评价一个文本块的时候，Google假定相关关键字在每个文本块中的前部出现;一起出现;经常出现。简单来说，就是爬虫关注突出度、邻近度和密度。