本篇文章是我读过Zac的免费电子书的笔记,深有感触,我把我认为是重点的地方做的笔记,分享给大家,欢迎讨论。
seo界一直流传着一句话:“seo的最高境界就是忘记seo。”看了zac的了解搜索引擎一文,潇墨枫想说:“在境界没达到时就别盲目跟风,把基础打好,真正领悟seo真谛,拥有seo意识后,你就可以把seo忘掉!” 何为seo,中文翻译是搜索引擎优化,要记住优化的是不是关键词排名,优化的是搜索引擎,有的人不理解了,不是一个意思嘛,其实不然,我指的是优化搜索引擎的友好度。很多seoer都喜欢站在搜索引擎的敌对立场,把搜索引擎当做敌人去战斗,时不时用点暴力手段,结果就被和谐了。现在换个位置,站在搜索引擎的立场去了解搜索引擎。所谓知彼知已百战不怠嘛,抛开其它方面,只谈技术上的难题,目前搜索引擎有以下几点难题:(以上是本人观点,不是Zac原述)
以下是笔记内容:
1、快速全面抓取互联网页面:
互联网每天都有无数个页面被更新,被创建,要返回有用的内容,搜索引擎要抓取最新的页面。针对这点要做到合理的组建网站链接结构(树状结构最科学!)去掉搜索引擎不能识别的内容,如flash,javascript脚本,不需要登陆就能访问网站页面等等来减小搜索引擎抓取页面内容的难度,增强友好度。
2、快速高效存储海量信息数据:
信息爆炸的时代,一些大型网站的一个子网站就有百万甚至上千万的页面,可想而知网上所有的页面加起来是个什么数据量。搜索引擎抓取了大理的页面后,要将这些数据写入服务器,所以为了增加友好度,我们的数据结构必须合理,网站的访问速度要求也很高。
3、快速准确索引信息数据:
搜索引擎抓取数据和存储后,还要对数据信息进行索引计算,以备查询处理。针对这点我们要合理的增加关键词密度,合理的布局关键词,增加网站相关度以增加对搜索引擎的友好。
4、快速查询处理用户的搜索请求:
用户在输入一个关键词后,点击搜索按钮后,通常在不到一秒的时间返回搜索结果。在几千万个包含关键词的页面中找到最合理,最相关的一千个页面,按照相关性,权威性排列。针对这点我们能做的就是相关性做好的前提下,尽可能的增加页面的权重。( 如果增加页面的权重 )
了解了搜索引擎的几大难点之后,我们再来看看搜索引擎的工作原理:
搜索引擎工作可以分成三个阶段:
1、爬行和抓取:搜索引擎spider通过跟踪链接访问网页,获得页面html代码存入数据库。
这个大家可以查看下自己网站的日志,我把几个常见的蜘蛛名称列出来
Baiduspider 百度蜘蛛
Yahoo!Slurp China雅虎蜘蛛
Yahoo! Slurp/3.0 英文雅虎蜘蛛
Googlebot Google蜘蛛
msnbot/1.1 微软Bing 蜘蛛
Sogou+web+robot搜狗蜘蛛
sosospider 搜搜蜘蛛
YodaoBot有道蛛蛛
2、预处理:索引程序对抓取来的页面数据进行文字提取,中文分词,索引等处理,以备排序调用。
这一块大家只要了解搜索引擎的遍历策略
一是深度优先,二是广度优化。
*深度优先:
是指蜘蛛沿着发现的链接一直向前爬行,直到前面再也没有其他链接,然后返回到第一个页面,沿着另一个链接再一直往前爬行
*广度优先:
是指蜘蛛在一个页面上发现很多个链接时不是顺着一个链接一直向前,而是把一个页面上所有的第一层链接都爬一遍,然后再沿着第二层页面上发现的链接爬向第三层页面。
由此可见,要想自己的更多页面被收录,就要想方设法去吸引蜘蛛。
3、排名:用户输入关键词后,排名程序调用索引库数据,计算相关性,然后按一定的格式生成搜索结果页面。
为了增强友好度,应该尽量减轻搜索引擎的负担。比如去停止词,如的,地,得之类的助词,啊,哈,呀 之类的感叹词, 从而,以,却之类的介词。这些词对内容没有任何影响,出现频率很高,在索引页面之前会掉这些停止词,去掉后会使索引数据主题更为突出,减少无谓的计算量。
指令搜索:(以下指令无特殊说明,百度谷歌均支持。)
1、双引号:完全匹配,用这个可以更准确地找到特定关键词的竞争对手。
2、减号:代表搜索不包含后面词的页面。使用这个指令时减号前面必须是空格,减号后面没有空格。紧跟着需要排除的词。
3、inurl: 用于搜索查询出现在URL中的页面。同样可以利用这个指令更准确地找到竞争 对手。
4、inanchor:返回的结果是链接锚文本中包含搜索词的页面,目前只有Google支持此指令。通过这个指令可以研究竞争对手的外部链接锚文本。
5、intitle:指令返回页面title包含关键词的页面。用这个指令可以更准确的找到比较强的竞争对手,一般有seo常识的对手都会把关键词放在title中。
6、site:是seo最熟悉的高级搜索指令,用来搜索某个域名下的所有收录文件。
7、不过site:指令并不准确,尤其是Google,返回的收录页面经常有大幅度波动,只能作为参考。
8、link: 用来查外链,百度不支持,谷歌会随机显示一小部分,雅虎较准确,使用格式link:http://www.tourjob.cc/
9、linkdomain:指令只适用于雅虎,返回的是某个域名的反向链接。用法:
linkdomain:ruhao.net-site:ruhao.net
得到的就是ruhao.net网站外部的链接,因为-site:ruhao.net已经排除本站的页面也就是内部链接,剩下的就是外部链接了。
10、related: 指令只适用于Google,返回的结果是某个网站有关的页面。用法:
related:1009.cc
11、综合使用高级指令:
组合起来使用千变万化,功能强大,一个合格的seo必须熟练掌握这几个常用指令的意义及组合方法,才能高效地找到更多的竞争对手和链接资源。
本文由中国旅游人才网(http://www.tourjob.cc/)收集整理,转载请注明出处,同时也请大家一同交流探讨一下。