企业得小心放在互联网上但又不想曝光的信息不会让Google找到,戴尔上周就学了一个经验。
戴尔尚未发布的新款笔记型标准上周就可在Google搜索中找到,戴尔得知后立即将信息从戴尔 FTP网站中卸载。
一如其他主要搜索引擎,Google有一套自动搜索机制,会发送软件机器人(称之为蜘蛛)在网络上“爬行”,并将找到的网站加入网站检索中。由于蜘蛛会追踪各个网站中的链接,因此不需网管人员申请就可找出网站。
根据Google所公布给网管人员的信息,网管人员若不想让自己的网站或部分网页加入Google搜索中,可在服务器根目录下放置一个robots.txt的标准文件,告知爬虫不要下载内容。
若有紧急情况需要卸载者,Google也有提供一个自动的URL卸载机制给网管人员使用,但这需提供email地址与密码才行。
卸载的网页其实还是可以在Google的库存网页中看到,网管人员也可插入特定源代码来避免网页遭Google“库存”。
网管人员也需切记网络上除了Google外还有许多搜索引擎都会做同样的爬行机制,光是卸载Google的库存内容不见得其他搜索网站就看不到。