上周我们预告了Google将会增加一个新的Meta标签“unavailable_after”,它允许我们手动指定某个网页的失效日期,以提醒Google的爬虫在该日期后不再抓取含该标签的网页。不过上周我们并不清楚这个标签到底是怎样使用的。SEL今天从Google的产品经理Dan Crow那里了解到这个标签的详情用法,下面和大家分享一下。
要使用“unavailable_after”标签,只需要在网页的头部加入以下的Meta语句即可:
<META NAME="GOOGLEBOT" CONTENT="unavailable_after: 日期 时间 时区">
其中的日期、时间、时区(缩写)分别用23-Jul-2007、19:18:17、EST这种格式。当Google的爬虫看到网页里包含这个标签时,它不仅会不再抓取这个网页,还会在一天左右的时间内将网页从Google的搜索结果里除去。值得注意的是,Google Cache里的相关的网页快照依然会存在。要想移除Google Cache里的记录,得给网页加上noarchive标签