动态链接是指网页中爬虫无法识别的链接。爬虫的链接提取器不能从网页中提取出所有的链接,因为有一些可能存储在特定格式(如JavaScript)中,而链接提取器无法对这种格式解码。这种链接的格式直接影响到爬虫爬取页面的数量。下面描述了一种类型的动态链接。
早期网络中的链接只有一种简单的格式。它们必须以“开始,以”结束。引用标记是可选的,可以插入空格符,但是一个爬虫只需要在网页中查找“
有效遍历的障碍不仅包括JavaScript还包括Java和Shockwave。网站设计者需要注意:如果希望自己的站点能够被商业搜索引擎的爬虫访问,就必须保证所设计的网页中有足够多的“标准”链接(即HTML链接)。
本文由减肥瘦吧www.jfs8.cn 站长:小时候 供稿seo链接交换群:90108722