SupeSite四步教会您制作采集器

很多朋友在论坛上发贴询问采集器的制作方法和一些细节问题。为了使得更多的站长更加方便地使用SupeSite的采集功能，特作此教程。

首先简单说一下制作采集器的基本原理和思路：

1、确定您要采集哪个页面的新闻，将这些页面的地址填入到“索引页面url地址（图4和5）”

2、确定在这些页面您要采集的内容区域，因为不是一个网页所有的内容都要采集回来，而是采集一个网页的一部分内容，所以您必须告诉程序您要采集的区域，也就是“列表区域识别规则”；（图4和5）

3、第2步确定区域之后，还要告诉程序您要采集的文章链接，也就是“文章链接url识别规则”。（图4和5）

4、现在已经确定了大的采集框架，接下来要告诉程序在一个文章页面，文章的标题，文章的来源和作者分别是什么。然后就是一篇文章内容的范围，也就是说一个文章页面内，真正您需要采集的范围，就是“文章内容识别规则”。最后设置分页的区域和分页的链接地址。（图6）

。

5、以上4个步骤已经确定了采集的范围，如果您需要过滤标题和内容，请根据您的要求设置“内容页面整理设置”。

以上几个步骤确定范围都是通过查看页面源码，进行设置的，截取的方法需要一些经验，练习2－－3次就可以领悟到了。

接下来介绍采集器的基本原理和步骤：

第一：打开后台的采集器，点击“添加新机器人”。（图1）

第二：填写基本设置：（图2）

这里需要特别指出的有两个地方：单次采集个数和采集页面编码。单次采集个数尽量设置较小的数字，以免超时。采集页面编码是您采集网页的编码，并不是您站点的编码。这里切记！！

查看采集页面编码的方法：点击网页头部的“查看”，然后点击“源文件”，然后找到类似“<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />” ，charset后面的就是这里需要填写的“采集页面编码”。（图3）

第三：列表页面采集设置：（图4）

和（图5）

这里设置的是采集页面的url地址，采集内容的区域范围，采集文章标题的url地址。

采集页面的url地址有两种设置方法：手动输入（图4）

和自动增长（图5）

。手动输入需要您自己将所需采集的地址逐行输入。自动增长只需填入采集页面的地址和页面页码。详见图5。用[page]代替分页变量。

采集内容的范围用[list]代替，采集文章的标题用[url]代替。

第四：内容页面采集设置：（图6）

这里需要设置的采集规则有：文章标题，文章来源（选填），文章作者（选填），文章内容，分页设置（选填）。

文章标题用[subject]代替，文章来源用[from]代替，文章作者用[author]代替，文章内容用[message]代替，分页区域用[pagearea]代替，分页链接用[page]代替。

之后的过滤设置可以根据您的需要和采集页面的具体情况进行填写。

设置完毕之后点击提交，然后点击“开始采集”（图7）

，图8

是采集的过程，采集完毕之后点击“查看结果”（图9）

，如果您的采集规则正确，可以得到图10

的页面，最后将采集的内容导入资讯。这里说明一点：采集的内容只能够导入资讯这个频道。