从Web采集可以将别的网站上面的新闻,转到自己的网站上。我们可以定义设置一个采集的任务,告知系统目标网站地址等必要的参数,让系统自动完成采集的工作。

点击“从Web采集”菜单,打开页面如下所示:

1.新建任务

点击列表区的“新建”按钮,跳转到新建页面,如下图所示:

下载远程图片和文件:将采集的网页中的图片和文件下载到本地。

采集完后手动处理:采集任务执行完成后系统默认会将采集进来的数据处理成系统识别的文档,若勾选此项后,系统不会自动进行处理,需要点击“处理数据”,在弹出的对话框中选择需要处理的记录,数据才会转换成文档。

URL层级:起始URL中填写目标网站某个栏目的列表页地址,点击“增加URL层级”按钮,出现2级URL,在这里填写目标栏目的新闻页面的URL地址。

在“高级选项”中,可以设置内容页/列表页最大采集数、采集线程数、超时等待时间等参数。

如果您所在的网络上网需要代理服务器,可以在下边的“使用代理服务器”中,设置服务器地址、端口、用户名、密码等信息。

如果被采集页面的URL有一定规则,则需要设置过滤URL的表达式。

匹配块:在“匹配块”选项卡中,填写的是采集页面的解析规格,匹配块的填写方式有两种:简单匹配和复杂匹配。下图所示的是复杂匹配块:

在目标新闻页面中,新闻标题和新闻正文通常都被一个HTML标签,或一段固定的HTML代码所包围,按照这个规律填写匹配块的内容,系统就能解析出我们想要的新闻标题和新闻正文。

过滤块:在“过滤块”选项卡中,填写需要去掉的代码块。

2.类似创建

在任务列表中,选择一个任务,点击“类似创建”按钮,跳转的页面与新建页面相似,内容数据来自所选的任务记录,根据需要,修改信息后,点击“保存”按钮,便会创建一条与所选任务相似的任务记录。


3.编辑任务

列表区选择一个任务记录,点击任务名称,跳转到编辑页面,修改信息后,点击“保存”按钮,修改即生效。

清空采集数据

采集数据是指从指定的URL中下载文本文件和图片文件,不包括已经转入栏目的文章。

如果需要清空某个任务中的采集数据,在列表区选择一条任务记录,点击任务名称,展开省略号,点击“清空采集数据”按钮,即清除该任务所采集的数据。

执行任务

建立了web采集任务后,还需要采集任务真正的执行,才能获得其它网站的数据。在列表区,选择一个采集任务,点击任务名称,点击“执行任务”按钮可以让采集任务执行。

终止执行

如果需要终止采集任务,比如采集的时间过长或采集任务占用CPU资源太多,在列表区中点击该任务名称,再点击“终止执行”按钮,可终止采集任务的执行。

处理数据

采集完成后系统会自动按匹配块中定义的规则提取文章内容和标题,并将提取成功的URL自动转化为指定栏目下的文章(文章状态为初稿),如果有未能提取成功的URL,修改内容匹配块,点击任务名称,然后点击“处理数据”按钮,再次运行数据提取程序。

注意:此时不需要再次选择执行任务了,因为网页已经采集到了服务器。如果再次执行任务,系统将会尝试再次下载网页。

采集结果

在“采集结果”选项卡中,可查看采集出来的结果。状态为已处理的内容,才会到指定栏目中成为初稿状态的内容。

4.删除任务

列表区选择一个任务记录,点击“删除”按钮,便可删除该任务。