数据通道

作者:  最后修改:2012年07月24日  浏览数:1404

数据通道

从Web采集

  采集可以将别的网站上面有用的新闻,转到自己的网站上。我们可以定义设置一个采集的任务,告知系统目标网站的地址等必要的参数,让系统自动完成采集的工作。

  点击“从Web采集”菜单,打开界面如下所示:

 

  点击列表区的按钮,打开新建web采集任务的对话框,如上图所示。

  在“基础信息”选项卡中填写相关信息。起始URL中一般填写目标网站某个栏目的列表页地址,点击按钮,出现2级URL, 在这里一般填写目标栏目的新闻页面的URL地址,上图中使用了${A}和${D}来匹配符合某种形式的新闻页面名称。

  在“高级选项”中,可以设置内容页/列表页最大采集数、采集线程数、超时等待时间等参数。

  如果您所在的网络上网需要代理服务器,可以在下边的“使用代理服务器”中,设置服务器地址、端口、用户名、密码等信息。

  如果被采集页面的URL有一定规则,请设置过滤URL的表达式。

  在“匹配块”选项卡中,填写的是采集页面的解析规格,如下图所示:

 

  在目标新闻页面中,新闻标题和新闻正文通常都被一个HTML标签,或一段固定的HTML代码所包围,按照这个规律填写匹配块的内容,系统就能解析出我们想要的新闻标题和新闻正文。

  在“过滤块”选项卡中,填写的是需要去掉的代码块。

 

 

类似创建

  在任务列表树中,选择某个任务记录,然后点击按钮,打开的对话框与新建对话框相似,内容数据来自所选的任务记录,根据需要,修改信息后,点击“确定”按钮,便创建一条与所选任务相似的任务记录。

 

编辑Web采集任务

  列表区选择某个任务记录,右侧显示区列出的是该任务的基础信息、匹配块、过滤块、采集结果等信息。

  在右侧区域不同的选项卡页面修改信息后,点击“保存”按钮,修改都被保存。

 

删除Web采集任务

  列表区选择某个任务记录,点击上方的按钮,便可删除该任务。

 

清空采集数据

  采集数据是指从指定URL下载的文本文件和图片文件,不包括已经转入栏目的文章。

  如果需要清空某个任务中的采集数据,在列表区选择该任务记录,点击按钮,清除该任务所采集的数据。

 

执行采集任务

  建立了web采集任务后,还需要采集任务真正的执行,才能获得其它网站的新闻数据。在列表区,选择某个采集任务记录,在其右侧区域点击按钮可以让采集任务执行。

 

中止执行采集任务

  如果需要中止采集任务,比如采集的时间过长或采集任务占用CPU资源太多,在列表区中选择该任务记录,再点击

按钮,可终止采集任务的执行。

处理数据

  采集完成后系统会自动按匹配块中定义的规则提取文章内容和标题,并将提取成功的URL自动转化为指定栏目下的文章(文章状态为初稿),如果有未能提取成功的URL,修改内容匹配块,然后点击按钮,再次运行数据提取程序。

  注意:此时不需要再次执行任务了,因为网页已经采集到了服务器。如果再次执行任务,将会尝试再次下载网页。

采集结果

  选择某个采集任务,切换到“采集结果”选项卡,可以查看该任务的采集结果,界面如下: