全媒体内容采集
泽元“中央厨房”解决方案为编辑记者提供多种内容回传手段,收集发布针对性创意选题和传统媒体约稿,方便将数据传入采编平台,同时系统提供对报道需要的采编用户实时信息的自动化采集功能,为后期媒体传播提供全面完整素材。
一键转载
一键转载工具箱是系统提供的一种书签工具栏按钮,能帮助编辑人员快捷的转载外站文章及完成后台内容在前台管理的操作。
工具箱中的一键转载功能可以实现对互联网大部分网站的文章进行正文的无规则提取。
具体如下:
① 支持文章标题自动获取。
② 支持文章正文的自动提取,正文提取算法提取成功率达95%。
③ 支持TAG词、来源自动提取填充,减少编辑工作量,提升工作效率。
④ 支持源站文章的分页采集、无需人工翻页。
WEB采集
系统提供了高性能的多任务网页采集器,用于从其他指定网站上采集与本网站相关的文章和数据,以便于实现自动转载和行业数据整合。
系统的WEB采集功能具有以下特性:
可以同时执行多个采集任务,每个任务又可以使用多个线程;
采集器支持多层导航,以便于深入站点内部;
采集器使用自定义的文件存储结构,可以采集上亿个网页,支持TB级数据量;
采集器支持历史记录功能,能有效避免重复采集;
采集器支持配置匹配块与过滤块,实现采集目标页面内指定的属性信息,过滤有效信息内嵌入的其他内容。
支持网站登录采集,可以采集需要登录才能看到的页面;
支持模拟表单提交,可以轻松采集以POST方式提交的页面。
采集时可以使用代理服务器。
网页采集器支持脚本,可以在运行时动态计算URL,或通过脚本模拟动态页面表单提交。
采集结果可以自动提取网页正文,支持采集结果转成栏目文章,也可以采集成自定义数据表,以提供给模板使用。