资源收集

资源收集

       包括:XML、PDF、Excel、Word、Txt、Epud、图片、图表、音视频、图书、期刊、、行业资讯采集、会议信息采集、展会信息采集等各种类型资源的收集。

 

 

资源入库的过程

       系统支持对XML、PDF、Excel、Word、Txt、Epub、图片、图表、音视频、图书、期刊等在内的多种资源格式的入库管理,其中对于图书、期刊这种资源类型的文件入库后,系统将自动提取文件中的目录结构,自动记录图片、图表、PDF、WORD、EXCEL、HTML等资源与图书、文献之间的关联。并根据最小的目录单元对文件自动碎片化。用户也可以根据实际需要,对目录结构和碎片化资源进行拆分和重组。

 

导入的目录结构

       系统提供了高性能的多任务网页采集器,用于从其他指定平台上采集与本网站相关的文章和数据,以便于实现自动转载和行业数据整合,并且可以将采集信息集中到某个分类。对于所有入库的数据信息系统,将进行自动的查重工作,以避免资源的重复录入。