泽元全文检索系统(ZSearch)

ZSearch基于J2EE构建,采用分布式架构,具有很好的扩展性、准确性和实时性,在同义词扩展、高亮查询结果、专业分词、实时索引、高效压缩、机器学习等方面,都有很强的技术优势。系统引入了多种人工智能模型以改进查准率和查全率。随着数据量的不断增加,ZSearch的分布式架构能够很好的解决性能瓶颈,仅需简单地配置新增节点,即可快速应对数据的爆发式增长。


产品简介

智能检索

ZSearch基于J2EE构建,能够实现高性能的站内文章、图片、音视频、商品等信息的智能检索,按栏目、按作者、按发布时间、按关键词等条件进行高级检索,并根据用户的搜索习惯提供搜索联想、搜索纠错、搜索推荐等。并可商业开源。

垂直搜索

ZSearch提供多线程、容错性强的Web爬虫,可以从其他网站大量采集网页。同时还提供独创的、兼容性强、使用简易的HTML数据模板机制,使得从网页中提供结构化数据变得极为容易,从而快速实现行业垂直搜索引擎。


自定义词典

ZSearch能够根据搜索引擎所涉及的领域不同,可以快速增加自定义词典,能够达到1秒分词100万汉字的性能要求。


功能特点

机器学习与数据挖掘

针对专业领域内容的检索,我们基于ES进行了深入的定制化开发,增加了参数调整、优化了针对专业领域词汇的分词算法和新词挖掘算法,还基于用户的点击反馈对检索结构进行了优化。

高效分布式索引

检索系统的高效分布式索引子系统具有低膨胀率、高度并发、高度可扩展等特征,由文本预处理、索引创建、索引更新、索引删除四个功能模块,以及一个可调用的索引压缩模块和一个索引文件系统组成。

多种检索方式

包括按图书检索、单篇资源检索、图片检索、全文关键词检索、跨库检索等资源多维度检索方式,可满足用户对数字内容资源的全方位提取和利用。

检索词推荐

ZSearch支持检索词推荐。系统从用户log中查询热度较高的查询词,过滤掉其中不适合推荐的词后找最为相关和有用的词进行推荐。

先进的排序算法

ZSearch采用一种改良的多域检索排序算法,支持按照相关度排序或者按照时间排序,为了保证系统的可扩展性,当按照时间排序时,同一时间的文章按照相关度排序。如果相关度一样的时候,我们按照时间新旧来排序这些相关度一样的文章。

人工干预排序

支持对检索结果进行人工干预,针对不同字段设置不同权重,从而影响检索结果的排序方式;还可以根据用户实际需求,定制开发具有特色的检索系统,如分析用户的属性、浏览历史、感兴趣的类别、检索词等,动态给更贴近用户期望的检索结果加权。

中英、简繁自动翻译检索

检索中对输入的中文内容通过有道翻译api接口进行实时翻译,通过内置的简繁字体库实时翻译为繁体(繁体也可以实时翻译为简体)。使用简体内容、繁体内容、英文内容组装检索条件。检索结果将是可能包含三种语言文字的内容混合。

知识图谱

利用深度数据挖掘技术及知识分析技术,系统可以通过大量数据分析将搜索结果生成知识图谱,以结构化、可视化的图形方式将知识人物等数据间关系展现出来,为科学研究提供有价值的分析参考。

典型案例