平台简介
知网网络信息资源采集系统(KSpider)是一个集网络数据采集、分析、存储、管理及检索等功能于一体的网络信息资源整合系统。能够按照用户设定的站点定向采集数据,可以采集网络上的图片、word文档、ppt、pdf等各种形式的文档,并按用户设定的分类规则将采集回来的信息进行一定的智能分类处理,可以是按关键词的规则分类,也可以是基于样本模型的智能分类,也可以是按采集源站点或者频道的目录式分类(也就是按站站的URL特征进行分类),用户可以按分类导航进行分类检索,系统采用门户式、数据库式、搜索引擎式等多种发布形式,从而能够更有效地挖掘出用户所需要的信息。
产品特点
先进的智能代理:集成多种智能信息处理算法,可基于先进的语义规则技术进行浅层语义分析
强大的信息采集能力:高效的信息采集技术完成网络数据获取,能快速、全面、准确的从Internet上获取数据
体系结构灵活:采集蜘蛛群集,智能代理群集,应用服务器智能调度,各子系统可以随时断开随时连接到系统中来,不影响整个系统的运行
基于KBase的海量数据存储和全文检索:支持海量非结构化数据的存储管理,拥有成熟的全文检索技术,检索速度达500G/S,处于业界领先水平
优秀的发布系统:支持动态摘要和敏感摘要,并标红,Google风格检索,提供网页快照,网页自动关联
稳定可靠的系统性能:采用分布式的群集系统、高效的搜索算法以及灵活的体系结构,保证整个系统的稳定、易用
满足用户的各种个性化检索需求:支持用户自定义符合自己行业、企业特殊需求的个性化分词词典
支持主流的中文编码标准:包括GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),UTF-8,并且能够在不同的编码之间转换。