亨者搜索系统由智能搜索系统和智能信息采集系统两部分构成。
智能搜索系统采用XML和Agent技术的WEB智能元搜索(metadata
search)引擎系统。采用元搜索引擎的结构,以Agent作为架构系统的基本组件,利用Agent的自治性和协作性来完成用户个性化信息的搜索;利用XML和XSL分别在结构化信息表达方面,在信息显示、转换方面的优点,来实现元搜索引擎的扩展性以及基于XML和XSL在查询请求和搜索结果转换上实现XML的Agent通信。
特有的优势:
①提高搜索速度、智能化处理搜索结果、个性搜索功能的设置和用户检索界面的友好性上,查全率和查准率都很高。
②智能检索(Intelligent Search) 智能检索的含义就是检索系统能够自动地分析检索结果,为用户提供最精准的信息。
③数据量大 实时更新 个性化和智能化
④进行词条切分时,先根据标点进行粗切分,然后再分别使用正向和逆向最大匹配法进行细切分。在进行词频统计时,考虑到自然语言的多样性,系统建立并使用相应的同义词典、相关词词典等辅助词典,以提高信息匹配的准确度。
智能信息采集系统也叫智能网络蜘蛛(Spider),在基于WEB数据挖掘基础上采用大量训练样本,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,运用人工智能中的粒子群算法(PSO)和神经网络算法(GA)进行爬虫路径的优化以及数据挖掘中的分类、聚类和关联算法进行数据的多维分析,采用分布式体系结构提高系统性能:搜索器可以在多台机器上相互合作、相互分工进行信息发现,以提高信息发现和更新速度。
|