2024年6月12日发(作者:)
HX-2055
信息检索系统方案
目录
一 项目意义
随着互联网的快速发展,每天有数千万条信息生成,包括文字信息、图片信
息、视频信息、语音信息等,通过百度、谷歌等大型商业搜索引擎可以找到自己
想要的信息,但是也存在很多弊端。
百度、谷歌等大型商业搜索引擎的搜索原理是基于网络爬虫(Spider)在世
界各地百万台服务器上爬取网页数据,然后存储到数据库之后展现给查询用户,
随着网站数量以及网络上信息更新的快速化,这些网络爬虫不能保证把所有的信
息都抓到,尤其是特殊行业的行业信息,即便是抓到了也不一定能够在众多数据
中展现出来。所以,对于一个部门来讲,有必要存在一款互联网信息检索系统来
检索某一个行业的信息,每天自动在各大行业网站、政府网站等数据库中检索最
新信息,通过自建的网络爬虫进行目标数据的抓取、存贮、归类、展现。
通过自己的信息检索系统,可以让自己部门每天轻松地获得世界各地、各个
部门都发生了什么,有哪些新的政策,方便管理层在最新的信息数据下快速做出
正确的决定。
据统计,内部网上的信息每年以200%的速度增长,其中发布到互联网上的信
息只占到信息量的1%-2%,而98%以上的信息是发布在内部网上的。内部网上的信
息既有网页形式的,也包含其他Word、PDF、XML等多种格式的数据。因此,面对
内部网中海量异构的信息资源,如何帮助用户快速找到他们所需要的信息是一个
主要的技术挑战。
搜索引擎能帮助用户方便、快捷、安全地获取内部网上的信息,在满足高效
的同时,更重要的是保证了较高的查全率和查准率,能提供智能化的概念扩展搜
索,极大的提高工作效率。内部网搜索引擎将组织中分散管理的信息整合在一起,
在组织层面上实现新的增值与共享,从而有效实现组织内容利用的最优目标。
搜索引擎的目标是实现内部网全文检索。系统可对实施了内部网站资源进行
爬行,无论内部网上的数据源在何地、以何种形式存在,都能够对其快速地访问,
通过准确的分词建立索引,从而实现高质量的搜索查询。搜索引擎的主要目标包
括:
(1)较高的查准率。搜索系统支持按词索引、按字索引,同时实现中文自动
分词。
(2)较高的查全率。搜索系统可搜索各类异构的信息资源,包括传统的网页
信息、Word、PDF、XML等不同格式的文档以及各类主流数据库的表中记录。
(3)智能化的检索结果排序。安全搜索系统应采用相关度分析技术,将用户
需要的信息排在结果列表的前面,屏蔽无用和错误的信息。
二 系统设计
技术原理
HX-2055互联网信息检索系统(以下简称HX-2055)是针对特殊行业、政府
部门、决策部门设计的一款高效率互联网信息检索系统,采用国际一流程序算法
设计,系统构架与谷歌和百度的搜索引擎拥有共同的技术特点,能够保证系统对
实时信息的快速采集、归类、展现。
在当今信息爆炸的时代,每个单位或个人都在为信息的快速增长做出了各种
贡献。信息的种类也在不断的扩展,越来越多的非结构化信息不断出现,包括企
业的各种报表、帐单、电子文档、网站的各种元素、图片、传真、扫描影像,以
及大量的多媒体的音频、视频信息等等。所有的存储数据中,有85%采用的是非
结构化格式的,非结构化信息每三个月增长一倍。由于信息格式的差异很大,所
以基本无法整合为统一的接口供政府工作人员或广大群众方便使用。
全文检索是计算机程序通过扫描文章中的每一个词,对每一个词建立一个索
引,指明该词在文章中出现的次数和位置,当用户查询时根据建立的索引查找,
发布评论