雅茗居茶文化网茶友互动茶友论坛茶叶问答茶叶知识茶叶图片 茶网大全茶艺知识红茶知识茶叶网店
雅 茗 居茶 家 寨紫砂知识收藏鉴赏 普洱知识茶道知识白茶知识图文摄影黑茶知识茶道摄影
茶友之家茶叶相册岩茶知识中国茶道花茶知识中国茶叶茶叶资讯中国茶网绿茶知识茶叶信息

搜索引擎国外研究现状

来源: 网络 |   查看: 23824次

一提及信息检索,大家往往马上会想起Google、yahoo 等搜索引擎公司。可以说,Web 搜索引擎与大家的日常生活最为密切,在某种程度上成了信息检索技术的代称。但作为实用化的系统,搜索引擎一般采用比较成熟的技术,并对稳定性、反映速度、界面等工程化问题更为关注。因此,这些系统并不完全代表信息检索技术的发展水平。但由于人们对于各种粒度的信息获取的需求不断增长,国外的学术界和企业界为此投入了相当大的力量进行前瞻性研究,这方面比较有代表性的机构包括马萨诸塞大学、卡耐基梅隆大学、伦敦城市大学、IBM、微软研究院、滑铁卢大学等。

总的来看,早期以Okapi、Smart、查询扩展、相关反馈为代表的内容分析技术,后来以Pagerank、HITS 为代表的链接分析技术,以及近年来的语言模型,都曾在信息检索发展过程中掀起研究热潮,但近年来却少有激动人心的新技术出现。2005 年,TREC 在其总结报告指出现在“信息检索性能已进入平台期”。这表明,与用户无关的传统信息检索技术已相对成熟。这些技术已经被商用搜索引擎广泛应用,并在一定程度上解决了用户在粗粒度(文档级)上的信息获取需求。

从TREC 来看,现在的任务设置向高精度、细粒度和大规模三个方向倾斜,比较有代表性的有高精度文档检索任务(HARD)、新信息检测任务(Novelty)、问答任务(QA)、TB 级检索(Terabyte)等。其中前三个任务要求返回的结果不再是简单的一篇篇文档,而是信息片断,而TB 级检索则是把测试集的规模提高到了TB 级,其他不变。从评测结果来看,这些任务已经取得了很大进展。但相对于目前的技术而言,这些任务还是相当困难的,与实用还有一段距离。

总的来看,国外主流的Web 检索技术已比较成熟,无论从结果、性能还是稳定性来看,都能提供令人满意的结果,并且已经在人们的日常信息获取中发挥作用。更高精度和更细粒度的检索技术仍处于实验室阶段,但这方面的研究方兴未艾。也许在不远的将来,我们就能看到基于这些新技术的搜索引擎的出现。

国内研究现状

作为扶持科技发展的重要措施之一,863 国家高技术研究发展计划一直对国内的研究有着重要影响。而规范化评测作为检验系统性能的可信机制,逐渐成为863 关注的重点之一。2003 年,国家863 计划软硬件主题设立了“中文信息处理和智能人机接口技术评测”专项课题,对包括机器翻译、语音识别、信息检索在内的中文信息处理关键技术进行评测。该课题由中国科学院计算技术研究所承办,从2003 年到2005年连续举办三届,吸引了国内外众多研究单位参加。

信息检索评测的目的并不仅仅定位为863 课题验收或资格认证,而是要了解国内在中文信息检索技术领域的研究现状,验证互联网环境下大规模数据的中文信息检索技术的系统有效性,推动技术进步和成果的应用和转化,成为这个领域技术评价和交流的平台。

作为国内有较大影响的评测会议,863 信息检索评测基本上反映了中文信息检索技术的发展水平。下面我们通过2005 年度最新评测结果来分析国内的研究现状。这次评测分为自动和手工构造查询条件两组。评测结果如下表所示(由于863 评测结果发布采用匿名方式,因此这里只给出最终结果而不显示参赛单位名称):

从所有参评队伍的整体检索效果看,这次评测的结果与以往的评测结果相比,各个指标都有了很大提高。这主要是因为研究者利用了链接分析技术、锚文本等相关评价因素来提高准确率,并针对评测采取有效的技术手段来克服中文检索中的某些难点,比如命名实体识别等。此外,相关反馈或者重排序技术对于提高检索效果也有一定的帮助。从检索模型来说,参评队伍采用了向量空间模型、概率模型、语言模型等基本模型或者混合模型,同时利用了PageRank、链入分析等链接分析或者页面分析技术来提高检索效果。中文检索相对英文等其它语种来说,如何正确分词对于检索效果有所影响,尤其是命名实体、缩略语以及新词等未登录词的正确识别对于某些查询来说影响较大。现在的大部分检索系统在索引以及查询分析阶段采用了命名体识别,从结果来看,取得了比较好的效果。

当前的中文检索技术均基于国际主流的算法,在评测中成绩较好的单位在TREC 评测中也曾取得不错的成绩。可以看出,这些算法提供了基准级的性能,系统级的创新或改进不多,不过现有系统都会针对中文的特点进行改进。总体上,如果用户草拟的查询条件能够比较全面准确地表达用户需求的话,现有的中文检索技术一般能够提供比较好的检索结果,但是对于以下方面还存在着一些问题:

▲ 查询条件与文档词汇内容失配;

▲ 部分命名体、新词以及缩略语识别还存在着一些问题;

▲ 在计算相似度时,查询词汇权重的设定正确与否也在一定程度上影响检索效果。

这些问题的存在导致现有检索系统性能下降,针对这些问题,现有的检索技术还有很大的改善空间来获得比较满意的检索结果。

上一篇 下一篇
雅茗居茶叶网 |茶友社区 | 茶叶知识 | 茶叶信息发布 | 茶友空间 | 茶叶交流 |