• 首页
  • 期刊简介
  • 编委会
  • 投稿指南
  • 收录情况
  • 杂志订阅
  • 联系我们
引用本文:孙家惠,吴胜利.信息检索任务中综合考虑性能与多样性的子集选择融合算法[J].软件工程,2025,28(11):39-46.【点击复制】
【打印本页】   【下载PDF全文】   【查看/发表评论】  【下载PDF阅读器】  
←前一篇|后一篇→ 过刊浏览
分享到: 微信 更多
信息检索任务中综合考虑性能与多样性的子集选择融合算法
孙家惠,吴胜利
(江苏大学计算机科学与通信工程学院,江苏 镇江 212013)
sjh@stmail.ujs.edu.cn; swu@ujs.edu.cn
摘 要: 随着信息技术发展,信息检索系统增多。多检索系统数据融合虽能提升检索效果,但纳入更多系统会增加复杂度与成本,导致平衡效果和效率充满挑战性。聚焦数据融合技术,提出RJ(Ranked JaccardIndex)相似性度量和PADS(Performance And Diversity Selection)子集选择算法,并在 TREC4个医学数据集上验证。实验结果显示,在62~125个检索系统里选择最多15个融合,相比最佳单个系统,该算法的检索性能提高10%~30%以上,能有效利用资源提升性能,展现应用潜力。
关键词: 信息检索  数据融合  子集选择  性能  基于排名的多样性
中图分类号:     文献标识码: A
基金项目: 江苏省自然科学基金项目(BK20171303)
A Fusion Algorithm for Subset Selection Balancing Performance and Diversity in Information Retrieval Tasks
SUN Jiahui, WU Shengli
(School of Computer Science and Communication Engineering, Jiangsu University, Zhenjiang 212013, China)
sjh@stmail.ujs.edu.cn; swu@ujs.edu.cn
Abstract: With the advancement of information technology, the number of information retrieval systems has increased. While data fusion across multiple retrieval systems can enhance search effectiveness, incorporating more systems escalates complexity and costs, making the balance between performance and efficiency a challenge. This study focuses on data fusion techniques, proposing the Ranked Jaccard Index (RJ) similarity metric and the Performance And Diversity Selection (PADS) subset selection algorithm. Evaluated across four medical datasets from TREC, experiment results demonstrate that fusing a maximum of 15 systems selected from 62 to 125 systems improves retrieval performance by 10% to over 30% compared to the best individual system. This algorithm efficiently leverages resources to boost performance, showcasing significant application potential.
Keywords: information retrieval  data fusion  subset selection  performance  rank-based diversity


版权所有:软件工程杂志社
地址:辽宁省沈阳市浑南区新秀街2号 邮政编码:110179
电话:0411-84767887 传真:0411-84835089 Email:semagazine@neusoft.edu.cn
备案号:辽ICP备17007376号-1
技术支持:北京勤云科技发展有限公司

用微信扫一扫

用微信扫一扫