信息管理系罗鹏程答辩风采展示

日期:2023-06-08        来源:北京大学研究生教育

在北京大学方李邦琴楼507会议室,北京大学信息管理系2019级情报学专业博士研究生罗鹏程顺利完成了博士学位论文答辩。由中国人民大学信息资源管理学院的周晓英教授,中国科学技术信息研究所的刘耀研究员,北京大学信息管理系的陈建龙教授、申静教授、王益明副教授、刘畅长聘副教授组成的博士学位论文答辩委员会,对罗鹏程同学的博士学位论文进行了现场评审。

 

罗鹏程答辩现场

 

在论文陈述环节,罗鹏程对其博士学位论文《开放人文社科数据集语义检索及综合排序模型研究》进行了详细介绍。首先,他阐述了研究的背景和目的。在大数据、人工智能和数字经济时代,数据的价值日益凸显。随着数据驱动研究范式的广泛应用与新文科建设的推进,科学数据资源在人文社科研究中的重要性正在加强。同时,随着开放科学和开放数据运动的发展,互联网上开放共享的人文社科数据资源正在迅速增加。为了便于人文社科研究者获取开放数据资源,需要有效的数据集检索方法和工具帮助他们准确、高效地查找所需数据。现有研究对开放共享的人文社科数据集的关注度较少,对其检索方法的研究较为缺乏。在导师王继民教授的国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”的支持下,罗鹏程的博士学位论文对开放人文社科数据集的检索方法开展了研究。

 

 

答辩展示内容

 

罗鹏程的博士学位论文主要包括了三项研究内容,即:面向数据集检索的人文社科数据集的特征研究,基于深度学习的人文社科数据集语义检索方法研究,人文社科数据集检索结果综合排序模型的构建与实现。第一项研究的目的在于全面、深入的认识互联网上的开放人文社科数据集,为后续两项研究奠定基础。通过选定数十个科学数据仓储,采集其中的数据集,分别从元数据、数据文件和关联文献三方面对其中的人文社科数据集的特征进行全面分析。第二项研究从主题相关性出发,研究探索提升用户查询与人文社科数据集语义匹配度的方法,通过利用数据集的元数据构造弱监督训练样本并训练文本嵌入模型,利用数据集的关联文献和文本生成模型为数据集补充描述信息,并利用重排序模型对检索结果进行优化,从而实现更优的语义匹配效果。第三项研究在第二项研究的基础上,考虑包含主题性、可获得性、质量、新颖性等在内的更多相关性影响因素,构建人文社科数据集检索结果综合排序模型,并基于该模型实现演示系统。通过该研究,可增加对互联网上开放人文社科数据集特征的深入认识,为人文社科数据集检索相关研究以及应用系统中检索功能的实现与优化提供参考。最后,罗鹏程总结了博士学位论文现有的研究工作,并对未来研究进行了展望。

 

在专家学者提问环节,答辩委员会成员对论文选题、创新成果和写作规范等方面均给予了肯定,并提出了宝贵意见。申静教授提出综合排序中如何体现语义检索相关研究工作,王益明副教授指出综合排序可以提供多种排序方式让用户自己选择,刘畅长聘副教授指出在综合排序模型评价中应该针对不同类型的查询采用不同的评价指标。针对答辩委员会提出的问题和建议,罗鹏程认真回答并得到专家们的认可。随后,答辩委员会对罗鹏程的博士学位论文进行了无记名投票,并宣读了罗鹏程全票通过答辩的决议。

 

 

罗鹏程与答辩委员会、导师合影

 

https://mp.weixin.qq.com/s/Z65eavfZOYrDhysGfd7pqQ