
图 健康医疗大数据应用系统
(1)医学词语相关性分析
基于wiki百科、百度百科、以及大量电子病历数据,使用Word2vec方法建立了向量模型。该模型能根据语料中包含的上下文信息及过去经验对词的语义关系进行高度准确的分析。例如,当输入咳嗽时,会给出与咳嗽密切相关的其他医学词汇(干咳、鼻塞等),以及其相关关系的量化。这样的相关性分析结果一方面可以用来实现健康社区问答数据的语义检索,一方面对相似电子病历的检索提供了语义基础。
(2)医疗辅助诊断系统
所谓医疗辅助诊断功能,是指通过相似电子病历的检索,挖掘不同医生的诊疗模式,从而辅助临床诊断。由于电子病历主要由大量文本型数据组成,如主诉(即病人自述自己的症状、体征以及持续时间等内容)、现病史(记述患者病后的全过程,即发生、发展、演变和诊治经过)和既往史(即患者既往的健康状况和过去曾经患过的疾病)等,因此在计算病历相似度之前,课题组首先构建了医学分词词典,通过对比多种分词算法,选择具有最优效果的算法,然后在此基础上实现基于条件随机场的实体识别,从而从病例的文本数据中提取患者的关键症状词,通过word2vec技术进行词语扩充,并根据主诉中提到的数字来决定该症状的严重程度,从而实现相似电子病历的检索。