计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (7): 802-811.DOI: 10.3778/j.issn.1673-9418.1312024
燕彩蓉1+,张洋舜1,徐光伟1,2
YAN Cairong1+, ZHANG Yangshun1, XU Guangwei1,2
摘要: 实体解析是指发现并聚合描述现实世界中同一对象的记录。纯粹的机器算法虽然可以获得较高的效率,但是准确率难以保证。提出了一种机器计算与众包相结合的实体解析方法。该方法首先采用MapReduce并行计算框架排除不可能匹配的记录对,减少人类智能任务的数量,然后由人工进行确定性标注。为了支持隐私保护,在众包计算时提出了基于角色的访问控制模型和重要信息隐藏策略。该方法和模型被应用于某医院患者主索引构建平台,实验结果表明,人机结合方法充分利用了机器和人工处理的优势,可以进行高效率和高精度的患者实体解析,并且有效地避免了患者信息的泄漏。