计算机科学与探索 ›› 2012, Vol. 6 ›› Issue (10): 865-876.DOI: 10.3778/j.issn.1673-9418.2012.10.001
刘雪莉+,王宏志,李建中,高 宏
LIU Xueli+, WANG Hongzhi, LI Jianzhong, GAO Hong
摘要: 按照元组描述的实体对其进行组织和查询处理是一种管理劣质数据的有效方法。考虑到同一个实体的同一属性存在多个描述值,因此基于实体的数据库上的连接是支持多个值的相似性连接。由于多表连接操作的连接顺序对连接性能有着重要的影响,研究了实体数据库上多表连接顺序选择方法,采用基于实体的马尔可夫链蒙特卡洛(Markov chain Monte Carol,MCMC)方法估计出实体数据库的相似性连接操作的结果大小,并以连接结果大小和有无索引作为主要代价,提出了基于实体的多连接顺序优化策略。进一步,通过实验证明了估计连接结果大小的算法在大规模数据上有着显著的优势。