计算机科学与探索 ›› 2016, Vol. 10 ›› Issue (7): 948-958.DOI: 10.3778/j.issn.1673-9418.1509010
胡志刚,景冬梅,陈柏林,杨 柳+
HU Zhigang, JING Dongmei, CHEN Bailin, YANG Liu+
摘要: 为了实现对海量RDF(resource description framework)数据的高效查询,研究了RDF三元组在分布式数据库HBase中的存储方法,基于MapReduce设计了海量RDF数据的两阶段查询策略,将查询分为SPARQL(simple protocol and RDF query language)预处理阶段与分布式查询执行阶段。SPARQL预处理阶段设计实现了基于SPARQL变量关联度的查询划分算法JOVR(join on variable relation),通过计算SPARQL查询语句中变量的关联度确定连接变量的连接顺序,根据连接变量将SPARQL子句连接操作划分到最小数量的Map- Reduce任务中;分布式查询执行阶段执行SPARQL预处理阶段划分的MapReduce任务,实现对海量RDF数据的并行查询。在LUBM标准测试数据集中的实验表明,JOVR算法能够高效地实现对海量RDF数据的查询,并具有良好的稳定性与可扩展性。