计算机科学与探索 ›› 2014, Vol. 8 ›› Issue (10): 1187-1194.DOI: 10.3778/j.issn.1673-9418.1405051
杨镇雄,蔡祖锐,陈国华+,汤 庸,张 龙
YANG Zhenxiong, CAI Zurui, CHEN Guohua+, TANG Yong, ZHANG Long
摘要: 开放存取(open access,OA)期刊属于网络深层资源且分散在互联网中,传统的搜索引擎不能对其建立索引,不能满足用户获取OA期刊资源的需求,从而造成了开放资源的浪费。针对如何集中采集万维网上分散的开放存取期刊资源的问题,提出了一个面向OA期刊的分布式主题爬虫架构。该架构采用主从分布式设计,提出了基于用户预定义规则的OA期刊页面学术信息提取方法,由一个主控中心节点控制多个可动态增减的爬行节点,采用基于Chrome浏览器的插件机制来实现分布式爬行节点的可扩展性和部署的灵活性。