计算机科学与探索 ›› 2011, Vol. 5 ›› Issue (1): 68-74.DOI: 10.3778/j.issn.1673-9418.2011.01.007
詹恒飞1+, 杨岳湘2, 方 宏2
ZHAN Hengfei1+, YANG Yuexiang2, FANG Hong2
摘要: Nutch 作为一个优秀的开源搜索引擎, 其内核代码大量采用了MapReduce 的编程模式, 被越来越多的企业和团体用来定制符合自身需求的分布式搜索引擎产品。作为优秀的搜索引擎, 其重要的前提是如何尽可能多地抓取到网页数据来建立索引。介绍了Nutch 基于Hadoop 下的分布式网络爬虫工作机制, 指出其不足之处, 并提出了改进方案, 从而使网络爬虫能够更加高效地利用网络资源来抓取网络数据。经过实验测试, 证明了此方案比原方案更加高效。
中图分类号: