基于MapReduce虚拟机的Deep Web数据源发现方法

通信学报

基于MapReduce虚拟机的Deep Web数据源发现方法

辛洁,崔志明,赵朋朋,张广铭,鲜学丰

出版日期:2011-07-25 发布日期:2011-07-15

Online:2011-07-25 Published:2011-07-15

摘要/Abstract

摘要： 为了提高Deep Web爬虫发现和搜集数据源的效率，提出了一种融合MapReduce和虚拟化技术实现Deep Web海量数据挖掘的并行计算方法。基于MapReduce架构提出了一个Deep Web爬虫模型，通过链接过滤分类，页面过滤分类，表单过滤分类等3个MapReduce过程找到Deep Web数据源接口，并利用虚拟机构建单机集群进行性能测试。实验结果显示该方法可以实现大规模数据的并行处理，有效提高爬虫数据源发现的效率，避免网络及物理资源的浪费，验证了云计算技术在Deep Web数据挖掘方面的可行性。

辛洁,崔志明,赵朋朋,张广铭,鲜学丰. 基于MapReduce虚拟机的Deep Web数据源发现方法[J]. 通信学报.

基于MapReduce虚拟机的Deep Web数据源发现方法

可视化

被引次数

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 0

Metrics

推荐阅读 0