基于节点属性与正文内容的海量Web信息抽取方法

doi:10.11959/j.issn.1000-436x.2016190

通信学报 ›› 2016, Vol. 37 ›› Issue (10): 9-17.doi: 10.11959/j.issn.1000-436x.2016190

基于节点属性与正文内容的海量Web信息抽取方法

王海艳^1,²,曹攀¹

¹ 南京邮电大学计算机学院，江苏南京 210023
² 江苏省无线传感网高技术研究重点实验室，江苏南京 210003

出版日期:2016-10-25 发布日期:2016-10-25
基金资助:
国家自然科学基金资助项目;国家自然科学基金资助项目;“六大人才高峰”基金资助项目;江苏省“333高层次人才培养工程”基金资助项目

Information extraction from massive Web pages based on node property and text content

Hai-yan WANG^1,²,Pan CAO¹

¹ School of Computer Science and Technology,Nanjing University of Posts and Telecommunications,Nanjing 210023,China
² Jiangsu High Technology Research Key Laboratory for Wireless Sensor Networks,Nanjing 210003,China

Online:2016-10-25 Published:2016-10-25
Supported by:
The National Natural Science Foundation of China;The National Natural Science Foundation of China;Six Talent Peaks Project in Jiangsu Province;333 High Level Personnel Training Project in Jiangsu Province

摘要/Abstract

摘要：

为解决大数据场景下从海量Web页面中抽取有价值的信息，提出了一种基于节点属性与正文内容的海量Web信息抽取方法。将Web页面转化为DOM树表示，并提出剪枝与融合算法，对DOM树进行简化；定义DOM树节点的密度和视觉属性，根据属性值对Web页面内容进行预处理；引入MapReduce计算框架，实现海量Web信息的并行化抽取。仿真实验结果表明，提出的海量Web信息抽取方法不仅具有更好的性能，还具备较好的系统可扩展性。

关键词: Web信息, 抽取, MapReduce, DOM树

Abstract:

To address the problem of extracting valuable information from massive Web pages in big data environments,a novel information extraction method based on node property and text content for massive Web pages was put forward.Web pages were converted into a document object model (DOM) tree,and a pruning and fusion algorithm was introduced to simplify the DOM tree.For each node in the DOM tree,both density property and vision property was defined and Web pages were pretreated based on these property values.A MapReduce framework was employed to realize parallel information extraction from massive Web pages.Simulation and experimental results demonstrate that the proposed extraction method can not only achieve better performance but also have higher scalability compared with other methods.

Key words: Web information, extraction, MapReduce, DOM tree

王海艳,曹攀. 基于节点属性与正文内容的海量Web信息抽取方法[J]. 通信学报, 2016, 37(10): 9-17.

Hai-yan WANG,Pan CAO. Information extraction from massive Web pages based on node property and text content[J]. Journal on Communications, 2016, 37(10): 9-17.

图/表 6

图1

图2

表1

表2

表3

表4

参考文献 14

[1]	GRISHMAN R Information extraction:techniques and challenges [EB/OL]. .
[2]	李蕾, 周延泉, 王菁华 . 基于全信息的中文信息抽取系统及应用[J]. 北京邮电大学学报, 2005,28(6): 48-51. LI L , ZHOU Y Q , WANG J H . Comprehensive information based chinese information extraction system and application[J]. Journal of Beijing University of Posts and Telecommunications, 2005,28(6): 48-51.
[3]	黄诗琳, 郑小琳, 陈德人 . 针对产品命名实体识别的半监督学习方法[J]. 北京邮电大学学报, 2013,36(2): 20-23. HUANG S L , ZHENG X L , CHEN D R . A semi-supervised learning method for product named entity recognition[J]. Journal of Beijing University of Posts and Telecommunications, 2013,36(2): 20-23.
[4]	秦兵, 刘安安, 刘挺 . 无指导的中文开放式实体关系抽取[J]. 计算机研究与发展, 2015,52(5): 1029-1035. QIN B , LIU A A , LIU T . Unsupervised Chinese open entity relation extraction[J]. Journal of Computer Research and Development, 2015,52(5): 1029-1035.
[5]	李天颍, 刘璘, 赵德旺 ,等. 一种基于依存文法的需求文本策略依赖关系抽取方法[J]. 计算机学报, 2013,31(1): 54-62. LI T Y , LIU L , ZHAO D W ,et al. Eliciting relations from requirements text based on dependency analysis[J]. Journal of Computers, 2013,31(1): 54-62.
[6]	DENG C , YU S P , WEN J R . VIPS:a vision-based page segmentation[R]// Microsoft Technical Report,MSR-TR_ 203-79, 2003.
[7]	NEIL A , HONG J . Visually extracting data records from the deepWeb[C]// WWW 2013. Rio,IEEE Press, 2013: 1233-1238.
[8]	NARWAL N , . Improving Web data extraction by noise removal[C]// ARTCom 2013. Bangalore,IET, 2013: 388-395.
[9]	SUN F , SONG D , LIAO L . DOM based content extraction via text density[C]// ACM SIGIR 2011. Beijing, 2011: 245-254.
[10]	张乃洲, 曹薇, 李石君 . 一种基于节点密度分割和标签传播的Web页面挖掘方法[J]. 计算机学报, 2015,38(2): 349-364. ZHANG N Z , CAO W , LI S J . A method based on node density segmentation and label propagation for mining Web page[J]. Journal of Computers, 2015,38(2): 349-364.
[11]	WANG J B , WANG L Z , GAO W L ,et al. Chinese Web content extraction based on naive bayes model[C]// International Federation for Information Processing IFIP. 2014: 404-413.
[12]	KRISHNA S S , DATTATRAYA J S . Schema inference and data extraction from templatized Web pages[C]// ICPC, 2015: 1-6.
[13]	BHUIYAN M A , ALHASAN M . FSM-H:frequent subgraph mining algorithm in Hadoop[C]// Big Data. 2014: 9-16.
[14]	JIN S Y , BOULWARE D , KIMMEY D . A parallel spatial co-location mining algorithm based on MapReduce[C]// Big Data. 2014: 25-31.

页面数量	每页平均节点数		融合率	平均融合率
页面数量	处理前	处理后	融合率	平均融合率
30	1 653	603	63.5%
60	1 820	720	60.4%
90	1 673	659	60.6%
120	1 683	647	61.6%	62.8%
150	1 745	635	63.6%
180	1 670	603	63.9%
210	1 735	620	64.3%
240	1 698	597	64.8%

页面数量		本文方法			文献[10]方法			文献[11]方法
页面数量	P	R	F₁	P	R	F₁	P	R	F₁
30	0.89	0.94	0.91	0.83	0.94	0.88	0.78	0.96	0.86
60	0.92	0.95	0.93	0.84	0.96	0.90	0.77	0.96	0.85
90	0.90	0.96	0.92	0.84	0.96	0.89	0.80	0.95	0.87
120	0.91	0.96	0.93	0.82	0.95	0.88	0.76	0.97	0.85
150	0.90	0.95	0.92	0.80	0.95	0.87	0.75	0.95	0.84
180	0.93	0.96	0.95	0.81	0.96	0.88	0.75	0.96	0.84
210	0.92	0.95	0.93	0.81	0.95	0.87	0.76	0.95	0.84
240	0.91	0.96	0.93	0.81	0.95	0.87	0.76	0.96	0.85

节点数	总时间/s	平均时间/s	加速比
1	46 875	4.69	1
2	23 721	2.36	1.99
4	12 460	1.20	3.96
6	8 343	0.83	5.85
8	6 154	0.62	7.78

节点数	页面量	总时间/s	平均时间/s
	100	65	0.65
	500	318	0.64
8	2 000	1 265	0.63
	5 000	3 157	0.63
	8 000	5 044	0.63

[1]	刘玉玲, 王翠林, 付章杰. 语义空间下基于情感表达的生成式文本隐写方法[J]. 通信学报, 2023, 44(4): 176-186.
[2]	郭渊博, 李勇飞, 陈庆礼, 方晨, 胡阳阳. 融合Focal Loss的网络威胁情报实体抽取[J]. 通信学报, 2022, 43(7): 85-92.
[3]	杨秀璋, 彭国军, 李子川, 吕杨琦, 刘思德, 李晨光. 基于Bert和BiLSTM-CRF的APT攻击实体识别及对齐研究[J]. 通信学报, 2022, 43(6): 58-70.
[4]	吴昭军, 张立民, 钟兆根, 刘仁鑫. 高误码率下LDPC稀疏校验矩阵重建[J]. 通信学报, 2021, 42(3): 1-10.
[5]	李涛,郭渊博,琚安康. 融合对抗主动学习的网络安全知识三元组抽取[J]. 通信学报, 2020, 41(10): 80-91.
[6]	孟博,何旭东,张金丽,尧利利,鲁金钿. 基于计算模型的安全协议Swift语言实施安全性分析[J]. 通信学报, 2018, 39(9): 178-190.
[7]	黄杨琛,贾焰,甘亮,徐菁,黄九鸣,赫中翮. 基于远程监督的多因子人物关系抽取模型[J]. 通信学报, 2018, 39(7): 103-112.
[8]	高元照,李炳龙,陈性元. 基于MapReduce的HDFS数据窃取随机检测算法[J]. 通信学报, 2018, 39(10): 11-21.
[9]	俞艺涵,付钰,吴晓平. MapReduce框架下支持差分隐私保护的随机梯度下降算法[J]. 通信学报, 2018, 39(1): 70-77.
[10]	李洪成,吴晓平,陈燕. MapReduce框架下支持差分隐私保护的k-means聚类方法[J]. 通信学报, 2016, 37(2): 125-131.
[11]	廖彬,张陶,于炯,刘继,尹路通,郭刚. 温度感知的MapReduce节能任务调度策略[J]. 通信学报, 2016, 37(1): 61-75.
[12]	李洪成，吴晓平，严博. 面向MANET异常检测的分布式遗传k-means研究[J]. 通信学报, 2015, 36(11): 167-173.
[13]	沈晴霓,卿斯汉,吴中海,张力哲,杨雅辉. 基于动态域划分的MapReduce安全冗余调度策略[J]. 通信学报, 2014, 35(1): 34-46.
[14]	刘云峰，李丽，王素美，王倩宜，杨旭，欧阳荣彬，龙新征. 面向大数据的数据服务中心设计与应用研究[J]. 通信学报, 2013, 34(Z2): 32-174.
[15]	刘云峰,李丽,王素美,王倩宜,扬旭,欧阳荣彬,龙新征. 面向大数据的数据服务中心设计与应用研究[J]. 通信学报, 2013, 34(Z2): 170-174.

基于节点属性与正文内容的海量Web信息抽取方法

Information extraction from massive Web pages based on node property and text content

在线阅读

PDF下载

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 6

参考文献 14

相关文章 15

Metrics

推荐阅读 0