基于MapReduce的术语权重计算方法研究

doi:10.3969/j.issn.1000-0801.2011.11.018

电信科学 ›› 2011, Vol. 27 ›› Issue (11): 62-65.doi: 10.3969/j.issn.1000-0801.2011.11.018

基于MapReduce的术语权重计算方法研究

王锴¹,施水才^1,²,王涛^1,²,吕学强^1,²

¹ 北京信息科技大学中文信息处理研究中心北京 100101
² 北京拓尔思信息技术股份有限公司北京 100101

出版日期:2011-11-15 发布日期:2011-11-15
基金资助:
国家自然科学基金资助项目;北京市自然科学基金资助项目;北京市教委科技发展计划资助项目

Research on Term Weighting Based on MapReduce

Kai Wang¹,Shuicai Shi^1,²,Tao Wang^1,²,Xueqiang Lv^1,²

¹ Beijing Information Science and Technology University，Chinese Information Processing Research Center， Beijing 100101，China
² Beijing TRS Information Technology Co.，Ltd.，Beijing 100101，China

Online:2011-11-15 Published:2011-11-15

摘要/Abstract

摘要：

术语识别在本体构建、词典构建等领域应用广泛，而术语权重计算是术语识别中的关键步骤。本文通过改进 TF-IDF 公式，将组成术语词条的长度作为权重因素之一，同时考虑术语在文档集中的领域相关性。整个过程基于MapReduce 编程模型实现，在 Hadoop 云平台中以分布式方式计算候选领域术语的权重。实验结果表明，该方法不仅简化了术语权重计算的实施步骤，也提高了算法执行效率。

关键词: 术语权重, TF-IDF, MapReduce, 分布式

Abstract:

Term recognition is widely used in the ontology construction，dictionary construction and other fields. And term weighting is a key step in the term recognition. In this paper，several improvements have been made to TF-IDF algorithm，e.g.， the length of terms is considered in weighting，also with terms’ correlations to documentation set. The candidate term weight is calculated in a distributed manner based on MapReduce on Hadoop. Experimental results show that the method proposed not only simplifies the steps of term weighting，but also improves the efficiency of the algorithm.

Key words: term weight, TF-IDF, MapReduce, distributed

王锴,施水才,王涛,吕学强. 基于MapReduce的术语权重计算方法研究[J]. 电信科学, 2011, 27(11): 62-65.

Kai Wang,Shuicai Shi,Tao Wang,Xueqiang Lv. Research on Term Weighting Based on MapReduce[J]. Telecommunications Science, 2011, 27(11): 62-65.

图/表 5

图1

图2

图3

表1

表2

参考文献 9

1	王强军，李芸，张普 . 信息技术领域术语提取的初步研究. 自然语言处理 2002，（1）： 32～33
2	Ricardo Baeza-Yates ， Berthier O . Mordern Information Retrieva. 北京：机械工业出版社， 2005
3	Christina Hoffa ， Gaurang Mehta ， Timothy Freeman . On the use of cloud computing for scientific workflows. ， 2008.
4	Jeffrey Dean ， Sanjay Ghemawat . MapReduce：simplified data processing on large clusters.In： OSDI， 2004
5	孙广中，肖锋，熊曦 . MapReduce模型的调度及容错机制研究. 微电子学与计算机 2007， 24 （7）
6	吴晓伟 . MapReduce并行编程模式的应用与研究. 中国大学技术大学硕士学位论文 2009
7	许春玲，张广泉，熊曦 . 分布式文件系统 Hadoop HDFS 和传统文件系统Linux Fs的比较与分析. 苏州大学学报 2010， 30 （4）
8	高志翔 . 一种基于TF-IDF 算法的本体关联度算法. 中国科技论文在线 2010（6）
9	张蓓蓓 . 基于关联分析和聚类的领域本体构建方法及其应用研究. 南京理工大学硕士学位论文 2009

传统计算方法		基于MapReduce计算方法
步骤	耗时（ms）	任务	耗时（s）
第1步	2016	Job_201102251531_0001	78
第2步	1 656	Job_201102251531_0002	85
第3步	48 282	Job_201102251531_0003	24
第4步	344	Job_201102251531_0004	20
第5步	26 125
第6步	1 172
总共用时（s）：79.595		总共用时（s）：207

类型	耗时（s）
4节点集群	207
伪分布模式	105
本地模式	9

[1]	郭泽华, 朱昊文, 徐同文. 面向分布式机器学习的网络模态创新[J]. 电信科学, 2023, 39(6): 44-51.
[2]	韩璐, 陈威宇, 张斐, 何建锋, 苏怀振. 差异化需求下的非关系型分布式报送信息大数据分类方法[J]. 电信科学, 2023, 39(6): 114-121.
[3]	陈楠, 赵建军, 钟平, 黄勇军, 陈天. 基于云原生的分布式物联网操作系统架构研究[J]. 电信科学, 2022, 38(7): 146-156.
[4]	李琴, 李唯源, 孙晓文, 胡玉双, 孙滔. 6G网络智能内生的思考[J]. 电信科学, 2021, 37(9): 20-29.
[5]	刘飞扬, 李坤, 宋飞, 周华春. DDoS攻击恶意行为知识库构建[J]. 电信科学, 2021, 37(11): 17-32.
[6]	余云河, 孙君. 机器类通信中集中式与分布式Q学习的资源分配算法研究[J]. 电信科学, 2021, 37(11): 41-50.
[7]	李舒婷,刘金科,陈娜. 基于区块链技术的计费清结算平台的设计与研究[J]. 电信科学, 2020, 36(9): 84-93.
[8]	许丹丹,张云勇,张道琳,张第,王笑,蔡一欣. 5G时代区块链发展趋势及应用分析[J]. 电信科学, 2020, 36(3): 117-124.
[9]	马大燕,谢祥颖,那峙雄,沈文涛,孟凡腾. 基于调度自动化系统的低压分布式光伏电站接入估算模型[J]. 电信科学, 2020, 36(2): 90-94.
[10]	谢萍,刘孝颂. 基于区块链的SDN物联网部署安全[J]. 电信科学, 2020, 36(12): 139-146.
[11]	张帅,潘鹏,王璀. 分布式阵列系统中反馈比特的分配方法[J]. 电信科学, 2020, 36(11): 79-88.
[12]	聂凯君,曹傧,彭木根. 6G内生安全：区块链技术[J]. 电信科学, 2020, 36(1): 21-27.
[13]	孙嘉琪, 杨广铭, 党娟娜, 刘文杰. 温敏网络的关键能力和架构体系[J]. 电信科学, 2019, 35(9): 52-57.
[14]	任昊文,杨雅琪. 区块链分布式技术在电力需求侧响应管理中的应用[J]. 电信科学, 2019, 35(5): 155-160.
[15]	康凯凯,刘兆霆,姚英彪. 传感器网络分布式顽健RLS估计算法[J]. 电信科学, 2019, 35(1): 37-43.

基于MapReduce的术语权重计算方法研究

Research on Term Weighting Based on MapReduce

在线阅读

PDF下载

可视化

被引次数

摘要/Abstract

引用本文

使用本文

图/表 5

参考文献 9

相关文章 15

Metrics

推荐阅读 0