网络与信息安全学报 ›› 2018, Vol. 4 ›› Issue (10): 39-51.doi: 10.11959/j.issn.2096-109x.2018083

• 论文 • 上一篇    下一篇

基于多维多粒度分析的电信网用户行为模式挖掘

程晓涛,吉立新,黄瑞阳,于洪涛,杨奕卓   

  1. 国家数字交换系统工程技术研究中心,河南 郑州 450002
  • 修回日期:2018-09-28 出版日期:2018-10-01 发布日期:2018-12-15
  • 作者简介:程晓涛(1990-),男,河北邢台人,国家数字交换系统工程技术研究中心博士生,主要研究方向为电信网安全、网络大数据处理与分析。|吉立新(1969-),男,江苏淮安人,国家数字交换系统工程技术研究中心研究员,主要研究方向为电信网信息安全。|黄瑞阳(1986-),男,福建漳州人,国家数字交换系统工程技术研究中心助理研究员,主要研究方向为文本挖掘和图挖掘。|于洪涛(1970-),男,辽宁丹东人,国家数字交换系统工程技术研究中心研究员,主要研究方向为网络大数据分析与处理。|杨奕卓(1994-),男,吉林省吉林市人,国家数字交换系统工程技术研究中心硕士生,主要研究方向为社会网络分析。
  • 基金资助:
    国家自然科学创新群体基金资助项目(61521003);国家自然科学基金资助项目(61601513)

User behavior pattern mining method based on multi-dimension and multi-granularity analysis in telecom networks

Xiaotao CHENG,Lixin JI,Ruiyang HUANG,Hongtao YU,Yizhuo YANG   

  1. National Digital Switching System Engineering &Technological R&D Center,Zhengzhou 450002,China
  • Revised:2018-09-28 Online:2018-10-01 Published:2018-12-15
  • Supported by:
    The Foundation for Innovative Research Groups of the National Natural Science Foundation of China(61521003);The National Natural Science Foundation of China(61601513)

摘要:

为了更好地理解电信网用户行为规律,以大规模电信网用户通信详细记录(CDR,call detail record)数据为研究对象,运用混合概率模型与特征工程方法,从用户群体与个体的角度分析了用户呼叫中的通话时长、通话频次、通联关系等多维度特征,并从小时、天、周等不同时间粒度上进一步细化,实现了对不同用户群体通话行为模式的有效发现。通过混合概率模型对用户行为中的分布特性进行建模,解决了用户通话时长、频次等分布特征难以刻画的问题。实验中采用某地区电信网的真实数据作为数据集,对比了决策树、朴素贝叶斯、SVM等常见分类算法的实验效果,证明了所提用户行为特征的有效性与计算可行性;并以快递、航班、银行等服务号码为例,对比了不同群体通信行为模式的差异性。

关键词: 电信网, 多维度, 多粒度, 高斯混合模型, 行为模式挖掘

Abstract:

In order to better understand the behavior of users in telecom networks,it takes CDR (call detail record) data of large-scale telecom network as the research object.By using the mixed probability model and feature engineering method,the multi-dimension characteristics of the call time,call frequency and connections are analyzed from the perspective of user groups and individuals.It is further refined from different time granularities such as hour,day,and week to realize effective discovery of call behavior patterns for different user groups.The distribution characteristics of user behavior are modeled by mixed probability model,which solves the problem of describing the distribution characteristics such as user's call time and frequency.Based on the dataset of a regional telecom network,the performance of decision tree,naive Bayes and SVM classification algorithm are compared.It proves the validity and computational feasibility of the proposed method.The differences in communication behavior patterns of different groups are also compared by taking the service numbers like express,flight and bank as examples.

Key words: telecom network, multi-dimension, multi-granularity,, mixture-of-Gaussian, behavior pattern mining

中图分类号: 

No Suggested Reading articles found!