通信学报 ›› 2017, Vol. 38 ›› Issue (3): 101-111.doi: 10.11959/j.issn.1000-436x.2017061

• 学术论文 • 上一篇    下一篇

基于快速高斯变换的不确定数据聚类算法

迟荣华1,程媛2,3,朱素霞2,黄少滨1,陈德运2,3   

  1. 1 哈尔滨工程大学计算机科学与技术学院,黑龙江 哈尔滨 150001
    2 哈尔滨理工大学计算机科学与技术学院,黑龙江 哈尔滨 150080
    3 哈尔滨理工大学计算机科学与技术学院博士后流动站,黑龙江 哈尔滨 150080
  • 修回日期:2016-09-15 出版日期:2017-03-01 发布日期:2017-04-13
  • 作者简介:迟荣华(1981-),男,黑龙江哈尔滨人,哈尔滨工程大学博士生,主要研究方向为复杂网络、不确定性研究等。|程媛(1985-),女,黑龙江哈尔滨人,哈尔滨理工大学讲师,主要研究方向为数据挖掘、不确定性研究等。|朱素霞(1978-),女,山东寿光人,哈尔滨理工大学副教授,主要研究方向为高性能体系结构、并行计算。|黄少滨(1965-),男,黑龙江哈尔滨人,哈尔滨工程大学教授、博士生导师,主要研究方向为分布式计算与仿真、模型检测、数据集成等。|陈德运(1962-),男,黑龙江哈尔滨人,哈尔滨理工大学教授、博士生导师,主要研究方向为图像处理、探测和成像技术。
  • 基金资助:
    国家自然科学青年基金资助项目(61502123);黑龙江省青年科学基金资助项目(QC2015084);黑龙江省普通高等学校青年学术骨干支持计划基金资助项目(1253G017)

Uncertain data analysis algorithm based on fast Gaussian transform

Rong-hua CHI1,Yuan CHENG2,3,Su-xia ZHU2,Shao-bin HUANG1,De-yun CHEN2,3   

  1. 1 College of Computer Science and Technology,Harbin Engineering University,Harbin 150001,China
    2 College of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080,China
    3 Postdoctoral Research Station,College of Computer Science and Technology,Harbin University of Science and Technology,Harbin 150080,China
  • Revised:2016-09-15 Online:2017-03-01 Published:2017-04-13
  • Supported by:
    The National Natural Science Foundation of China for Youths(61502123);Heilongjiang Province Science Foundation for Youths(QC2015084);Heilongjiang Province Support Program for Youth Academic Backbones in Regular Institutions of Higher Education(1253G017)

摘要:

数据中不确定性的存在使对其聚类分析时要充分考虑不确定性的影响。针对现有不确定数据聚类算法中构建不确定数据模型以及距离度量时存在的影响结果准确性与聚类性能等问题,提出一种基于快速高斯变换的不确定数据聚类算法。首先在不假设数据分布的前提下,构建符合不确定性分布特征的数据模型;然后结合不确定对象的2个重要特征:属性特征与表示不确定数据分布特征的概率密度函数,度量不确定数据对象间的相似性;并以此为基础提出不确定数据聚类算法;最后在UCI以及真实数据集上的实验结果表明,所提算法在运行效率和聚类准确性方面均能取得较好效果。

关键词: 聚类分析, 不确定数据, 概率密度函数, 快速高斯变换, 核密度估计

Abstract:

The effect of the uncertainties needs to be taken full advantage during uncertain data clustering.An uncertain data clustering algorithm based on fast Gaussian transform was proposed,to solve the problems about the impact on the accuracy of clustering results and the clustering efficiency caused by the uncertainties,during the construction of uncertain data models and the distance measurement,which existed in the current researches.First,the data model according to the characteristic of the uncertainty distribution was constructed,without the premise of assuming the data distribution.And the similarity between uncertain data objects was measured by combining the two important features of uncertain objects,attribute features and the probability density function representing the characteristic of uncertainty distribution.And then the uncertain data clustering algorithm was proposed.Finally,the experiment results on UCI and real datasets indicate the better efficiency and accuracy of proposed algorithm.

Key words: clustering analysis, uncertain data, probability density function, fast Gaussian transform, kernel density estimation

中图分类号: 

[1] 鲜永菊,董灿,张祖凡,吴东伟. LTE-A载波聚合下的载波切换分析[J]. 电信科学, 2009, 25(12): 46 -50 .
[2] 曾 益,胡 波,冯 辉. 用于传感器网络的高效分时洪泛时钟同步协议[J]. 通信学报, 2007, 28(5): 2 -14 .
[3] 牛德华,马建峰,马卓,李辰楠,王蕾. 基于属性的安全增强云存储访问控制方案[J]. 通信学报, 2013, 34(Z1): 37 -284 .
[4] 欧智慧,赵亚群. 一类对称布尔函数的研究[J]. 通信学报, 2013, 34(1): 10 -95 .
[5] 刘 龙,宋琦军,赵太飞,元向辉. 基于运动矢量时-空特性的快速运动估计算法研究[J]. 通信学报, 2013, 34(1): 14 -127 .
[6] 王亚石,闵丽娟,周严. OSS/BSS一体化及其与ITSM的融合[J]. 电信科学, 2014, 30(6): 17 -23 .
[7] 彭俊宇,蔡孙增,朱正航,徐景,周婷. 基于MIMO-OFDM的高频段Gbit/s通信系统设计和实现[J]. 电信科学, 2014, 30(6): 95 -101 .
[8] 葛仕明,程义民,曾 丹. 基于边缘方向投影的图像块修复方法[J]. 通信学报, 2008, 29(1): 5 -38 .
[9] 龚声蓉,郭 丽,韩 军,崔志明,刘 全. 基于全局运动补偿编码的AVS编码器设计[J]. 通信学报, 2007, 28(10): 16 -108 .
[10] 刘月平,姜秋喜,毕大平,崔 瑞. 网络雷达对Rician目标检测性能分析[J]. 通信学报, 2011, 32(10): 3 -26 .