近年来,图结构数据在信息安全、科学研究、互联网服务等各个领域被广泛采用,图数据管理系统也随之快速发展。然而,当前最主要的图数据管理系统评测基准都是面向社交网络服务和分析应用而设计和开发的。通过对知识图谱(knowledge graph)这一类快速发展的图结构数据的统计特征进行分析,并和社交网络进行比较,展示知识图谱和社交网络的显著区别,以此说明现有图数据管理系统基准评测无法满足知识图谱管理的需要,进一步展望图数据管理系统基准评测的需求和发展。
图模型是一种广泛使用的建模工具。图的可视化作为一种直观的图数据分析工具被广泛使用。图数据可视化中最关键的技术是图布局算法,但是目前并没有高效的并行图布局算法,因此目前对于海量图数据的可视化是一个挑战性问题。针对这一问题,在力导向布局算法基础上,忽略弱关联顶点间的斥力计算,提出了k-friend布局算法;并针对海量图数据设计了高效的并行图布局算法。在人工和实际数据集上的测试结果表明,在布局质量降低可容忍的情况下,该算法大幅度提升了布局的速度。
作为功能基因组学中重要的组成部分,基因表达谱在生物学、医学和药物研发等多个领域发挥着重要作用。特别是随着精准医疗概念的提出,整合包括基因表达谱在内的多组学数据用于个性化医疗是未来的发展趋势。从抗癌药物研发背景出发,介绍了基于细胞扰动表达谱的大数据分析方法,并且总结了其在抗癌药物研发中的应用。
社交媒体大数据中的多源性体现在不同社交媒体网络产生的内容上,从多源的角度分析跨社交媒体网络可以将独立数据的价值通过整合其他来源和模态的数据充分挖掘和释放出来,提高大数据的利用效率。跨社交媒体网络的用户建模是分析和应用多源社交媒体大数据的重要体现。跨社交媒体网络中的多源数据共享独立用户空间,提出以用户为桥梁对多源数据进行关联挖掘,将挖掘得到的关联模式分别应用于跨社交媒体网络的用户人口属性建模和兴趣建模中,并应用到社交媒体应用的个性化服务中。
卫星遥感技术的发展使得影像获取能力大大提高,深度学习方法使信息的自动提取上了一个新的台阶,而云计算为卫星影像的大数据处理提供了强大的计算能力支持。这3项技术激活了科研领域对卫星影像潜在商业价值、军事价值的预期,很多科研机构加入这个实力竞争中,也吸纳了大量的风险投资。总结了基于卫星影像大数据的潜在价值分析与应用,并提出了下一步可能的技术突破途径和未来的发展方向。
机场与飞行器目标识别是遥感数据分析中的典型应用。研究了光学遥感大数据环境下面向机场与飞行器目标识别的深度学习技术。为此,构建了一个面向高分光学遥感图像的机场与飞行器目标秒级识别系统。使用迁移学习的方法在有标签样本稀缺的情况下有效构建深度网络,利用目标先验知识对潜在目标进行高效提取,并提出一种层次式的级联深度网络识别架构,实现“大范围、小目标”的实时识别。实验结果表明,采用相应技术,基于深度学习方法可以在秒级时间得到比传统方法更高的识别精度。
人口迁徙数据是反映城镇化建设的重要数据,可以为我国当前推进国家新型城镇化建设提供决策支持。中国人民银行征信中心依法收集的征信信息及时地反映了信息主体在迁徙过程中发生经济行为的时间和地点,在确定人口迁徙轨迹方面具有其他数据源难以比拟的优势。对3.9亿信息主体、48.8亿条征信记录进行分析挖掘,得出改革开放以来全国劳动力人口迁徙的新特点,并利用Logistic模型预测未来青壮年劳动力人口的迁徙趋势,得出相关结论。
随着我国商业车险市场的深化改革,保险公司拥有了自主定价的权利,这就要求保险公司提升对标的风险精细化分析和管理的能力。从位置大数据应用的角度,就通过手机定位的车辆位置信息(指LBS)在车辆保险风险管理中的应用问题进行了探讨。提出了以网格方式进行风险划分和计算的方法,并结合保险承保和理赔的不同应用需求给出了实施路径和应用建议。
大数据科技与产业的迅猛发展对人才培养提出了巨大的挑战。数据科学家需要具备从巨量数据中挖掘商业价值的能力,因此要进行多学科交叉培养。从大数据人才培养目前进展和需求来探讨多“源”异“构”大数据创新型人才的培养。在人才培养中要打造核心知识体系,使未来的数据科学家能够具备持续创新的基础。大数据人才培养必须要有数据环境,要打通政府、企业与高校之间的数据壁垒,面向真实数据培养针对性的应用技能。大数据人才培养要打破学科壁垒,从人才培养方案设计到教学、实习、毕业、考核各个环节标准都要体现交叉特色。
信息科技业已进入大数据时代。作为能够从大数据中挖掘知识的人才,数据科学家(data scientist)受到各行各业的青睐。首先从美国和中国主要的在线人才招聘平台收集数据,通过对比分析得出数据科学家与传统的数据分析师(data analyst)在工作性质、工作能力要求以及薪资待遇等方面的差别。其次,考察和总结了世界范围内优秀大学数据科学人才培养的概况,并与工业界的实际要求进行对比。根据以上两者之间的差异,就当前大学数据科学人才的培养提出了建议和对策。
人才短缺是发展大数据的主要障碍,越来越多的大学启动了大数据人才培养计划。大数据人才培养的基础条件有哪些?首先要有师资,但这是一个矛盾的基础条件,人才短缺意味着师资更短缺;其次要有数据,且是“大”的数据,没有数据的人才培养是纸上谈兵;有了“大”数据,就需要相应的计算条件。探索了大数据人才培养所需的师资、数据和计算条件问题,提出超学科创新培养模式解决师资条件问题、建立大数据试验场解决数据和计算条件问题。