大数据是数据、技术,还是应用
朱扬勇,熊赟

Defining Big Data
Yangyong ZHU,Yun Xiong
表1 生产数据与开发数据的技术差异
6用问题 数据技术 信息化(生产数据技术) 大数据(开发数据技术)
数据不够用 数据获取 从自然界获取数据:通过数字化设备和计算机I/O设备获得数据 从数据界获取数据:购买数据或从各数据源通过下载、爬虫、分发等技术手段获得数据
数据不可用 数据存储管理 开发各种存储技术,包括存储设备、DBMS等各种存储技术 数据已经存在网络空间的某个地方,主要技术包括数据搜索和访问技术、异地计算技术、适合数据分析的存储技术
数据不好用 数据质量保障 内部数据:数据质量技术 有大量外部数据,数据质量问题较严重,需要新的数据质量技术
数据不会用 数据挖掘分析 数据挖掘分析技术被分离出来,形成数据开发技术的核心 数据融合、统计分析、数据挖掘、深度学习等是数据开发的核心技术,还有数据勘探、可视化等
数据不敢用 数据开放共享 数据开放不多,技术有限 新技术,如保护数据安全(所有权和数据秘密)的前提下实现数据开放共享技术
数据不能用 数据安全隐私 内部数据:技术有限 有大量外部数据,数据权属的认证和判别技术、隐私保护技术等