大数据 ›› 2023, Vol. 9 ›› Issue (6): 137-159.doi: 10.11959/j.issn.2096-0271.2023034
吴信东1,2, 应泽宇1,2, 盛绍静1,2, 蒋婷婷1,2, 卜晨阳1,2, 张赞1,2
出版日期:
2023-11-15
发布日期:
2023-11-01
作者简介:
吴信东(1963- ),男,博士,合肥工业大学计算机与信息学院教授、博士生导师,主要研究方向为数据挖掘、大数据分析、知识工程。基金资助:
Xindong WU1,2, Zeyu YING1,2, Shaojing SHENG1,2, Tingting JIANG1,2, Chenyang BU1,2, Zan ZHANG1,2
Online:
2023-11-15
Published:
2023-11-01
Supported by:
摘要:
数据中台将一个机构(企业、事业或政府部门)的数据作为战略资产进行管理,是从数据收集到处理应用的一套管理机制,以期提高数据质量,实现广泛的数据共享,最终实现数据价值最大化。给出数据中台的定义,提出数据中台参考技术框架,并分别对物理管理、逻辑管理、数据资产管理、数据服务和信息安全管理的组成和技术进行了展开讨论。最后以华谱系统建设为例,介绍面向家谱大数据、结合HAO智能模型的数据中台实现——华谱数据中台。
中图分类号:
吴信东, 应泽宇, 盛绍静, 蒋婷婷, 卜晨阳, 张赞. 数据中台框架与实践[J]. 大数据, 2023, 9(6): 137-159.
Xindong WU, Zeyu YING, Shaojing SHENG, Tingting JIANG, Chenyang BU, Zan ZHANG. Data central-platform: architecture and practice[J]. Big Data Research, 2023, 9(6): 137-159.
[31] | Big Data Technology Standard Promotion Committee of China ICT Academy. Data asset management practice white paper 4.0[R]. 2021. |
[32] | 詹盈 . 算法与数据中台:基于Google、Facebook与微博实践[M]. 北京: 电子工业出版社, 2020. |
ZHAN Y . Algorithms and Data Center:based on Google,Facebook and Microblogging practice[M]. Beijing: Publishing House of Electronics Industry, 2020. | |
[33] | 李信鹏, 刘威, 杨智萍 ,等. 电网企业数据中台方案研究[J]. 电力信息与通信技术, 2020,18(2): 1-8. |
LI X P , LIU W , YANG Z P ,et al. Research on data mid-platform scheme of power grid enterprises[J]. Electric Power Information and Communication Technology, 2020,18(2): 1-8. | |
[34] | 吴信东, 何进, 陆汝钤 ,等. 从大数据到大知识:HACE+BigKE[J]. 自动化学报, 2016,42(7): 965-982. |
WU X D , HE J , LU R Q ,et al. From big data to big knowledge:HACE + BigKE[J]. Acta Automatica Sinica, 2016,42(7): 965-982. | |
[35] | WU M H , WU X D . On big wisdom[J]. Knowledge and Information Systems, 2019,58(1): 1-8. |
[36] | 吴信东, 嵇圣硙 . MapReduce与Spark用于大数据分析之比较[J]. 软件学报, 2018,29(6): 1770-1791. |
WU X D , JI S W . Comparative study on MapReduce and spark for big data analytics[J]. Journal of Software, 2018,29(6): 1770-1791. | |
[37] | JI S W , BU C Y , LI L ,et al. Local graph edge partitioning with a two-stage heuristic method[C]// Proceedings of 2019 IEEE 39th International Conference on Distributed Computing Systems (ICDCS). Piscataway:IEEE Press, 2019: 228-237. |
[1] | 钟华 . 企业IT架构转型之道:阿里巴巴中台战略思想与架构实战[M]. 北京: 机械工业出版社, 2017. |
ZHONG H . The way of enterprise IT architecture transformation:Alibaba’s middle office strategic ideas and architecture practice[M]. Beijing: China Machine Press, 2017. | |
[2] | 艾瑞咨询. 2021年中国数据中台行业白皮书[R]. 2021. |
iResearch. China data center industry white paper 2021[R]. 2021. | |
[3] | 刘长杰 . 数据中台建设将把数字中国推向纵深:与国务院发展研究中心研究员李广乾对话[J]. 中国发展观察, 2020(1): 86-90. |
LIU C J . The construction of data center will push digital China deeperdialogue with Li Guanggan,a researcher at the State Council Development Research Center[J]. China Development Observation, 2020(1): 86-90. | |
[4] | 缪翀莺, 谭华, 易学明 . 数据中台的定位和架构分析[J]. 广东通信技术, 2019,39(12): 57-62,70. |
MIAO C Y , TAN H , YI X M . Positioning and architecture analysis of data center station[J]. Guangdong Communication Technology, 2019,39(12): 57-62,70. | |
[5] | 刘颖慧, 刘楠, 蔡一欣 ,等. 数字化转型中不同企业的中台战略及架构设计[J]. 电信科学, 2020,36(7): 126-135. |
LIU Y H , LIU N , CAI Y X ,et al. Design of the strategy and architecture of different enterprises’ middle platform[J]. Telecommunications Science, 2020,36(7): 126-135. | |
[6] | 邓中华 . 大数据大创新:阿里巴巴云上数据中台之道[M]. 北京: 电子工业出版社, 2018. |
DENG Z H . Big data,big innovation:the way of Alibaba’s data center on the cloud[M]. Beijing: Publishing House of Electronics Industry, 2018. | |
[7] | 林鸿, 方学民, 袁葆 ,等. 电力物联网多渠道客户服务中台战略研究与设计[J]. 供用电, 2019,36(6): 39-45,66. |
LIN H , FANG X M , YUAN B ,et al. Research and design of business platform strategy for multi-channel customer services in Internet of Things in electricity[J]. Distribution & Utilization, 2019,36(6): 39-45,66. | |
[8] | 苏萌, 贾喜顺, 杜晓梦 ,等. 数据中台技术相关进展及发展趋势[J]. 数据与计算发展前沿, 2019,1(1): 116-126. |
SU M , JIA X S , DU X M ,et al. Research on the recent development and future trends of data mid-end technology[J]. Frontiers of Data&Computing, 2019,1(1): 116-126. | |
[9] | ATLAS A . Data governance and metadata framework for Hadoop[J]. Data Governance and Metadata Framework for Hadoop, 2019. |
[10] | 刘天 . 中台产品经理宝典:从业务建模到中台设计全攻略[M]. 北京: 电子工业出版社, 2020. |
Liu T . A guide for middle-office product managers:from business modeling to middle-office design[M]. Beijing: Publishing House of Electronics Industry, 2020. | |
[11] | 邓立君 . 数据中台与大数据中心分析[J]. 电子世界, 2019(22): 85-86. |
DENG L J . Analysis of data center and big data center[J]. Electronics World, 2019(22): 85-86. | |
[12] | 陈新宇, 罗家鹰, 江威 . 中台实践:数字化转型方法论与解决方案[M]. 北京: 机械工业出版社, 2020. |
CHEN X Y , LUO J Y , JIANG W . Middleplatform practice:digital transformation methodology and solutions[M]. Beijing: China Machine Press, 2020. | |
[13] | 吴信东, 盛绍静, 蒋婷婷 ,等. 从知识图谱到数据中台:华谱系统[J]. 自动化学报, 2020,46(10): 2045-2059. |
WU X D , SHENG S J , JIANG T T ,et al. Huapu-CP:from knowledge graphs to a data central-platform[J]. Acta Automatica Sinica, 2020,46(10): 2045-2059. | |
[14] | 王宇杰, 武宪杰, 傅子涛 . 基于云计算的空管系统设计方法研究[J]. 电子技术与软件工程, 2021(17): 141-144. |
WANG Y J , WU X J , FU Z T . Research on the design method of air traffic control system based on cloud computing[J]. Electronic Technology & Software Engineering, 2021(17): 141-144. | |
[15] | 克里斯·理查森 . 微服务架构设计模式[M]. 喻勇,译. 北京: 机械工业出版社, 2019. |
RICHARDSON C . Microservices patterns:with examples in Java[M]. Translated by YU Y. Beijing: China Machine Press, 2019. | |
[16] | 彭锋, 宋文欣, 孙浩峰 . 云原生数据中台:架构、方法论与实践[M]. 北京: 机械工业出版社, 2021. |
PENG F , SONG W X , SUN H F . Cloud native data center:architecture,methodology and practice[M]. Beijing: China Machine Press, 2021. | |
[17] | CNCF. Cloud native landscape[Z]. 2021. |
[18] | 用友云平台团队. 数字化中台[M]. 北京: 电子工业出版社, 2021. |
Yongyou Cloud Platform Team. Digital Middleware[M]. Beijing: Publishing House of Electronics Industry, 2021. | |
[19] | 中国信通院大数据技术标准推进委员会. 数据标准管理实践白皮书[R]. 2022. |
Big Data Technical Standards Promotion Committee of China ICT Academy. White paper on data standards management practices[R]. 2022. | |
[20] | 宋俊典, 戴炳荣, 蒋丽雯 ,等. 基于区块链的数据治理协同方法[J]. 计算机应用, 2018,38(9): 2500-2506. |
SONG J D , DAI B R , JIANG L W ,et al. Data governance collaborative method based on blockchain[J]. Journal of Computer Applications, 2018,38(9): 2500-2506. | |
[21] | 毕强, 朱亚玲 . 元数据标准及其互操作研究[J]. 情报理论与实践, 2007,30(5): 666-670. |
BI Q , ZHU Y L . Research on metadata standard and its interoperability[J]. Information Studies (Theory &Application), 2007,30(5): 666-670. | |
[22] | 国家质量监督检验检疫总局, 中国国家标准化管理委员会. 数据管理能力成熟度评估模型:GB/T 36073—2018[S]. 2018. |
General Administration of Quality Supervision,Inspection and Quarantine of the People’s Republic of China, Standardization Administration of the People’s Republic of China. Data management capability maturity assessment model:GB/T 36073-2018[S]. 2018. | |
[23] | 吴信东, 董丙冰, 堵新政 ,等. 数据治理技术[J]. 软件学报, 2019,30(9): 2830-2856. |
WU X D , DONG B B , DU X Z ,et al. Data governance technology[J]. Journal of Software, 2019,30(9): 2830-2856. | |
[24] | 刘峰, 杨杰, 李志斌 ,等. 一种面向双中台双链架构的内生性数据安全交互协议研究[J]. 华东师范大学学报(自然科学版), 2020(5): 44-55. |
LIU F , YANG J , LI Z B ,et al. Research on an endogenous data interaction protocol for the dual-middle platform and dual-chain architecture[J]. Journal of East China Normal University (Natural Science), 2020(5): 44-55. | |
[25] | DOAN A , HALEVY A , IVES Z . Data matching[M]// Principles of data integration. Amsterdam: Elsevier, 2012: 173-207. |
[26] | CHAUDHURI S , DAYAL U . An overview of data warehousing and OLAP technology[J]. ACM SIGMOD Record, 1997,26(1): 65-74. |
[27] | 杜小勇, 陈跃国, 范举 ,等. 数据整理:大数据治理的关键技术[J]. 大数据, 2019,5(3): 13-22. |
DU X Y , CHEN Y G , FAN J ,et al. Data wrangling:a key technique of data governance[J]. Big Data Research, 2019,5(3): 13-22. | |
[28] | ASFAND-E-YAR M , ALI R . Semantic integration of heterogeneous databases of same domain using ontology[J]. IEEE Access, 2020,8: 77903-77919. |
[29] | 吴强, 沙宇恒, 邓春宇 ,等. 基于本体论的项目全景模型建模及其在电网项目管理中的应用[J]. 电力系统及其自动化学报, 2021,33(11): 135-144,150. |
WU Q , SHA Y H , DENG C Y ,et al. Panoramic unified information modeling based on ontology and its application to power grid project management[J]. Proceedings of the CSU-EPSA, 2021,33(11): 135-144,150. | |
[30] | 万齐鸣, 王思宁, 何鑫 . 数据中台SG-CIM模型应用方法[J]. 电信科学, 2020,36(3): 136-143. |
WAN Q M , WANG S N , HE X . SG-CIM model application method in data middle platform[J]. Telecommunications Science, 2020,36(3): 136-143. | |
[38] | 吴共庆, 胡骏, 李莉 ,等. 基于标签路径特征融合的在线Web新闻内容抽取[J]. 软件学报, 2016,27(3): 714-735. |
WU G Q , HU J , LI L ,et al. Online web news extraction via tag path feature fusion[J]. Journal of Software, 2016,27(3): 714-735. | |
[39] | SHENG S J , ZHOU P , WU X D . CEPV:a tree structure information extraction and visualization tool for big knowledge graph[C]// Proceedings of 2019 IEEE International Conference on Big Knowledge (ICBK). Piscataway:IEEE Press, 2019: 221-228. |
[40] | 吴信东, 李娇, 周鹏 ,等. 碎片化家谱数据的融合技术[J]. 软件学报, 2021,32(9): 2816-2836. |
WU X D , LI J , ZHOU P ,et al. Fusion technique for fragmented genealogy data[J]. Journal of Software, 2021,32(9): 2816-2836. | |
[41] | WU X D , JIANG T T , ZHU Y ,et al. Knowledge graph for China’s genealogy[J]. IEEE Transactions on Knowledge and Data Engineering, 2021:1. |
[31] | 中国信通院大数据技术标准推进委员会. 数据资产管理实践白皮书4.0[R]. 2021. |
[1] | 刘业政, 黄丽华, 朱扬勇, 孙见山, 宋靖达. 长三角国家算力枢纽节点赋能制造业数字化转型的机理与路径[J]. 大数据, 2023, 9(5): 61-77. |
[2] | 叶雅珍, 朱扬勇. 数字化转型服务平台:面向新竞争格局的企业竞争力建设[J]. 大数据, 2023, 9(3): 3-14. |
[3] | 李冬青, 刘吟啸, 邓镭, 李铭洋. 基于数据全生命周期的数据资产价值评估方法及应用[J]. 大数据, 2023, 9(3): 39-55. |
[4] | 钱海红, 王茂异, 熊贇. 高等教育数字化转型的现状与发展研究[J]. 大数据, 2023, 9(3): 56-70. |
[5] | 刘豆豆, 焦宝臣. 高校数据资产编目研究[J]. 大数据, 2023, 9(3): 71-84. |
[6] | 冯旭, 曹浩, 胡杨, 王秀芹, 张皓翔, 凌端新. 我国中小企业数字化发展评价与区域差异研究[J]. 大数据, 2023, 9(3): 168-180. |
[7] | 梅宏, 杜小勇, 金海, 程学旗, 柴云鹏, 石宣化, 靳小龙, 王亚沙, 刘驰. 大数据技术前瞻[J]. 大数据, 2023, 9(1): 1-20. |
[8] | 黄科满, 杜小勇. 数据治理价值链模型与数据基础制度分析[J]. 大数据, 2022, 8(4): 3-16. |
[9] | 李汶龙, 袁媛, 安筱鹏. 刍议大数据治理的三大基础思维[J]. 大数据, 2022, 8(4): 34-45. |
[10] | 刘枬, 郝雪镜, 陈俞宏. 大数据定价方法的国内外研究综述及对比分析[J]. 大数据, 2021, 7(6): 89-102. |
[11] | 尹传儒, 金涛, 张鹏, 王建民, 陈嘉一. 数据资产价值评估与定价:研究综述和展望[J]. 大数据, 2021, 7(4): 14-27. |
[12] | 赵明, 董大治. 基于区块链技术的数据资产管理机制研究[J]. 大数据, 2021, 7(4): 49-60. |
[13] | 柴唤友, 刘三女牙, 康令云, 张雅娴, 李卿, 刘智. 教育大数据采集机制与关键技术研究[J]. 大数据, 2020, 6(6): 14-25. |
[14] | 代红, 张群, 芦皓麟, 宾军志. 银行业金融机构数据治理指引和DCMM的对比分析[J]. 大数据, 2020, 6(5): 118-128. |
[15] | 戴炳荣, 闭珊珊, 杨琳, 纪婷婷, 陈美. 数据资产标准研究进展与建议[J]. 大数据, 2020, 6(3): 36-44. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||
|