政府数据作为社会公共资源的价值和作用已成为全球的广泛共识,而我国政府数据开放平台建设整体上处于起步阶段。以贵阳市政府数据开放平台为例,介绍了政府数据开放平台设计和建设方案,从平台定位、总体框架、数据采集、数据质量和元数据建设等方面进行阐述和探讨,为我国地方政府数据开放平台建设提供借鉴与参考。
As the social public resources,the value and function of government data has become a global consensus,but the construction of our local open government data platforms is still in a preliminary stage.Taking the Guiyang open government data platform as an example,the design and construction scheme of open government data platform was introduced from various modes,general framework,potential data acquisition mode,data quality management and metadata construction.The meaningful reference for the construction of our local open government data platform was provided.
政府数据作为社会公共资源的价值和作用已成为全球的广泛共识,根据《2016联合国电子政务调查报告》[1]的数据,联合国 193 个成员国中已有106个提供了开放数据目录。《促进大数据发展行动纲要》[2]中提出:2018年底前,建成国家政府数据统一开放平台,2020年底前,逐步实现信用、交通、医疗、卫生、就业、社保、地理、文化、教育、科技、资源、农业、环境、安监、金融、质量、统计、气象、海洋、企业登记监管等民生保障服务相关领域的政府数据集向社会开放。国务院办公厅印发的《政务信息系统整合共享实施方案》[3]提出了基于政府信息资源目录体系,推动政府部门的原始性、可机器读取、可供社会化再利用的数据集向社会开放的要求。
复旦大学与提升政府治理能力大数据应用技术国家工程实验室在2017年中国国际大数据产业博览会上联合发布的《2017中国地方政府数据开放平台报告》[4]指出,我国符合政府数据开放特征的平台仅为19个,整体上处于起步探索阶段。我国共有 300 多个地级行政区,除国务院另有规定外,国家原则上不再审批有关部门、地市级以下(不含地市级)政府新建孤立的信息平台和信息系统,地市级政府数据开放平台对推动我国政府数据开放工作有着重要作用。
贵州作为我国首个大数据综合试验区,政府数据开放是试验区首要任务的核心,贵阳市作为该试验区的核心区域,从2016年底启动政府数据开放工作,通过体制和机制的创新,2017年1月初,政府数据开放平台(www.gyopendata.gov.cn)上线运行,目前开放数据集总数超过1 160个,数据量超过520万条,在《2017中国地方政府数据开放平台报告》中综合分值排名第二。
本文基于贵阳市政府数据开放平台的实践,从平台的定位、问题与分析、总体框架设计、数据采集、数据质量、开放元数据、项目组织等方面进行阐述和探讨,为我国地方政府数据开放平台建设提供借鉴与参考。
从根本上讲,制约我国政府数据开放工作进程的主要因素还是体制机制方面的问题,但这不属于本文讨论的内容,本文更多还是从项目技术实施角度,通过总结、借鉴和学习国内外相关政府数据开放平台的成果,结合贵阳市的实际,阐述政府数据开放面临的问题和相关分析。
(1)平台定位不清晰
从国内已建成的数据开放平台来看,平台的定位存在较大差异。从功能角度,不少数据开放平台与信息公开平台混淆;从服务对象角度,多数平台的服务对象不清,参与的主体也不明;从平台参与对象的角度,平台以及平台的管理者、数据使用者、数据需求者、数据提供者(政府组成部门)之间关系链不清晰。
(2)数据开放范围不明确
哪些政府数据能开放,哪些数据不能开放的问题是制约数据开放进程的主要原因,从国内其他已建成的数据开放平台提供的数据集来看,不同政府开放数据的数量和内容有较大差异。
(3)数据开放标准缺乏
我国还缺乏数据开放的指标和标准指导,导致在现有的数据开放平台上,已公开的各类数据缺乏统一的规范,由于数据资源种类繁多,格式、发布标准和元数据不统一,更新周期也缺乏明确的预期[5]。
(4)数据安全保障体系不健全
目前,我国还没有专门的法律来界定敏感数据和用户隐私,政府数据分类分级的规范和标准未建立,无法有效识别重要数据、敏感数据和隐私数据,缺少针对不同类型数据开放的原则指导,政府部门因过度担心隐私问题或者以隐私保护为由,影响政府数据的开放共享[6]。
(5)部门信息化水平参差不齐
各部门由于行政履职和资源配置上的差异,导致各部门信息化水平存在较大差异,相当多的部门数据资源还是电子文件甚至是纸质档案,“有数据无系统”的现象普遍存在。
(1)探索政府数据开放平台的定位
政府数据开放对提高政府治理能力和服务水平,激发市场活力和社会创造力有着重要的作用。《贵阳市政府数据共享开放条例》规定,公民、法人和其他组织可以通过开放平台,提出开放需求,申请政府数据,平台应当以可机读、标准格式开放数据,公民、法人和其他组织可以在线访问、获取和利用。因此,贵阳市政府数据开放平台的定位为“政府主导、市场参与、服务产业、数据惠民”,这个定位把数据开放平台和信息公开平台区别开来。服务对象不仅有法人和其他组织,还包括普通公民,同时平台是贵阳市政府释放数据资源的综合窗口,通过该平台对数据的管理者、提供者、需求者、使用者建立有效的关系。
(2)创新数据开放范围的思路
一是梳理国内已经开放的数据集作为首批开放的目标,实现普遍开放;二是以统计、旅游、商贸、气象、文化、教育、企业登记监管等较为成熟领域为重点,实现价值密度大的数据的重点开放;三是以依申请开放为创新手段,实现数据的供给侧和需求侧的统一,实现按需开放。
(3)实施数据标准化策略
一是按照笔者参与编制的《政府数据 数据分类分级指南》(DB52/T 1123-2016)和《政府数据数据脱敏工作指南》(DB52/T 1126-2016)等贵州省地方标准,统一对数据集进行分类分级,建立统一的开放目录;二是参考国内外领先的政府开放平台,制定了24个指标项的开放元数据;三是建立统一数据的采集、加工、脱敏、成果检测全工作流程的数据质量控制体系。
(4)建立多元化的数据采集手段
针对各部门信息化水平参差不齐的现状,特别是要解决“有数据无系统”的问题,建立数据直报、前置机、接口等多元化的数据采集手段,同时针对每个数据提供部门编制数据开放工作指南,确保数据采集的标准化和持续性。
(5)探索数据安全控制机制
在数据治理的内容研究中,数据政策是首要的促进方式,数据质量是必要的实现目标,数据隐私和安全是重要的保障前提[7]。开放数据需要做好数据分类分级和脱敏工作,有效降低数据安全风险,同时加强数据溯源、态势感知、安全审计等数据安全监控工作。在具体实施上,通过委托国内有能力的数据处理公司,统一对开放的数据进行控制,建立安全可控的项目管理和数据处理机制。
国内已建成的开放平台普遍存在着数据量少、价值密度低、更新不及时、获取体验差、实际利用效果不理想等共性问题,数据开放平台在建设模式、运营模式、价值释放途径、价值挖掘引导等方面还没有成熟经验,建设合法合规获取数据、分析数据和应用数据的政府数据开放平台,并确保数据的广度、深度、鲜活度和价值密度,是大数据产业发展和提升社会双创能力的重要组成。
政府数据开放平台的核心是提供数据的能力。数据驱动下的电子政务总体架构,不再是以应用、系统平台为重点的传统建设架构,需要围绕数据这个中心,更多地关注数据的生命周期,从数据视图来对待应用的需求和资源的需求[9]。
贵阳市政府数据开放平台整体框架包括数据基础设施层、数据资源层、平台支撑层和应用服务层(如图2所示)。基础设施层是承载平台运行所需的网络、计算、存储和安全资源;数据资源层包括数据采集子层、数据处理子层、数据管理子层和数据存储子层,数据采集子层支撑多种方式从部门和数据共享交换平台采集数据,构建多元异构的数据采集平台;数据存储子层是实现对采集及加工后的结构化、非结构化数据以及数据目录等内容的存储;数据处理层主要是实现数据的清洗加工、标准化、脱敏等处理;数据管理子层主要是对数据质量、生命周期等进行管理;平台支撑层是对平台整体资源、用户、接口、目录等的管理,具体包括数据开放管理平台和开放目录管理系统;应用服务层为面向公众提供服务的窗口,包括电脑端的门户网站和移动端的微信公众号,主要提供数据下载、应用程序编程接口(application programming interface,API)调用及互动交流等功能。
贵阳市政府数据开放分为主动开放(政府部门制定数据开放计划)和依申请开放(以需求为导向)两种模式。此外,数据使用者在使用数据过程中发现数据问题,可通过平台反馈到数据的提供方,进行数据的疑义校核,及时修复或更改数据错误,并重新发布。
政府开放数据过程包含数据的提供、处理和发布,主要分为 3 个部分,分别是资源编目发布流程、数据集开放处理流程、数据接口开放流程(如图3所示)。
资源编目发布流程是政府部门通过梳理数据资源,明确数据开放范围和内容,并结合相关业务属性,完成数据分类和元数据编制,实现数据的编目、审核和发布。
数据集开放处理流程从部门数据采集开始,经过数据交换共享平台或数据直报系统,通过抽取、转换、加载(ETL)和脱敏之后,存入开放数据库,再经过数据开放管理平台进行数据加工封装,最终在数据开放门户网站上形成可机读的数据文件(如.xls、.xml、.csv、.json 等)或封装生成 API,整体上包括数据采集、清洗、入库、加工和发布等数据生命周期流程。
数据接口开放流程是将部门提供的API按照open API标准,通过API代理总线统一转向政府数据开放平台,并利用API manager 进行统一规范管理,最终在数据开放门户网站形成可在线调用的API服务。
开放数据采集需要充分整合利用现有基础,并有效适应部门不同信息化的现状,采用多种数据采集方式,包括文件采集(如 FTP 上传、WebLoad等)、服务/接口采集(如Web services等)、数据库采集(通过前置库、缓冲库采集)、在线直报采集方式等,构建多源异构的数据采集体系,实现部门异构应用系统与数据交换网关之间的数据提取、转换和推送。数据采集功能如图4所示。
整体上参考国家《政务信息资源目录体系标准》(GB/T 21063-2007)标准要求,包括资源准备阶段、编目阶段、注册阶段、发布阶段、目录查询阶段、目录维护阶段和运行维护机制等,同时,将数据分类和元数据管理功能也融入目录管理系统。开放数据目录系统的整体建设框架设计如图5所示。
元数据开放的目的是促进大量的结构化或非结构化数据的获取、管理和共享,元数据标准规范是促进数据开放共享的关键[10],但目前国内开放元数据的建设尚未有正式标准,需要在项目建设中建立健全。
借鉴国际元数据指标,如都柏林核心元数据(Dublin core metadata,DC)、W3C公司的数据分类词汇表(data catalog vocabulary,DCAT),遵循国内《政务信息资源目录体系 第3部分:核心元数据》(GB/T 21063.3-2007 )和《政务信息资源目录编制指南(试行)》等要求,并结合我国政府行政管理及地方数据特色,贵阳市提出 24 个指标项的开放元数据标准(包括 14 个核心元数据和 10 个扩展元数据),见表1。同时,平台还提供了基于元数据的数据集的查询。
当下,在数据开放范围尚未规范性约束时,依申请开放是打通数据供给侧和数据需求侧最好的创新手段。
《贵阳市政府数据共享开放条例》中允许公民、法人和其他组织通过开放平台提出开放需求申请,政府数据提供机关应当自申请之日起10日内答复,同意的及时列入目录或者开放,不同意的说明理由。公民、法人和其他组织对政府数据提供机关的答复有异议的,可以向市大数据行政主管部门提出复核申请,政府数据依申请开放流程如图6所示。
数据资源合理分类是提高数据使用效率的重要技术手段。目前国内地方政府数据开放平台上的数据分类大部分采取按主题、部门和行业分类的方式。贵阳市政府开放数据平台采用贵州省标准《政府数据 数据分类分级指南》,在国内率先实现了主题、服务、行业、领域和部门 5 种分类,如图7 所示。其中,数据主题和数据服务分类引用自国家标准《政务信息资源目录体系 第4部分:政务信息资源分类》(GB/T 21063.4-2007);数据行业分类引用自国家标准《国民经济行业分类》(GB/T 4754-2011);数据领域分类是根据政府数据实际情况,结合地方特色,对所有数据进行的专题归类和包装;数据部门分类是根据部门行政职能设置,按数据来源进行的分类。
按照《政府数据 数据脱敏工作指南》和总体框架要求,该子系统包含了 ETL、清洗、脱敏等功能,结合整体架构,技术实现分为 4 个层次,分别为数据存储层、数据计算引擎层、数据分析引擎层以及数据交互处理层,如图10所示。
数据存储层主要实现部门数据的存储,包括结构化数据库、非结构化数据库;数据计算引擎层为数据加工提供基本的数据计算和处理技术,有效提升数据处理的速度和效率;数据分析引擎层,包括深度学习、多维分析、关联分析、统计分析和数据建模等数据分析功能;数据交互处理层包括实现数据的 ETL、脱敏等基础处理以及数据服务封装和数据可视化处理。
在整个脱敏过程中,脱敏规则的制定仍然是难点,特别是数据叠加以后的监测工作,仍然是制约数据脱敏效率不高的主要因素。
政府数据开放平台的安全防护体系包括基础设施、数据库、平台及应用层面的安全,其核心在于保障开放数据的安全,即数据采集、存储、加工和开放等全生命周期的数据安全保障。主要的安全防护技术包括数据加密、脱敏、溯源、访问控制和日志审计。数据开放平台整体安全体系框架如图11所示。
用户互动功能能够及时有效地感知用户对资源的使用情况并获取相关建议,用户也能充分实现表达权,是打通供需两端和持续优化数据质量的重要途径。贵阳市政府数据开放平台在电脑端(门户网站)和移动端(微信公众号)都提供了相关的用户互动功能,包括可以通过QQ、微信等第三方账号登录开放平台,并可将开放平台数据资源分享到第三方社交平台,开放平台提供数据预览、测试功能,用户可以对数据或文章进行评分和评论,提供相关建议。
在平台运营方面,平台与媒体合作,借助媒体在内容采编和宣传推广方面的优势,强化平台内容运营和数据价值推广,通过建立官方微信号,以数据融媒方式将枯燥、晦涩的数据,通过采编提炼成图文产品,让数据理解更加平民化、通俗化、生动化,有效建立起数据价值释放政府—公民(government to citizen,G2C)的路径,开辟数据惠民新路径。同时,平台广泛与数据企业、研究机构和众创空间等创新主体合作,形成生态联盟,推动数据转化为二次产品、应用产品、数据服务等,探索建立数据价值释放政府—企业(government to business,G2B)和政府—企业—公民(government to business to citizen,G2B2C)的路径。
采用文中的平台架构设计和务实的项目组织方式,贵阳市政府数据开放平台通过两个多月的建设和实施,于2017年1月18日实现了正式上线。目前已经完成了2.0版本的建设,开放数据集总数超过1 160个,数据量超过520余万条,实现了51个有对外服务职能部门的全覆盖,在《2017中国地方政府数据开放平台报告》中综合分值排名第二,在评估的12项关键评估指标中,贵阳市政府在数据集数量、机读格式数量、开放格式数量、元数据覆盖率、关键词覆盖率、机构覆盖率、主题覆盖率、历史档存8项指标中都获得满分。
我国政府数据开放水平整体处于起步阶段,在平台定位、数据标准、数据质量、数据采集等方面还需要探索,在技术上还需要加大创新和实践力度。本文基于贵阳市政府数据开放平台的设计和实现,提出的政府数据开放平台相关子系统的设计模型,在一定程度上可为其他地级市政府数据开放平台的建设提供参考,希望能为提高政府治理能力和服务水平、激发市场活力和社会创造力提供一个研究范例。