加急见刊

论文:中国开放政府数据平台研究

佚名  2015-09-22

研究背景

政府部门在履行行政职能、管理社会公共事务的过程中采集和储存了大量数据,开放政府数据有利于全社会更广泛、更高效地利用数据创造经济社会价值。开放政府数据,即指可以由任何人自由、免费地访问、获取、使用和分享政府数据。政府数据的开放,不但能帮助政府提高自身透明度并提升治理能力和效率,也是促进经济发展和社会创新的重要推力。

自2009年起,美国(data.gov)和英国(data.gov.uk)相继上线了国家开放数据平台网站,加拿大、法国、挪威、肯尼亚、韩国、新加坡等国家和地区也建立起了政府开放数据平台,开启了全球开放政府数据的浪潮。中国的上海、北京作为最早开展开放数据工作的地方政府,自2011年起便开始了相应可行性调研、政策制定和平台建设。自上海市于2012年6月首先上线试运行“上海市政府数据服务网”之后,其他地方如北京、佛山南海、武汉等也陆续推出了开放数据平台网站。在国家层面上,国家开放数据平台的建设也提上了议程。2015年两会期间,李克强总理在回应有关开放数据的相关提议时说道:“政府掌握的数据要公开,除依法涉密的之外,数据要尽最大可能地公开,以便于云计算企业为社会服务,也为政府决策、监管服务。”2015年5月,马凯副总理也强调要“共促数据开放,让大数据惠及更多民众”“要加快建立政府开放数据平台,优先开放高价值数据,鼓励基于开放数据开展应用创新,让大数据惠及更多民众,要制定鼓励政策,引导更多非公共数据向社会开放。”

二研究目的与意义

开放政府数据的发展离不开政府部门持续性的政策支持和资源投入,开放政府数据的社会经济价值也需要时间逐渐体现。因此,对于中国开放政府数据的进展进行持续地追踪和评估,能有利于政府部门和各利益相关方寻找差距、发现问题、看清趋势,最终推进开放政府数据工作良性发展。

当前,由万维网基金会所组织开展的“开放数据晴雨表”(OpenData Barometer)[1]和英国开放知识基金会(OpenKnowledge)组织开展的“开放数据指数”(Open Data Index)[2]是得到各国政府、国际组织及国际开放数据社群广泛认可的两项开放政府数据评估项目。在开放数据晴雨表(2014)中,中国位于第46位(共86),而在开放数据指数(2014)中,中国位于第57位(共97)。然而,上述两项国际评估都只聚焦于评估国家层面的开放政府数据项目,目前中国的开放政府数据实践则主要在地方政府层面展开。因此,这两项国际评估未能系统性地对中国开放政府数据发展现状特别是地方发展现状进行全面系统的评估。

本研究依托相关分析框架和国际评估实践,基于中国国情,建立较为系统全面的评估框架,对中国多个地方的开放政府数据实践开展比较研究。评估的目的并非对不同地方的开放政府数据实践予以排名,而是希望通过系统评估来客观呈现中国各地开放政府数据实践的现状与问题,为中国开放政府数据的发展提供政策建议。

三研究框架与方法

(一)评估框架

“开放数据晴雨表”从准备度、执行度和影响力三个维度对不同国家或地区开展开放政府数据项目的评估排名,以揭示全球范围内开放数据计划的普遍流行和影响力,并分析其全球发展趋势。“开放数据指数”则针对各国政府是否开放10个关键性数据集进行评估。万维网基金会(World Wide WebFoundation)和纽约大学的治理实验室(The Governance Lab at NYU)基于现有评估项目如“开放数据晴雨表”“开放数据指数”“开放数据500”[3]等总结提炼出了开放数据的通用评估框架(Common Assessment Framework)[4],包括四个层面:

①环境。指提供开放数据的背景环境,例如政府开放数据的国家整体背景或一个特定部门的背景,包括法律法规、组织、政治意愿/领导力、技术、社会、经济等。

②数据。指开放数据集的本质和质量,包括定义、维度、数据的分类/部门、质量。

③使用。指数据被谁使用、如何使用及其可能产生的结果,包括使用者、目的、活动。

④影响。指使用特定开放数据得到的效益,包括社会、环境、政治/政府、经济/商业方面的效益。

基于该通用评估框架,并考虑到中国开放政府数据发展目前处在初始阶段,数据利用及其效果尚未充分展现,本研究将评估重点置于数据开放的供应端——政府一方,建立了基于“基础”“数据”“平台”层面共13个维度的评估框架,以期较为全面系统地评估中国各地的开放政府数据实践(参见图1)。

图1中国政府开放数据整体评估框架

(二)数据采集方法

基于上述评估框架,研究主要采用了文献调研、数据抓取和人工观察三种方法采集数据。数据采集的时间截止到2015年5月20日,且所有数据均来自于公开渠道。

⒈文献分析

有关基础层的评估指标,例如组织领导力、管理体制、IT产业比例及创新产业发展水平等,采用文献检索方式,如通过搜索相关的政府政策文件、统计年鉴等方法采集数据。

⒉数据抓取

针对数据层的评估指标,本研究自动化抓取了各平台上所发布的所有数据集信息(包含数据标题、发布机构、更新日期、下载量、浏览量等)。

⒊人工观察

针对无法自动抓取的数据,例如平台层是否提供了数据评价功能等,研究中采用了人工观察记录并交叉验证的方式进行数据采集。

(三)样本选择

为开展此次评估调研,研究首先通过媒体报道、官方报道的途径查询了解到北京、上海、武汉、无锡、佛山南海这5个地方的开放政府数据实践,再通过搜索引擎以“数据+gov.cn”和“data+gov.cn”为关键词查询到了另外8个地方的开放政府数据实践。考虑到各地方开放政府数据实践的成熟度、相关资讯完善度、地方行政层级和地域的多样性,本次评估首先从13个地方中选取了北京市、上海市、武汉市、无锡市、湛江市、宁波市海曙区、佛山市南海区等7个地方作为评估样本,并最终考虑到当前社会关注度,将贵州的“云上贵州”项目也纳入研究对象(参见表1)。

表1评估样本选择

四当前现状

(一)数据层

截至2015年5月20日,研究样本所覆盖的各地开放政府数据实践共计公开了1963个数据集。其中公开数据最多的是武汉(635个),最少的则是贵州(17个)。就数据的开放性而言,开放数据应当提供机器可读的格式(例如XLS而非PDF,且至少应当能下载),基于此要求研究发现,各地方中上海发布可机读数据(398个)最多。平均而言,81.1%的公开数据均符合开放数据的数据格式要求(即可机读),但目前仅北京市和宁波海曙区两地100%提供了可机读数据,其他地方仍有提升空间(参见图2)。

图2公开数据总量与可机读数据总量

开放数据所采用的数据格式应当是开放的格式。所谓开放格式,是指一个数据格式标准由一个开放透明的过程定义并且不限制任何人实现该数据格式标准,其主要目的是确保一个数据文件无需一个指定的(特别是付费的)应用程序才能访问。基于此定义,CSV是常见的开放格式,而XLS则不是。目前,仅北京100%提供了开放格式,佛山市南海区则有98.15%的数据提供开放格式,其他地方均未采用开放格式。我们也特别注意到目前仅佛山市南海区一个地方在发布数据时提供了多种格式(CSV、XLS、TXT、XML和JSON),这样的数据提供方式可以更好地满足不同需求的数据使用者更方便快捷地对数据进行增值利用。

数据的开放授权是数据开放性的另一考察维度。研究发现,目前除贵州之外的7个地方均对数据予以了授权,授权条款通常包含在开放数据门户的免责条款或用户协议中;仅无锡和宁波海曙两个地方确保了其提供的数据将永久免费,而其他地方仅对数据的免费性设有一个相对模糊的时间期限,未明确指出到期之后将如何授权。进一步来看,各地的数据授权协议均未能对用户的自由使用权利,特别是商业使用权利予以明确清晰的保障。而对于用户的自由传播分享权利,也存在类似问题,甚至有的地方包含了“不得有偿或无偿转让在本网站中获取的各种数据资源”的条款,这与开放授权的要求不符。

数据的时效性也是评估的一项重点。研究对各地方平台所承诺的更新频率进行了分类统计(佛山南海、贵州未承诺更新频率),结果发现整体上86.25%的数据是静态数据(以年为单位更新,或按需更新),仅有13.75%的数据属于动态数据(以月、周、日为单位更新,或实时更新)(参见图3)。

注:未包含没有申明数据更新频率的南海和贵州。

图3开放政府数据更新频率分布

即使在大部分数据为静态的情况下,少部分承诺将更新的数据也未能按承诺进行更新。研究根据各平台上数据的发布时间和更新频率标记出应当更新的数据集,再根据数据的上次更新时间来判定其是否按照承诺更新,结果表明,无锡是各地方中按承诺更新比例最高的(62.5%),而各地方平均仅有17.21%的数据按承诺得到了更新(参见图4)。

图4各地方数据按承诺更新数量和比例

各地方在提供数据的元数据时做法也不尽相同。目前,各地方都能提供基本的元数据信息,包括数据名称、发布单位、数据分类以及数据描述等。本研究重点考察了各地方是否提供了几项关键日期信息:第一项是数据的发布时间,其中佛山南海和宁波海曙均未能明确标记出该信息,仅能通过其提供的历史数据记录进行推算;第二项关键日期信息是数据的更新时间,这一项信息目前仅宁波海曙和佛山南海明确标记在数据页面,而北京、上海、无锡、湛江都将该信息提供在数据目录中而非数据页面,不便于用户查看该信息,而武汉和贵州尚未提供该元数据。

(二)平台层

在开放数据平台建设层面,本研究还评估了各开放数据平台是否提供了数据导航来帮助用户探索数据资源。结果发现,各地方均提供了搜索功能,且除贵州之外也都提供了分类导航(依发布机构和/或数据类别导航),其中上海、武汉、湛江还为用户提供了按特定属性(下载量、更新日期等)进行排序搜索等功能。

对于下载数据,目前能够在上海、武汉和佛山南海的开放数据平台上对数据进行预览,从而能在下载数据前得以先行了解数据文件中所含的数据字段和样例。而从数据下载的便捷性来说,目前无锡和湛江的数据下载流程最为简便,均不需要用户注册登录即可下载数据。在其余的5个地方中(贵州无数据下载故不纳入评估),仅北京和南海无需实名注册,其余3个地方都需要用户提供身份证号码才可注册。

开放数据平台不但需要提供原始的政府数据供下载,还应当成为展示社会上基于开放数据所开发的应用程序的平台,为用户下载使用提供便利。目前,各地方都在平台上设立了应用频道展示数据应用,其中北京和宁波海曙两个地方不但展示了数据应用,还一并公开了各应用所使用的开放数据。截至2015年5月20日,8个平台所提供的数据的应用总量仅达到158个(参见图5);上海最多为73个应用,宁波海曙最少为0个,平均每个平台上有20个应用。各地方中除上海之外均允许开发者提交上传APP应用,以此激发用户自主地对政府数据进行开发利用。

注:宁波海曙仅有测试数据,故数目为0。

图5各地方应用频道中应用数目

开放政府数据项目需要和用户,特别是开放数据的增值利用者进行互动沟通。目前,除无锡之外的所有开放数据平台都提供了交互功能,包括数据集评价功能(除贵州外)和数据请求功能。针对数据集评价,上海和湛江均能在不注册登录的情况下就提交评价,其他地方的平台均要求先登录才可提交相应评价信息。从评价方式上来说,武汉、湛江采用了星级评分,而北京、宁波海曙、佛山南海采用文字评价,上海则结合了两种方式。对于数据请求功能,除了无锡之外各地方均允许用户提交需要的数据,但经过研究测试没有一个地方在一周时间内对研究的建议给出任何有效的答复,而在所有地方中,也仅有宁波海曙一个地方在功能设计中将收到的用户数据请求予以公开,其他地方均不公开用户的数据请求信息。

针对交互沟通,研究也同时关注了各地方是否由主管单位设立“大数据”“开放数据”相关的社交媒体账号来宣传、推广政府数据开放项目,并为公众提供交流渠道。根据评估结果,目前仅佛山南海为其开放政府数据项目设立了微博和微信账号,通过社交媒体账号推送了开放政府数据项目相关的新闻资讯(包括管理体制、政策、平台更新等),但目前在佛山南海的“数说南海”平台上尚未链接其社交媒体账号。

(三)基础层

在体制机制保障层面,开放政府数据实践的发展亟需得到领导层的支持,这方面上海和佛山南海走在了全国的前列。研究评估中考察了地方开放政府数据项目是否获得地方行政长官的公开支持,上海市副市长周波、佛山南海前区委书记邓伟根都曾在公开场合发声支持开放数据并有媒体报道,而其他地方虽有相应主管单位领导的支持,但地方行政长官在公开场合的发声支持尚未有见。

上海是唯一一个有明确公开开放数据工作计划的地方。其发布的《上海市政务数据资源共享和开放年度工作计划》不但明确了整体的战略部署和年度目标,也清楚列出当年的数据开放重点领域清单:2014年计划开放190项数据集,2015年计划开放428项数据集;这份工作方案同时明确了开放政府数据项目相关的配套项目建设(例如政府数据共享政策和平台的完善)。而在其他地方,目前只有与智慧城市、大数据等相关的公开性政策文件,并未对开放数据专门公开发布相应政策,也未公开相应工作方案。

最后,从管理体制上看,目前各地方一般都由原有的信息化主管单位,比如当地的经济和信息化委员会负责统筹和管理开放政府数据项目,其行政级别一般与其他部门(数据发布单位)相同。佛山南海和上海在管理体制上有一定的创新突破,主要体现在两地都明确了主管单位的职能和权限,比如南海成立了数据统筹局统筹本地一切数据事宜(包括数据开放),而上海也在2015年初将原先的经信委信息化推进处变革为大数据发展处,明确体现其在大数据时代的新定位和职能,统筹推进开放政府数据工作。

五主要问题

基于评估比较分析,本研究总结了中国开放政府数据实践存在六个方面的主要问题。

(一)数据量少、价值低、可机读比例低

总体上,目前各地政府所开放的数据集数量和价值离社会需求仍有很大差距,无法满足经济发展与社会创新领域的需求,大量高价值且不涉及到国家安全、商业机密和个人隐私的数据未能开放。此外,开放数据所采用的数据格式决定了数据的技术开放性,目前各地方的开放政府数据实践尚未能实现其所发布的所有数据都提供可机读格式,而这将会为数据利用者,特别是非技术背景的使用者(例如学者、记者、NGO从业人员等),进一步增值利用相关数据增加难度。研究尤其发现,“云上贵州”目前所提供的数据均不能下载,其门户所包含的17个数据集均为外链到原有为信息公开目的而搭建的网站(例如贵州省环境状况公报),其主要服务目标是让公众知情而非增值利用,其实质并不符合开放政府数据的原则和要求。研究发现,目前仅两个地方提供了开放格式的数据,在数据开放性方面,中国地方的开放数据实践尚有很大提升空间。

(二)开放的多为静态数据

开放政府数据应更多开放动态、实时的业务数据,高价值的动态数据是激发企业、个人开发者进一步增值利用的重要杠杆。在研究评估中发现,目前各地方所发布的数据中平均86.25%的数据是静态数据(以年为单位更新,或按需更新),仅有平均13.75%的数据属于动态数据(以月、周、日为单位更新,或实时更新),远不能满足和激发数据利用者的需求和兴趣。

开放政府数据并非以数据释放为终点,对于数据的更新维护也是开放政府数据项目的重要工作。研究评估发现,目前8个地方的开放政府数据项目虽然已经发布近2000个数据集,但其中仅有17.21%的数据按时得到更新,大量数据虽然清晰标明了更新频率但是均未真正兑现承诺,这使得开放政府数据无法作为稳定、可靠的数据源被应用于产品之中。

(三)数据授权协议条款含糊

开放数据的授权协议是开放数据生态圈建设的重要元素,不但可用于确保开放数据可以自由免费地被使用、传播,也有益于社会大众理解开放文化,从而进一步发展出基于开放数据授权协议的商业模式。研究发现,各地方目前都采用了网站免责条款/用户协议的形式对所发布的所有开放数据进行了一次性整体授权。但在相应的条款上,则存在较为严重的问题,尚不符合开放数据的法律开放性的原则。主要体现在两个方面:一个是部分地方的授权协议中含有明显有违数据开放性的条款,比如“不得有偿或无偿转让在本网站中获取的各种数据资源”;二是协议中通常对用户的权利含糊不清,未能明确、清晰地赋予和保障使用者的相应权利,比如多个地方都没有条款来明确使用者拥有自由分享传播的权利。

(四)缺乏便捷的数据获取渠道

在数据获取方式方面,平台的数据获取缺乏便捷性,大都须进行事先的注册登录,且平台注册难度较大,不利于民众快速、便捷地获取平台数据,由此对民众的积极性和满意度有一定的负面影响。而且,多数地方的开放数据平台都未提供数据内容的预览功能,有些开放数据平台即使提供了这一功能,也只是提供了部分数据内容的预览;有些开放数据平台则仅以图片形式或者站外链接的方式来实现这一功能,不利于为公众创造便利的数据获取体验。

(五)缺乏高质量的数据应用

总体而言,各地方的开放数据平台所提供的数据应用数量还较少。有些平台虽然开设了数据应用频道,但是平台上现存的“应用”并非可下载、可使用的数据应用,而仅仅是功能测试之后的结果;有些平台虽然提供了可下载、可使用的数据应用,但大多并未利用本站数据,或仅仅浅层次地运用了地理位置等基础数据,或即使利用了本站数据也并未对具体使用了哪个数据进行说明;有些平台提供的“数据应用”名不副实,实际上是地方政府部门的政务业务处理系统,是开放数据的来源,而非数据开放后的实际应用。此外,还有些平台虽然提供提交APP应用的功能,但是并不硬性要求提交的APP应用是利用本站数据开发的数据应用,未能有效促进本站数据创造效益;有些平台的APP应用的提交局限于通过审核的企业用户,受众面狭窄,一般个人用户即使利用该站数据进行了有益开发也无法提交,极大地打击了用户的积极性和创造性。

(六)缺乏便捷、及时、有效、公开的互动交流

在互动交流方面,多数地方的开放数据平台都提供了对单个数据集的评价功能以及数据请求功能,建立了用户和政府之间的对话机制。但多数平台的互动交流功能的使用都缺乏便捷性,大多需要事先注册登录。其次,平台的互动交流功能缺乏及时有效的回应,有些开放数据平台虽然提供了单个数据集的评价功能,但是经过试验,实际情况为可以提交评价但一直没有在网页上显示,至于原因是审核尚未或未曾通过,还是评价功能“有名无实”,则不得而知。经过试验,也发现这些平台的数据请求功能大都未能进行及时有效的回应。本研究发现,仅有宁波海曙一个地方的平台公开罗列了收到的公众反馈意见和数据请求意见,而其他地方都将这些数据封闭在后台,不利于激发大众参与互动反馈和数据请求。

六改进建议

针对目前各地方开放政府数据项目的发展现状和主要问题,本研究对中国开放政府数据发展提出七项建议。

(一)加强管理架构建设,制定相关政策与工作计划

目前,许多地方缺乏有效的针对开放政府数据项目的管理架构和政策计划。首先,建议设立或指定开放政府数据工作主管部门,并赋予该部门足够的职权以协调统筹其他业务部门的数据,同时还应明确业务部门和其他相关部门在开放数据工作中的分工与职责。其次,还应尽快制定具有针对性的、切实可行的数据开放政策规范及行动计划,明确开放政府数据的原则和要求,厘清开放政府数据与信息公开的差异和关联性,并对开放政府数据的对象、形式、边界进行严格定义,保证数据开放的规范化和制度化。最后,建议主管部门编订年度工作方案,并公开向大众发布,这将有利于社会公众知晓和参与开放政府数据工作。

(二)提高领导支持力度

开放政府数据项目仅由主管部门推动还远远不够,地方行政长官的公开支持无疑是推动这项工作的重要因素。已有国务院总理、副总理在不同场合对开放政府数据表示了支持,研究中也发现上海和佛山南海的地方行政领导也公开表态支持开放政府数据。建议各地方行政长官加深对开放政府数据之目的和意义的理解,并在地方重要工作会议、公开讲话和实际工作中加强对政府数据开放工作的支持,在政府体系内树立起开放政府数据的观念,增强数据开放的意识,提升开放数据的工作能力建设,指导并支持主管部门推进开放政府数据工作。

(三)基于社会需求开放高价值数据、展现数据应用

建议主管部门以用户需求为导向,会同数据发布单位以及数据需求者(例如企业、个人开发者、记者等)以圆桌会议等形式沟通数据需求,以提升开放数据的数量、质量、形式和价值。通过网站和社交媒体上的互动交流,采集公众需求,不断改进完善自身工作,并为基于政府开放数据开发的应用提供充分的展现平台,从而激励社会的数据利用。

(四)提升数据开放性与可机读比例

建议正在建设的和未来要新开启的开放政府数据项目提升开放数据的可机读率,保证数据不以PDF、网页、图片等格式发布。这一点不但要体现在开放政府数据项目的本地政策文件或工作方案中,同时应作为重要的考核指标对各数据提供部门进行考核。各地方可视情况对相关管理人员进行培训,阐述可机读格式的概念和意义,介绍常见可机读格式并提供相应工具帮助各部门将非机读数据转化为可机读数据。更进一步,各地方应当建立完善的数据发布审核流程,结合自动化检查和人工审查的方式,对发布的数据格式进行严格检验,确保所释放的数据满足数据格式的开放性要求。

(五)规范数据更新周期,落实数据更新工作

开放数据计划的主管部门应设定相应规范和监督机制,确保数据得到及时更新。比如,可以在开放数据平台中设定自动检查程序,自动向相应单位发出更新警报,或借助大众力量,在数据页面上设定相应举报按钮,让大众举报未得到及时更新的数据,推动相应部门及时更新数据,从而提升数据利用价值。考虑到开放数据项目对数据发布单位造成的成本压力和运维压力,数据发布单位可先行调研和实际测试(通过比赛、特定合作开发等)特定动态数据的价值,再由社会机构或企业竞标负责相应数据API的开发和维护,通过PPP公私合作的方式将动态数据像水、电、气一样源源不断地开放给社会、服务于公众。

(六)完善数据授权协议

建议各地方学习并参考国际上现有的行之有效的知识共享协议、开放政府协议,结合中国实际法律环境,制定出适用于中国的开放数据授权协议条款,从而清晰、明确地保证用户享有的数据访问、获取、利用和分享的权利及相应义务。各地方主管部门也应加强对企业、创业者、个人开发者介绍并宣传授权协议的重要性和必要性,以及数据授权和商业模式的关联性,从而促成数据发布者和数据利用者共同建设开放数据授权规则,有利于开放数据生态圈的构建与发展。

(七)降低数据获取与互动门槛,推动有效公开的沟通

建议各地方的开放数据平台降低数据获取门槛和互动交流门槛,使用户无需注册便能获取数据并参与互动。同时,落实平台互动交流功能的有效性,即用户所提交的对单个数据集的评价、对数据的请求、对平台整体的意见建议应当获得及时的审核、公开乃至回应。最后,应当加强对社交媒体工具的使用,向社会大众及时更新政府开放数据计划的最新发展,充分普及和宣传开放政府数据的相关理念和活动,提升社会大众的关注度、参与度和支持度,并借此与公众就相关主题展开切实有效的双向沟通。此外,互动交流可不仅限于政府和公众间,也可使其成为公众之间针对开放数据平台、数据、应用进行讨论交流的平台,使得公众之间能够互相启发和激励,催生出更多的开放数据应用和需求,构建活跃、良性的开放数据生态系统。(来源:大数据文摘 编选:免费论文下载中心)

下载