环境保护部举办大数据与环境管理转型专题培训引追捧  “高冷”大数据开始“接地气” 

11.08.2015  10:49

为落实党中央和国务院对生态环境监测大数据的要求,助推环境管理转型,近期,环境保护部行政体制与人事司主办了大数据与环境管理转型专题培训班。

  “这次培训的可贵之处在于,这是环境保护部第一次以先进信息化理念为主要培训内容的专题培训班。”环境保护部信息中心主任程春明表示。

  培训班的规模之大也前所未有,基本覆盖了环境保护部、省环境保护厅(局)、市级环保局三级环保系统。现场参加培训的有环境保护部机关各司局级、处级以上干部、在京各部直属单位主要负责人。全国各省(自治区、直辖市)环保厅(局)工作人员、部机关其他工作人员则通过远程视频会议系统设置的45个分会场,以及内网共171个视频会议终端同步观看了视频直播。据统计,培训人数多达4850人。

  主办方邀请的主讲嘉宾也都是重量级专家,中国科学院虚拟经济与数据科学研究中心常务副主任石勇,曾从事中国人民银行个人信用评分研究、实时信用卡审批系统研发等;阿里巴巴副总裁涂子沛是著名的信息管理专家,著作《大数据》、《数据之巅》成为我国研究大数据的标杆;微软亚洲研究院主管研究员郑宇是多家高校的客座教授,提出了“城市计算”理论并获得国内外多个奖项。此外,清华大学软件学院副院长王建民、百度总编辑赵承、IBM中国研究院研发总监尹文君也都是大数据领域的资深专家。

  专家们的精彩讲座令听众大开眼界,不少上午因业务未能参加的人,闻听反应热烈,下午纷纷挤时间赶来参加。许多听众表示,大数据培训不仅开阔了思路,也化解了平时工作的迷茫。

  大数据应用要避免哪些误区?

  大数据冠以“大”字,极容易让人误以为大数据是要穷尽全部的数据,方能破解难题。

  ●大数据不只是 “大”和“全”

  石勇坦言道,很多人确实认为大数据时代就是要研究数据整体,数据量越大越好,某些著作也不乏这样的误导。他解释说,大数据条件下,既要全数据,也需要样本数据,不能有了全体,就抛弃样本。

  “没有经过机器学习的模型和算法就不能发挥预测作用。”石勇说,任何大数据都不能违背机器学习的过程,具有预测作用的模型都是机器学习的结果。并且开发一项应用可能同时有很多算法和模型,机器学习成为挑选最优算法和模型关键。

  而这一切都依赖于样本,模型和算法需要通过样本进行学习,从而具有可推广型和预测性。如在1000个全样本中挑取300个进行机器学习,将结果推广到另外700个样本中,验证模型和算法。同时,大数据中抽取的样本普适性更强。

  郑宇强调说,不能盲目迷信大数据。数据并不是种类越多、数量越大,模型效果就越好。他认为,不同数据代表的含义不一样,不能把所有的数据放到“黑盒子”里进行计算,纳入模型计算的每一类数据都要经过验证,对数据进行有机融合才能发挥1+1>2的效果,否则既浪费计算资源,也影响模型和算法的性能。

  郑宇提出了3条验证数据相关性的途径,一要靠前人的经验和知识进行判断,二要对数据相关性做可视化分析,三要用实践证明数据与目标的相关性。

  ●大数据不只是发现相关性

  大数据时代最重要的一点是,可以将碎片化的、看似毫无关联、只反映某个方面表面现象的信息进行关联分析,从而发现彼此之间的联系,为决策提供参考。

  但石勇认为发现数据之间的相关性还不够,还要通过相关性研究数据之间的因果性和必然性,实现大数据的预测功能,为决策服务,这才是大数据魅力所在。

  郑宇也认为,大数据的魅力就在于通过不确定加不确定,形成确定性的结果,从而形成决策指导实践。

  微软配合环保部门开发的城市局地大气主要污染物时空分布大数据模型——U-Air,正是将各种不确定的数据融合在一起,产生了确定性的结果。U-Air可以预测任何时段任何地点1km×1km的空气质量,准确率已经超越传统模型。

  大数据怎么助推信息经济?

  后互联网时代,数据经济为代表的信息经济已经初露端倪。涂子沛认为谁拥有数据,谁就将拥有金山,谁使用好数据,谁就会脱颖而出。

  ●大数据提升效率

  涂子沛认为信息经济的首要表现是大数据引发的效率革命。

  滴滴快车正是大数据时代下信息经济的典型应用。滴滴快车通过整合司机和公众的供求信息,为双方提供更加对称的信息,达到了一石三鸟的效果,道路行车效率提高,司机收入增加,公众需求得到满足。据介绍,用了滴滴快的等打车软件,司机的平均收入增加了约三分之一。

  石勇则提到实时信用卡审批系统,5秒钟就可以办一张信用卡,怎么实现的呢?申办人的信息输入个人信用系统后,系统可以在成千上万的信息中搜索跟申请人相似的信息,通过类比,系统对申请者的贷款申请做出同意或拒绝的决策。如果申请人的贷款申请通过了,系统还会给出建议信贷额度。

  石勇表示,现代社会高效率运作只有大数据可以实现,这在以往完全是无法想象的。

  ●大数据催生众包众筹

  大数据不仅带来了效率革命,而且带来了新的资源和蓝海。移动互联网带来的公众大数据,是大数据的新蓝海。

  涂子沛举例道,华尔街日报要把129年的纸质报纸电子化,但是由于报纸年代久远,扫描的准确率非常低。如果用人工打字,日夜兼程也需要将近48年的时间。恰巧,当时校验码的研发者发现,校验码一天有几亿次的应用。于是,他们将报纸扫描后,分割成一个一个的校验码,运用公众的力量完成报纸的电子化工作。原理是,如果3~4人输入同样的内容,就显示内容识别正确,之后再通过软件将正确识别的验证码整合起来,仅用24个月就完成了所有报纸的电子化。华尔街日报正是通过众包的方式,借助大众的力量,低成本、高效率地完成了报纸电子化。

  具体到环保领域,涂子沛认为未来政府可以充当“接单员”的角色,借助市场和公众的力量参与环境保护,开展环境管理工作。贵州就已经开始应用随手拍,市民对污染信息拍照后可以直接上传到政府部门,政府可以根据公众的举报进行处理,这样有利于形成全民参与环保的局面。

  此外,大数据时代还可以调动公众、企业、环保组织等社会资源,共同挖掘数据,为环境管理贡献力量。原来仅靠环保部门一家完成的事情,现在可以由整个社会一起分担,真正实现环境管理的众包众筹。

  大数据应用需要哪些先决条件?

  大数据是现代经济的助推器,但是大数据的实现还需要整个社会做好准备。

  ●数据整合

  石勇认为,大数据系统和模型开发过程中,数据的筛选和整理是大数据非常重要和关键的环节,但过程是非常繁复的浩大工程,比如中国人民银行个人信用评分研究中,要梳理480个参数、八亿五千万个数据,数据处理工作就长达一年多;中国金融期货交易所项目,为从历史交易数据中挖掘出对结算会员风险预测,数据的收集和整理也花费了半年多时间。

  石勇将数据挖掘分为6个步骤,其中第二、第三步都是有关数据收集和整合工作。首先要对数据进行筛选,严格要求进入模型的数据,避免就是垃圾数据,数据模型中最忌讳“零”,可能导致模型清空;其次,要对筛选的数据进行统计计算、回归分析等预处理工作。

  “大数据建设的前提就是要对数据整理和整合,数据不整合就没有力量。”石勇表示,同样,环保部门数据的整理和整合也是环保大数据的第一步。

  ●数据开放

  与数据整合同样重要的是数据开放,数据只有开放、有价值才能成为共享的大数据。上世纪80年代立法后,美国的企业开始开放数据,90年代企业的排放量就下降了50%。

  涂子沛认为数据开放其实是一种管理社会的手段,开放数据是政府与社会实现共治的纽带。政府可以利用数据实现管理,规范数据开放范围,并且可以将数据变为价值,有偿供应一些数据。

  数据资源的开放也为环境管理实现众筹提供了条件,社会有很多可以帮助环保部门共治的资源。通过开放数据,公民、环保组织、高校、研究所等机构便可以开展更多的数据挖掘工作,为环境管理提供多种解决方案。