自2009年大数据概念提出以来,越来越多的国家开始从战略层面重新定义大数据。2016中国大数据产业峰会透露,未来5年,大数据产业规模将以每年50%以上的速度增长。那么,大数据时代真的到来了吗?大数据应用过程中还存在哪些问题?日前记者走访了我国大数据行业领军企业之一的成都数之联科技集团。 降低数据挖掘“门槛”,大数据赋能当“授人以渔”
“我想这个时代还远没有到来。”作为《大数据时代》的译者,成都数之联科技集团CEO兼首席科学家周涛认为,当前大数据应用主要是在互联网和金融行业,这些只是大数据产业的冰山一角,未来会进一步向工业和农业等传统产业渗透。
不过,对于当前我国传统企业来说,大数据应用常常总是“余音绕梁”,却又难以“触手可及”。“在传统制造企业中,产品需求、生产流程、销售渠道、售后评价依旧是传统的‘拍脑袋’,尚未实现智慧化生产、精细化运营、个性化营销。”周涛举例说,比如农业领域就依然停留在粗放的耕种土地、收获粮食和进入市场销售模式。在周涛看来,目前我国传统企业普遍面临的大数据应用困境,多为数据存储管理和分析挖掘的能力瓶颈。
“正是数据挖掘技术门槛高,使得数据和价值分离的问题严重。”数之联董事长兼财务总监傅彦认为,“虽然有小部分互联网企业具备数据挖掘技术,但传统企业考虑到数据安全问题,不愿意把数据拿出来。面对这些问题,我们的解决方案是:通过开放数据挖掘能力,降低传统企业将数据转化为价值的门槛,对传统企业进行大数据赋能。”
如何不拿出企业数据,却依然借助大数据赋能?
数之联首席技术官方育柯介绍,数之联在2012年成立后,为政府、企业和机构提供集数据采集、存储、管理、分析、挖掘和应用为一体的大数据价值发现全产业链服务,重点解决数据价值挖掘、数据变现问题。企业的iCloudunio大数据价值发现与应用创新平台更强调开放数据挖掘过程,平台上集成了100多个机器学习算法,适配到hadoop、spark等分布式处理框架,使得能够快速处理大规模的数据。“有了这个平台,我们可以通过托拉拽快速完成大型数据挖掘算法和模型开发工作。”他举例说,在公司分析富士康SMT生产线上不同环节的加工数据项目中,为了解哪个环节容易导致产品不良率比较高,平台仅用数小时便搭建起一个集成学习模型,并通过该模型,将之前进料阶段准确率实现了大幅度提升。
“经过初级培训的人在几个小时内就可以完成高级算法工程师要几周才能完成的编程工作。”方育柯说,平台的价值在于可以帮助客户实现自主的数据价值发现和应用创新能力,真正做到授之以鱼不如授之于渔,对传统企业进行大数据赋能。
警惕重复建设“先手棋”,产业布局需科学统筹
去年以来,“国家大数据战略”的发展目标被写入十八届五中全会公报中,我国大数据产业发展明显加快,一些大数据产业发展规划或智慧城市项目也在各地纷纷上马。然而,“下先手棋”的大规模产业布局是否就意味着发展领先?
方育柯注意到,大数据产业发展中存在的资源浪费、重复建设应当引起关注。一方面,很多地方在推大数据产业项目时基础设施先行,投入大量资金建设IDC(互联网数据中心)、IPC(工业个人计算机)等,使得国内的计算资源和数据平台的容量远大于需求量;另一方面,部分政府、企业在数据开放过程中,要么开放范围有限,要么开放的数据是过于宏观或“高度”汇总的小数据,对大数据的价值挖掘帮助有限,“这好比空有一身功夫的‘武林高手’,只能在小武馆里施展才华。”
谈及数据开放之于大数据产业发展的重要性,他以数之联发展历程为例:团队在2001年开始做数据挖掘、机器学习的科研时,数据挖掘仅在国外少量企业应用,这阶段团队分析的数据主要是企业的结构化数据或者电子表格数据,规模一般都不会超过10万;2006年前后,团队与电信部门合作,通过机器学习的方式智能识别垃圾短信时,逐渐开始处理非结构化的数据,但依然是文本方式,数据规模约在千万级别;2009年后,随着移动互联网、物联网的发展,大数据概念迅速流行起来,数据量从之前的TB发展到PB、EB、ZB等,数据产生速度、数据类型、数据价值都在快速增长。
方育柯建议,地方产业布局时,在考虑后续大数据项目或者智慧城市期间,应强调数据驱动的智慧城市建设,科学、统筹、合理规划大数据相关产业发展规划,尽量依托现有IT设施资源,避免重复资源建设,开展轻量级的大数据解决方案,“不要为了发展大数据而发展大数据,应该本着开放数据资源、分析数据价值、创新数据应用的原则,推动大数据在政府和企业尤其是传统企业中的有效运用。”
“大数据的核心要素是数据、技术、人才。”他认为,对于数据,可以优先推动政务数据开放,鼓励企业数据开放;对于技术,优先扶持大数据技术创新类企业,提升传统企业大数据技术能力;对于人才,制定大数据人才引进策略,尤其是三、四、五线城市,因为这些地区是未来大数据的价值宝藏。