当前 :首页 > 新闻中心 > 郑小林:大数据仅仅是大吗?有关大数据的三问
郑小林:大数据仅仅是大吗?有关大数据的三问
发布日期 :2016-12-28

       在过去的几年中,大数据从一个概念化的产物迅速发展为现实。大数据的庞大功能和强效作用令无数人为之着迷。毫无疑问,在如今这样一个时代,唯有对用户数据有着先人一步的掌握才有着最大的市场话语权。浙江大学互联网金融研究院研究员、浙江大学计算机学院副教授郑小林对大数据的三个基本问题做了阐述。

大数据与传统数据有何不同?

       目前大家对大数据和传统数据的区别通常归纳成4V。第一个特征是数据量大(Volume),大数据的起始计量单位至少是P(1000个T);第二个特征是数据类型繁多(Variety),包括文本、音频、视频、图片等等;第三个特征是数据价值密度相对较低(Value),海量的信息增长使得数据价值密度较低,因此如何实现数据的价值提取,是大数据面临的难题; 第四个特征是处理速度快,时效性要求高(Velocity),这是大数据区分于传统数据最显著的特征。

       除了这4V的特点以外,我觉得数据的存储、数据的分析、数据的应用这三个层次也有本质的区别。

       由于数据量大,对数据的分析、挖掘需求也完全有别于传统数据管理模式,因此传统的关系数据管理系统渐渐无法满足需求,这样其实就给类似Hadoop、Spark一类的技术和平台提供了很好的发展机会和空间。

       在数据的分析和展示上也有所不同了。传统的数据分析展示以报表为主。但是数据量变大以后,报表的数量也在急剧增长,对数据分析的性能要求也更高,于是就产生了大数据可视化技术。就像双十一的时候阿里实时的将成交量汇聚到一个大屏幕上,上面还展示了不同地区、不同品类的交易情况。这事情看似简单,但事实上由于用户量大、交易量大,数据产生速度快,后台的服务器又是分布在全球各地的,所以这么多的数据要实时汇总过来就会涉及到海量数据的同步和一致性问题。当然前端的可视化也带来了数据的新的挑战。

       除了大数据的存储管理和分析技术的不同,实际上更重要的是大数据带来了业态的变化。例如阿里巴巴运营B2B或者天猫平台,但阿里自己不卖产品,他提供的只是平台,通过平台汇聚数据,进而通过数据实现商业价值,所以也可以说阿里卖的是数据和计算能力。

收集来的数据如何应用?

       我拿一个例子来说。在2015年,我们花了一年时间采集和清洗P2P网贷行业的相关数据,在2016年1月,我们联合浙江大学互联网金融研究院推出了《中国P2P网贷行业2016第一季度报告》,发布了3400多个网贷平台的行业分析报告。在这之前其它组织机构发布到报告,样本数都是几百家,他们的数据大多是用传统的方式做调查问卷拿回来的。第一个报告出来后有一些质疑的声音,但我们相信自己的数据。今年10月份做出的2016年第二季度的报告在推出后就受到了广泛关注,仅仅新华社客户端推出后两天内的阅读量就突破了60万。

       前期的数据积累我们主要靠机器抓取和清洗,加上一些人工校对工作,现在我们进入第二阶段,通过数据接口直接接入平台的运营数据。将企业数据接入进来后,我们的数据将进一步增长,就可以做进一步的互联网金融行业数据分析。除了给政府和研究人员提供行业报告和数据之外,我们就可以做进一步的事情。

       比如可以做一个基于互金大数据的智能投资顾问平台,将互联网理财产品、银行理财产品、保险、众筹等等都对接入平台,通过用户分析推荐合适的理财产品。也可以对外提供投资前的平台或理财产品相关查询,如你所要投资的理财产品的运营机构是谁、高管是谁、平台投资人又是谁,这些也符合政府对于互联网金融信息透明化的要求;当数据量积累越来越多后,我们还可以对投资平台的安全性给出评估等级。这些应用我们将在2017年初逐步推出。

大数据可以和人工智能结合吗?

       当然可以。在人工智能领域,你们应该听说过谷歌旗下DeepMind公司开发的围棋机器人AlphaGo。AlphaGo之所以能够这么强大是因为其下棋方式不再仅仅基于规则的学习,而是基于大数据的深度学习。AlphaGo首先将3万多个专业棋手的棋谱输入机器进行训练,然后通过机器自我对弈产生的棋谱进行增强学习。因此看起来AlphaGo是具有自主学习能力的。这就是基于大数据和深度学习带来的能力。

       结合大数据的人工智能和早期人工智能的区别就在于,现在的人工智能具有“学习怎么学习”的能力。上世纪人工智能主流的研究是逻辑推理、专家系统、智能代理等;而新一代人工智能由于有了深度学习的支撑,具有了一定的学习能力。刚才说的围棋机器人就为新一代人工智能做了很好的代言。

       但实际上,基于大数据和深度学习的新一代人工智能在无人驾驶汽车、语音识别、智能网络搜索、智能健康如人类基因组的理解上,都产生了新的变革。例如在健康领域,部分疾病的机器诊断准确率已经非常高,超过了一些职业医师的水平。一个医生通过自己的诊断病例积累经验以及对医学知识的学习实现向专家的进阶,而新一代人工智能可以通过学习全球的专家诊断记录实现专家知识的汇聚和积累,快速达到远超过一般医生的专业知识和诊断经验。

       最近,国内有家知名企业想要做一个新产品的情报分析系统,为公司的产品创新和战略提供决策支持。通过这个基于大数据的情报分析系统,可以很好的了解市场情报,了解大众对公司我产品的评价、对产品的建议和提出的新需求;可以了解是否有人发明过这个专利和原型,是否有相关论文发表过等等。这样的产品情报分析就会对产品的规划和公司的规划产生巨大影响。
 

学者名片

1-1F124135536250.png

 

       郑小林:浙江大学互联网金融研究院研究员,AIF网贷研究组课题主持人之一,现为浙江大学计算机学院副教授、博士生导师,浙江大学人工智能研究所副所长,IEEE Senior Member,中国计算机学会高级会员,中国计算机学会服务计算专委会委员,2015-2016 CCF YOCSEF杭州主席。


来源丨成章创客

编辑 | 郑晗晗

排版丨郑晗晗