大数据的机遇与挑战:清华、复旦、中科院、春雨移动及考拉征信专家的观点

中国科学院大学教授石勇

由中国人工智能学会发起主办,CSDN承办的2015中国人工智能大会(CCAI 2015)于7月26-27日在北京友谊宾馆召开。27日下午,“大数据的机遇与挑战”专题论坛在中国科学院大学教授石勇的主持下开始,他给出了讨论的7个话题方向:

  1. 大数据与人工智能
  2. 大数据的科学原理与数据科学
  3. 非结构与半结构大数据的结构化问题
  4. 大数据的复杂性表达和数据社会
  5. 大数据的开放,产权与隐私问题
  6. 大数据与人类健康
  7. 大数据与信用评分及社会管理

清华大学计算机系副主任、国家“千人计划”特聘专家朱文武,复旦大学教授、上海市数据科学重点实验室主任朱杨勇,春雨移动健康CEO张锐,中科院计算所研究员何清,以及考拉征信首席技术官葛伟平受邀参与了本次讨论。

清华大学计算机系副主任、国家“千人计划”特聘专家朱文武

清华大学计算机系副主任、国家“千人计划”特聘专家朱文武从大数据的角度探讨了大数据和人工智能、数字驱动知识驱动和大数据的结合等方面相关的问题。朱文武首先讲到,目前正处于一个很好的时代,人、机、物所产生的数据无所不在,我们通过各种各样的设备将数据采集起来,大数据将带来产业变革和商业机遇。

朱教授讲到:从科学发展上来看,数据科学是将成为科学发展的第四范式,数据科学,是数据爆炸将理论、实验、计算统一起来的学科交叉。从数据中能不能体现出规律,这样特点使得有原来的模型驱动,经验决策转变数据驱动、数据决策

朱教授认为大数据产生网络世界、物理世界和人类社会三元空间中。里面存在的核心问题是异构关联和数据发现大数据处理的问题就是怎么样找知识和知识之间的关系,数据驱动更重要的是要知识驱动相结合,之前是应用和服务,现在把大数据驱动和知识驱动结合起来,可能是更好的方法。

对于类脑计算,朱教授认为将来还有很长的路可走。现在我们国家都在启动脑科学这种大项目,重大国家部署。希望将来有一天类脑计算能够像人的思维方式做一些认知,做一些知识生成,而不是像计算机一样去计算

复旦大学教授、上海市数据科学重点实验室主任朱杨勇

复旦大学教授、上海市数据科学重点实验室主任朱杨勇表示,从百度那里看到大数据的定义是当前技术不能处理的数据集,朱主任认为这对人工智能从业者来说是好消息,因为他们可以有更多的事情去做,很多项目可以申请;另一方面很多大数据成功的案例使得全国人民知道大数据很好。

大数据最大的改变在于决策方式,大到国家层面小到生活层面,大数据在决策中均可以发挥其作用。今天所讲大数据,和以前讲信息化是有区别的,并不是带上大数据的帽子就是大数据,朱主任认为大数据是指为据测问题提供服务的大数据集、大数据技术和大数据应用的总称。

他提出,大数据问题的关键技术挑战在于:找到隐含在低价值密度数据资源中的价值,以及在希望的时间内完成所有的任务。用数据解决问题和解决数据的问题,这两项工作结合起来结合起来就是数据科学。

中科院计算所研究员何清

中科院计算所研究员何清的主题是《大数据与人工智能》,首先他提出人工智能的三个标志性事件:1996年5月11日深蓝战胜国际象棋冠军,代表着专家知识搜索能力首次超过人类。2006年深度学习图像识别人脸识别问题语言翻译取得突破,这就是在机器特征学习能力方面在大数据背景下打造与人相当的成功。2011年2月14日WATSON在知识竞赛获胜,大规模知识工程自动化能力这种首次超过了人类。

三次人工智能的突破的技术基础包括:分布并行计算环境,专家规则知识搜索,非结构化信息处理, 类人认知学习过程。

对于大数据下如何发展人工智能,他认为:

  1. 以认知科学为基础,因为开发大数据就是要做知识发现,就是要做模式的识别,所有这些都离不开认知科学的发展。
  2. 以智能算法为核心,所有目标都离不开算法,没有算法的实现你就不可能发展新一代的人工智能。
  3. 以计算智能为手段。这个计算智能包括神经手段,包括网络,模型信息处理,也包括智能算法和计算机算法,目前信息计算智能不可能一蹴而就,而且相对来说很低。
  4. 人工智能多学科交叉的智能信息处理。在大数据算法中要注重数据构造,迭代性,收敛性,稳定性,实效性,因此要求输入可执行,可高效,而且要跟人脑的思维时间和速率有相当可比的成分。

何清最后介绍了大数据挖掘算法的特征和挑战,包括大数据集问题、数据复杂性问题以及数据动态增长的问题。解决的思路,是研究分布式并行计算环境下的大数据分析挖掘的基本策略、复杂度降低精度可控的算法以及集成算法构建大数据挖掘平台。

春雨移动健康创始人张锐

春雨移动健康CEO张锐主要分享了具体应用领域里面如何操作健康大数据,他具体分析了数字医疗核心——EHR。通过数据采集对数据监督,然后对数据进行干预。这是数字医疗方面的基本范式。他讲到EHR有四个方面:实时健康流数据,历时疾病数据,节点健康水平数据和健康消费行为数据。 其中,实时健康流数据主要采集的是人体心率、心电、血压、血糖、运动、体温、呼吸等生命体征数据,主要是来自可穿戴设备等。历时疾病数据来自各医院,但由于信息孤岛,有很大的应用障碍。 节点健康水平数据比如每年的体检数据。

他指出EHR给现代医学带来的变化,首先是从看医生到医生看你,从医生中心到用户中心,从医院中心到客厅中心,从治病挣钱到防病挣钱。并表示目前还有一些问题需要解决,比如中国用户EHR数据画像,EHR上下游硬件和EHR接口标准等。

考拉征信首席技术官葛伟平

考拉征信首席技术官葛伟平首先分享征信与数据的关系。他认为,数据和征信密不可分。数据是征信的基础,然后他分享在大数据以及其应用方面的一些体验:

  1. 征信涉及的数据种类比较多,所以要收集和利用能够反映能力或者意愿的数据, 如信用类数据、理财数据、公缴数据、消费数据,在移动互联网时代可以通过位置信息验证身份有效性,互联网信息也可以加入评估。
  2. 处理这些大数据,把所有的数据处理和计算都放在Hadoop平台,用HIVE作为数据仓库,用IMPALA作为即时数据勘察工具,用R作为建模工具,积极使用spark。从这几个角度来看,大数据的成熟也给征信提供更多的方法。
  3. 征信建模,是采取传统统计理论和大数据技术联合建模,数据量越大,越能提升模型预测能力,处理能力越高,建模优势越明显。因此他认为大数据建模在以后会表现出越来越多的优势。
  4. 征信数据方面,中国跟美国差别很大,国家征信公司数据都很有特色,但是都不完备。所以征信数据上考拉征信采用原始明晰数据层做底层融合、外部标签数据拿过来做辅助补充以及模型层融合,共享相互之间模型建构,这个情况下我们再利用SPACE进行加工,达到数据融合,从而能更加准确地反映个人的信用。

在全体讨论环节,各位专家针对现场听众的问题作了详细的解答。

一位听众针对个人隐私方面,提出了在整合数据怎么处理数据边界以及关于隐私方面的交集的问题。

考拉征信首席技术官葛伟平回答:征信公司严格来讲它是第三方机构,它数据来源于第三方,为第三方服务。例如,考拉征信的数据更多来源于股东数据,并经过多种方法去隐私。当建模以及真正给用户评分的时候,是需要授权的。涉及到隐私的时候一定要授权,这里存在严格的规定。

来自东南大学的一名老师对于教学过程中和前沿科技存在的差距向在座专家进行了请教。

朱文武回答,老师们整理自己的主线,把一些最核心的技术,比如数据挖掘技术,深度学习技术,讲给学生。第二个脱节问题在语言工具上,他建议现在大学应注重产业界当前使用的工具包,但重点还是在理论和基础方法。

何清认为,老师和学生们要注重走出去多和企业、产业界交流,多参加一些讲座和研讨会。但不要盲目,要冷静思考,多一些原创,多一些创新。

张锐表示,从产业界市场来说,希望学生们注重核心底层和核心技术,需要一个特别冷静诚恳的心,产业界应冷静的去对待学术界,学术界应给予产业界足够的帮助。

更多嘉宾观点,请关注大会直播专题(持续更新中):http://special.csdncms.csdn.net/ccai2015/。

【公告】更多人工智能技术分享与交流,请加入CSDN 人工智能技术交流QQ群,群号:465538150。我们将邀请一线专家进行分享!

原文发布于微信公众号 - 人工智能头条(AI_Thinker)

原文发表时间:2015-07-31

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

【微软芮勇】人工智能时代,我们能做什么?

【新智元导读】微软亚洲研究院常务副院长芮勇在《新智元:机器+人类=超智能时代》书中畅想人工智能发展6大阶段,详细介绍微软语音识别、图像识别、牛津计划等多项人工智...

31880
来自专栏AI研习社

微软黄学东:微软在很多AI领域领先Google | AI NEXT

AI 研习社按:本月 18 日,由美中技术与创新协会(Association of Technology and Innovation,ATI)主办的第一届“A...

29460
来自专栏新智元

强化学习之父Sutton访谈:创造AI,就是创造一种新的人类

编译:Cecilia 弗格森 【新智元导读】在Machine Learning and the Market for Intelligence 2017大会上,...

34280
来自专栏PPV课数据科学社区

【职场】互联网公司机器学习数据挖掘类的职位面试主要考察哪些?

我觉得从事数据挖掘工作,尤其是在互联网行业,主要需要三个方面的能力,即机器学习和数据挖掘的理论知识、编程开发与数据结构算法的基础和业务理解与沟通表达的能力。 ?...

36190
来自专栏java达人

人工智能全局概览:通用智能的当前困境和未来可能

来源:机器之心 作者:Mike Loukides、Ben Lorica 链接:http://www.jiqizhixin.com/article/1336(点...

19170
来自专栏人称T客

当李彦宏乘无人驾驶汽车开上五环,AI黑箱问题该如何解决?

撰文 | 飞逸 在AI技术受到持续关注的今日,许多大型组织正在寻求算法来驱动自动化的业务流程或构建智能机器人服务以满足客户的需求。但是在一些CIO热衷于大规模...

36870
来自专栏量子位

黄仁勋:AI正在吃掉软件行业,未来每家房子都有深度学习能力

若朴 李林 编译整理 量子位 报道 | 公众号 QbitAI ? 很少有CEO可以领导同一家公司超过20年,黄仁勋做到了。1993年,30岁的黄仁勋和伙伴一起创...

28860
来自专栏镁客网

“水哥”3:2战胜人工智能“蚂可”,人类终于赢了一次!

25340
来自专栏大数据文摘

我们问了Yann LeCun等16个顶级数据科学家,这是他们给数据新人的建议

8920
来自专栏CSDN技术头条

互联网公司机器学习数据挖掘类的职位面试主要考察哪些?

我觉得从事数据挖掘工作,尤其是在互联网行业,主要需要三个方面的能力,即机器学习和数据挖掘的理论知识、编程开发与数据结构算法的基础和业务理解与沟通表达的能力。 ?...

22950

扫码关注云+社区

领取腾讯云代金券