大数据市场乱象:用人工智能讲故事 低质虚假数据大量倒卖

伴随着资本大量进入大数据行业,出现了创业公司估值过高的现象,好像只要打上大数据的标签,一些公司的估值动辄翻番好几倍。企业信用数据服务商上海斯睿德信息技术有限公司出现在上述7家公司名单中,其不仅近期刚获得由东方海富领投的数千万元融资,且最近18个月已经成功完成了3轮融资。而另一家2015年8月刚成立的大数据公司鼎复数据也在一年多的时间内完成了2轮1.07亿元的融资。

  就此现象,上海斯睿德信息技术有限公司CEO赵杰在接受第一财经采访时表示,大数据公司受资本追捧,本质上是因为,物以稀为贵。虽然国内这两年大数据企业融资速度快、频率高,但真正能融到资的在市场上其实并不多,很多用人工智能讲故事、单纯拥有多少亿数量级数据的公司是很难获得资本青睐的。

  人工智能是个好“故事”

  记者在查阅上述新近完成融资的大数据公司资料时发现,各家企业无一例外都在自己的宣传介绍中提到了人工智能。而不仅是大数据公司,一些征信公司和互联网金融公司也都会说自己在利用人工智能识别信用风险或者反欺诈。

  但实际上,人工智能并不是高不可攀的东西。“我认为大家没有必要把人工智能给神话了,过去十年在大数据行业的带动下,深度学习、自然语言处理等技术得到快速发展,为今天人工智能的爆发奠定了坚实的基础。但是如何把掌握的技术落地成产品,挖掘数据资源,帮助企业用户更高效、更低成本地解决风控问题,才是我们努力的方向。”赵杰表示。

  就拿机器学习的建模环节来说,在过往的很多场景中其实都是需要建模的。例如,去银行贷款买房或者申请信用卡,银行给你授信,一个刚毕业的学生和在职场工作很多年的高级白领,额度必然是不一样的,这里就会涉及到模型的设立。在此模型中,会有很多个维度的数据,学历、收入水平、婚姻状况、过往信贷记录等。过去往往会采用专家法和计量分析等方法建模,通过人工网查获取各类信息。

  现在,伴随各类智能技术的发展,机器可以在分秒内处理上十亿次的数据,于是就开始引入机器学习。机器学习本质上是先找一些数据样本,这些样本有好有坏。随后将全量数据放入模型中,让系统自己识别,如果发现在好的样本中90%都具备某一共同特征例如“受过高等教育”,则系统就会自动认为受过高等教育的人信用佳。反之,当系统发现坏的样本具备“拥有五张以上信用卡”的特征,它便会将此认定为信用差的特征。随着样本数据的增多,系统识别出的特征维度就越全面,得出的结论也就越准确。

  在当前的技术条件下,机器学习也不是万能的,如果是机器没有学习过的数据,它便无法自主做出正确的应对。从1997年IBM的“深蓝”战胜了卡斯帕罗夫到20年后AlphaGo以4:1的成绩战胜李世石,验证了人工智能技术的趋于成熟,随着样本数据的增多,系统识别出的特征维度就越全面,得出的结论也就越准确。但是AlphaGO输掉的这一局却是因为遇到了从没有学习过的“怪棋”,价值网络瞬间崩溃。

  至于神经网络、决策树、随机森林、机器学习等“高大上”的名词,实际上也无需夸大它们的作用。“像多元神经网络这样的算法模型早就是非常成熟的多元数学统计方法,很早就应用于物理学、力学以及工业领域,但并未被大众所熟知。也是因为这两年大数据市场火爆,才把这些名词带到大众视野内。”赵杰对记者表示。

  有关人工智能的故事常常还会引申到“团队成员为国际高端人才”上,在赵杰看来,掌握国外先进的算法技术只是一个方面,有些技术在国外的应用环境下是适用的,但如果直接照搬到国内,不结合国内的实际情况,也无法提供符合国内应用场景的解决方案。

  好算法不如好数据

  “Better data beats better algorithm(好数据能打败好算法),有一套厉害的算法模型不如有一套靠谱的数据。”棱镜大数据研究院首席科学家廖辰瀚博士对第一财经记者表示。

  “实际上在整个解决实际问题的过程中,人工智能建模所花费的精力只占30%,而70%的精力都花费在信息的获取和处理数据上。用人工智能做风控和模型的切入点,首先是自动化,即用人的思维和方式获取数据,提炼数据,第二步才用到机器学习的算法将获取的信息进行关联。”廖辰瀚称。

  对于大数据公司而言,高质量的数据是根本。“目前对大数据市场造成困扰的还有一个主要方面就是,各家公司都在说自己有上亿数量级的数据,但却常常忽略这些数据的质量。”赵杰表示。

  记者从一位征信业内人士处获悉,近两年大数据市场给人太多负面印象的原因在于,真正拥有高质量数据,且拥有数据分析能力和产品研发能力的公司数量非常有限。目前市场上有很多所谓的大数据公司,都是通过倒卖数据赚取差价的公司,而这些公司的数据来源,很多来自数据黑市。

  “一些数据贩子由于没有任何加工能力,通过一些关系,掌握某类数据源,在不做任何加工的情况下,直接卖裸数据,赚取差价。由于这些数据通常都会不断更新,不断会有新的数据加入,也同时会有过期的数据失效,因此,只要稍加修改,又会变成一套全新的数据库,贩子们重复贩卖,从中赚取差价。”上述征信业内人士表示。

  该人士称,“在贩卖的数据中,有些数据是合法的,有些数据是违法的。线上消费的、网银的、pos机的、信用卡的、运营商的、甚至是工商的数据都有人卖。除了一些企业本身会打包卖一些数据,也会有企业内部人员与外人勾结联手倒卖数据,即使是BAT里也有人出来卖数据。”

原文发布于微信公众号 - BestSDK(bestsdk)

原文发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏数据猿

聚信立创始人兼CEO罗皓:互金领域基于社交网络分析的风险控制才刚刚开始

数据猿导读 基于社交网络分析的风险控制才刚刚开始,随着互联网金融的快速发展,团伙欺诈也日趋专业化同时迅速膨胀,社交网络分析结合大数据处理技术必将是应对新形势下欺...

3255
来自专栏机器之心

AI 社区有多排外?「外行人」观点引发争议

近日,蒙特利尔 Jewish General Hospital 的生物统计学家 Alexia Jolicoeur-Martineau 在社交网络中抱怨 AI 研...

1152
来自专栏大数据文摘

大咖丨哥伦比亚教授周以真:人工智能恐慌以及大数据威胁反思

2073
来自专栏SIGAI学习与实践平台

AI时代大点兵——国内外知名AI公司2018年最新盘点【完整版】

据腾讯研究院统计,截至2017年6月,全球人工智能初创企业共计2617家。美国占据1078家居首,中国以592家企业排名第二,其后分别是英国,以色列,加拿大等国...

48910
来自专栏PPV课数据科学社区

【工具】社交数据与行为金融学如何实现超越大盘、绝对收益量

一、互联网让大数据就在身边   互联网作为改变人类历史的产物,近年来得到了飞速的发展,随着互联网的日益普及,其正在逐渐改变人们的生活习惯。商场的购物份额正在被足...

3196
来自专栏AI科技大本营的专栏

重磅 | 奖金200万,千万数据规模,创新工场搜狗今日头条联合发起迄今国内最大AI挑战赛(附详细赛事说明)

文/周翔 编辑/鸽子 上月,举办了八届的 ImageNet 挑战赛由创始人之一李飞飞博士正式宣布退出历史舞台。虽然 ImageNet 走了,但是今日下午(8 月...

3746
来自专栏腾讯大讲堂的专栏

介绍一款功能游戏,玩通关你也能变学霸

1463
来自专栏企鹅号快讯

十大科学突破预示科学发展三大趋势

新华社华盛顿12月21日电(记者林小春)每到年底,国际科学界公认的权威刊物美国《科学》杂志都会评选十大科学突破,这不仅是对年度科技大事的年终盘点,从中更能看出近...

1869
来自专栏大数据文摘

Nature:人工智能研究的盲点

1667
来自专栏AI科技评论

深度学习洪流:为何它能瞬间改变你的生活?(上)

编者按:我们和电脑之间的交流正在发生着转变,而深度学习也已经润物细无声地进入我们的生活,甚至在你意识到这一点之前,世界已经截然不同。 本文首发于fortune,...

2888

扫码关注云+社区

领取腾讯云代金券