专栏首页BestSDK大数据市场乱象:用人工智能讲故事 低质虚假数据大量倒卖

大数据市场乱象:用人工智能讲故事 低质虚假数据大量倒卖

伴随着资本大量进入大数据行业,出现了创业公司估值过高的现象,好像只要打上大数据的标签,一些公司的估值动辄翻番好几倍。企业信用数据服务商上海斯睿德信息技术有限公司出现在上述7家公司名单中,其不仅近期刚获得由东方海富领投的数千万元融资,且最近18个月已经成功完成了3轮融资。而另一家2015年8月刚成立的大数据公司鼎复数据也在一年多的时间内完成了2轮1.07亿元的融资。

  就此现象,上海斯睿德信息技术有限公司CEO赵杰在接受第一财经采访时表示,大数据公司受资本追捧,本质上是因为,物以稀为贵。虽然国内这两年大数据企业融资速度快、频率高,但真正能融到资的在市场上其实并不多,很多用人工智能讲故事、单纯拥有多少亿数量级数据的公司是很难获得资本青睐的。

  人工智能是个好“故事”

  记者在查阅上述新近完成融资的大数据公司资料时发现,各家企业无一例外都在自己的宣传介绍中提到了人工智能。而不仅是大数据公司,一些征信公司和互联网金融公司也都会说自己在利用人工智能识别信用风险或者反欺诈。

  但实际上,人工智能并不是高不可攀的东西。“我认为大家没有必要把人工智能给神话了,过去十年在大数据行业的带动下,深度学习、自然语言处理等技术得到快速发展,为今天人工智能的爆发奠定了坚实的基础。但是如何把掌握的技术落地成产品,挖掘数据资源,帮助企业用户更高效、更低成本地解决风控问题,才是我们努力的方向。”赵杰表示。

  就拿机器学习的建模环节来说,在过往的很多场景中其实都是需要建模的。例如,去银行贷款买房或者申请信用卡,银行给你授信,一个刚毕业的学生和在职场工作很多年的高级白领,额度必然是不一样的,这里就会涉及到模型的设立。在此模型中,会有很多个维度的数据,学历、收入水平、婚姻状况、过往信贷记录等。过去往往会采用专家法和计量分析等方法建模,通过人工网查获取各类信息。

  现在,伴随各类智能技术的发展,机器可以在分秒内处理上十亿次的数据,于是就开始引入机器学习。机器学习本质上是先找一些数据样本,这些样本有好有坏。随后将全量数据放入模型中,让系统自己识别,如果发现在好的样本中90%都具备某一共同特征例如“受过高等教育”,则系统就会自动认为受过高等教育的人信用佳。反之,当系统发现坏的样本具备“拥有五张以上信用卡”的特征,它便会将此认定为信用差的特征。随着样本数据的增多,系统识别出的特征维度就越全面,得出的结论也就越准确。

  在当前的技术条件下,机器学习也不是万能的,如果是机器没有学习过的数据,它便无法自主做出正确的应对。从1997年IBM的“深蓝”战胜了卡斯帕罗夫到20年后AlphaGo以4:1的成绩战胜李世石,验证了人工智能技术的趋于成熟,随着样本数据的增多,系统识别出的特征维度就越全面,得出的结论也就越准确。但是AlphaGO输掉的这一局却是因为遇到了从没有学习过的“怪棋”,价值网络瞬间崩溃。

  至于神经网络、决策树、随机森林、机器学习等“高大上”的名词,实际上也无需夸大它们的作用。“像多元神经网络这样的算法模型早就是非常成熟的多元数学统计方法,很早就应用于物理学、力学以及工业领域,但并未被大众所熟知。也是因为这两年大数据市场火爆,才把这些名词带到大众视野内。”赵杰对记者表示。

  有关人工智能的故事常常还会引申到“团队成员为国际高端人才”上,在赵杰看来,掌握国外先进的算法技术只是一个方面,有些技术在国外的应用环境下是适用的,但如果直接照搬到国内,不结合国内的实际情况,也无法提供符合国内应用场景的解决方案。

  好算法不如好数据

  “Better data beats better algorithm(好数据能打败好算法),有一套厉害的算法模型不如有一套靠谱的数据。”棱镜大数据研究院首席科学家廖辰瀚博士对第一财经记者表示。

  “实际上在整个解决实际问题的过程中,人工智能建模所花费的精力只占30%,而70%的精力都花费在信息的获取和处理数据上。用人工智能做风控和模型的切入点,首先是自动化,即用人的思维和方式获取数据,提炼数据,第二步才用到机器学习的算法将获取的信息进行关联。”廖辰瀚称。

  对于大数据公司而言,高质量的数据是根本。“目前对大数据市场造成困扰的还有一个主要方面就是,各家公司都在说自己有上亿数量级的数据,但却常常忽略这些数据的质量。”赵杰表示。

  记者从一位征信业内人士处获悉,近两年大数据市场给人太多负面印象的原因在于,真正拥有高质量数据,且拥有数据分析能力和产品研发能力的公司数量非常有限。目前市场上有很多所谓的大数据公司,都是通过倒卖数据赚取差价的公司,而这些公司的数据来源,很多来自数据黑市。

  “一些数据贩子由于没有任何加工能力,通过一些关系,掌握某类数据源,在不做任何加工的情况下,直接卖裸数据,赚取差价。由于这些数据通常都会不断更新,不断会有新的数据加入,也同时会有过期的数据失效,因此,只要稍加修改,又会变成一套全新的数据库,贩子们重复贩卖,从中赚取差价。”上述征信业内人士表示。

  该人士称,“在贩卖的数据中,有些数据是合法的,有些数据是违法的。线上消费的、网银的、pos机的、信用卡的、运营商的、甚至是工商的数据都有人卖。除了一些企业本身会打包卖一些数据,也会有企业内部人员与外人勾结联手倒卖数据,即使是BAT里也有人出来卖数据。”

本文分享自微信公众号 - BestSDK(bestsdk)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-05-04

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 大数据剖析:算得出数字,算不出人性

    这是个“数据为王”的时代,数据失真却远比我们想象的要严重得多。不可否认,互联网的野蛮生长,少不了大数据为文化、生产提供参考和指南,大数据也的确为避免盲目出击立下...

    BestSDK
  • 中国对大数据神话存在四大误区

    当前,大数据已经充斥着经济社会发展的方方面面。大数据支撑下的“数字经济”,总量在2016年已经突破22万亿元,占GDP的比重超过30%。在互联网时代,似乎拥有了...

    BestSDK
  • 大数据虽好,可有哪些局限性?

    “每一场科学革命——从哥白尼的日心说模型到统计学和量子力学的兴起,从达尔文的进化和自然选择学说到基因理论——都是由于一件事,也只是由于一件事导致的,那就是数据的...

    BestSDK
  • 10个大数据误区,看看你中了几个?

    刚接触大数据的朋友最容易产生以下误解,下面就让我把这些误解分别介绍一下,看看你有没有进入这些误区。

    挖掘大数据
  • “揭秘”大数据的10个神话!

    本文整合自恒信国通 也许对大数据更好的一个类比是它就像一匹意气风发的冠军赛马: 通过适当的训练和天赋的骑师,良种赛马可以创造马场记录–但没有训练和骑手,这个强大...

    CDA数据分析师
  • 关于大数据的10个误解,你一定要知道

    也许对大数据更好的一个类比是它就像一匹意气风发的冠军赛马: 通过适当的训练和天赋的骑师,良种赛马可以创造马场记录–但没有训练和骑手,这个强大的动物根本连起跑门都...

    钱塘数据
  • 大数据周周看 | 大数据“黑科技”入驻里约奥运,昔日出行冤家喜结连理

    <数据猿导读> 上周,最让人为之称道的便是出行行业两巨头宣布合并的消息,公告一出,一时激起一片哗然,随后反垄断的声音此起彼伏,总之滴滴每次一出手,总能如此兴师动...

    数据猿
  • 大数据24小时 | 日本东芝开发最新数据处理技术,中茵股份欲建公司抢滩医疗大数据

    <数据猿导读> 日本东芝集团开发最新数据处理技术,将应用于深度学习;西部首个知识产权大数据平台落户四川,解决专利申请难题;黑龙江将建对俄大数据中心……以下为您奉...

    数据猿
  • 波音收购机器人制造商加强海洋监测,AI创企图普科技获千万美元融资 | 大数据24小时

    数据猿导读 基于大数据技术的个性化教学平台“狸米学习”完成5000万元融资;收购了机器人制造商 Liquid Robotics,波音公司将全面加强海洋侦查力度;...

    数据猿
  • 大数据时代:缺乏能动性的大数据是没有价值的!

    不是所有的大数据都是有价值的,大数据只有“动起来”才能体现其价值,否则,很可能是无用的。很多有着海量数据流的公司,虽然有着大把客户资源和现金流,本来是非常适合进...

    挖掘大数据

扫码关注云+社区

领取腾讯云代金券