【聚焦】大数据讨论 值得你思考的问题!

  1,大数据的运用-案例

  CieloMar:CaRRot能不能例举一个你们公司里大数据分析的例子,以及如何定价?

  CaRRot:数据公司的实用案例: 我就说我最近做的这个吧,某个服装快消品牌想了解中国的洗衣习惯,比如什么样的面料会机洗,什么会手洗,什么要干洗。第一步就是采集信息,从新浪微博上采集近3年相关的微博(按相关关键字),第二步清洗数据与存储,把没用的信息顾虑掉,有用的进行分类存储。第三步就是数据挖掘,按照数据挖掘的算法进行一些运算(比如这个场景比较适合关联规则)来得出结果,至于这个结果是什么样的,这个就要看你建立的模型的输出了。最后一步是数据验证了,就是验证你模型的选的合不合适,模型里面的参数是否需要变化。但是目前我做的这个没有合适的结果集来做验证,所以我就略去了。。。 总结一下大致的步骤就是数据采集(data crawling)-》数据分类和存储(data housing)-》数据挖掘(data mining)-》数据验证(data verification)。关于定价问题,其实我感觉这个弹性很大,这个要看客户了,如果是大客户的话,肯定会要得多一些。

  CieloMar:数据采集就是用微博关键词?比如说这个案例里你们输入的关键词是什么?然后你们使用微博的数据,是公共资源还是跟微博买的数据?

  CaRRot:数据采集就是用微博的关键词,但是我们会用 nlp(自然语言处理)来做一些联想,近义词联想.数据是新浪公共资源,和新浪做partner成本太高了。

  CieloMar:比如说这个案例里,你们数据来源仅仅是微博吗?

  CaRRot:其实做多个数据源的不大好做,因为各个数据源之间的权重不太好把握,比如来自新浪和微信的消息哪个更重要一些?主要看客户要求,客户目前只要做微博的就做微博的。

  CieloMar:多个数据源结果不一样,是不是就意味着单一数据源结果不太准,也就导致大数据分析后的结果不准确?

  CaRRot:这个不一定,这个要看你研究面向的群体了,比如想研究中国20-40这个年龄段的人,微博应该是最好的选择。

  2,大数据模型

  Reinaldo :大数据的模型到底是个什么感觉啊?不太能想像。

  CaRRot:大数据类型的线性是怎么样的?正相关还是分散随机的。最简单的一个例子,比如预测用户购买行为,用户对此产品的互动率x(点击,收藏,加入购物车),我们需要求出用户购买该产品的概率y,那么我们可以定义y=ax,这个公式就是最简单的模型,当然,这个模型不一定适用于这个场景,在具体场景中系数肯定不止a一个。

  Reinaldo:所以说针对不同情况都有各自的一个模型是吧?其实就像一个数据的分析方法?

  CaRRot:针对不同场景是会建立一个合适与该场景的模型,因地制宜。建模整个过程涵盖了数据分析。从一开始的模型预测,到最后的结果验证都需要。

  3,大数据与金融

  Wendy:本书最开我眼界的地方,有三个。一个是样本=总体。经济学专业在做研究时,都是以一部分数据为样本来做的。随着it 技术的发展,和数据采集方法的改善。样本=总体应该能得到实现,现阶段经济计量研究方法也会受到冲击。第二是只关注相关关系,而忽略因果。和Reinaldo的感受一样,这个观点很具有冲击性。然而经济学研究中,其实也是相关重要于因果的。经济学研究很多是基于最小二乘法研究内生变量怎么随外生变量变化,例如Y=aw+bz+ck,研究的是每单位w,z,k的变化怎样引起y的变化。而只有一部分研究,研究的是因果关系,这时我们会引入格兰杰因果模型进行研究,但这样的研究是少数。第三,大数据对金融行业的冲击。大数据是否能代替掉行业专家?在金融行业里就是行研员和基金经理。在整个金融行业,量化金融—利用金融模型选股,构建投资组合,防范风险是必然的趋势。但是可以说没有一家金融机构敢完全依赖量化这条路。美国股市的黑色星期五,就是过渡依赖量化工具产生的。量化vs行研。索罗斯vs巴菲特,基金经理是否能创造价值,现在依然是金融界的一个hot topic。

  CieloMar:从经济学角度阐述真好!不过最后两句话几个专业术语不太懂,格兰杰因果模型?书中提过吗?请解释一下。

  Wendy:格兰杰因果模型,书中没有,用以分析两相关序列之间,是否因果,谁因谁果,或互为因果。

  4,负面影响以及存在问题

  CieloMar: Reinaldo,关于你写的文章我有几个问题:1,我认为大数据不会完全颠覆某个行业,新闻还是新闻,本质是不变的,只是行事方式变了。 2,我有个疑惑,过分依赖于数据,忽略思考因果关系,这是否会削弱我们的思考判断能力,比如我们就直接看去哪儿网的价格曲线买便宜机票,不需要去思考为什么机票会便宜,比如动车的修建降低了票价等,慢慢地我们会过分依赖数据而不是思辨能力。再比如你提到的新闻行业,我们总是通过数据来拍版,挑选新闻,这样新闻的质量慢慢降低,毕竟大部分人是“乌合之众”,而这种降低已经在发生。

  Reinaldo:我基本认同乌合之众的说法,门户网站的新闻排名已经反应出来:标题党新闻最受宠、最吃香,这大概和人的天性有关,但并不意味着会让严肃的报道消失。我说的颠覆行业,更多指传统生产方式已经被改写了,无力回天,但包括报纸在内的传统媒体肯定会存在,类似广播仍存在一样,但不会占主流。而且,新闻消息的未来肯定不能再延用主编拍板的方式。至于内容低俗与否,我更倾向于用教育来引导认识,新闻媒体可以较少承担教育的功能。我认同技术改变现有行业规则,至于在改变过程中的乱象,我认同杨导的说法,技术进步会把现有的问题逐步解决。

  Ada:关于这个问题,推荐大家书籍《乌合之众》。

  Wendy:高科技的负面影响,推荐英剧Black Mirror(《黑镜》),以及书籍《娱乐至死》。

  CieloMar:大数据目前面临的问题还有点补充:1大数据乃至说计算机行业发展得如此快,如何完善法律也是一个问题。 2网络安全问题,大家对个人隐私只会越来越重视,如何保护好大家的隐私也是关注焦点。

  Reinaldo:这个(网络安全问题)在技术上,我觉得不难解决,关键是配套的法律、制度,其实我也很担心大数据被政府利用变成了《1984》的无处不监控。

  CieloMar:所以网络安全也会很有市场,能否叫它大数据带来的“周边产品”?我觉得这样的周边市场还有很多,一旦某样事物火了,一定会有很多周边市场出现,所以大家忙着大数据时候,多关注周边也是一条思路。

  5,值得你思考的问题!

  杨导:

  1 大数据可能会颠覆我们的认识,思考的时候"怎么样"比"为什么"更重要。

  2 通过读书之后,我觉得怎样获取数据和利用数据很重要,是一个应该注意的方面。

  3 其实书里面举的例子说亚马逊推荐相关书籍是利用了大数据,但实际上它只提高了销量,长期来看用户的体验并不好(个人认为,你们觉得呢),所以在利用大数据做推荐和营销的时候,如何提高用户体验尤其重要。

  4 目前来看,大数据更多的是用在商业领域,后期发展成熟我觉得它将非常可怕,这是一个隐患。如何防患这种隐患很重要。大家都愿意去做先赚钱的事情,但很少有人愿意做先预警危机的人。

  5 还有一个印象深刻的就是"数据废气",利用大家都不在意的点做些文章。

  6 这是我最想强调的一点,就是实践,不要怕错,我只想利用简单的模型去印证我怀疑的东西。还有书中的说法,我希望通过实验去看一下。有兴趣的亲们一起尝试一下啊,然后我们互相交流感受。

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2015-03-30

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

AI 淘金热 | 机器学习创业机会在哪里?

机器学习淘金热正在到来!Libby Kinsey 是 Nesta 资本的投资经理,关注技术创新已经有 12 年。她根据自己的观察,总结出这波淘金热的创业机...

3936
来自专栏ThoughtWorks

TW洞见〡Inception的核心逻辑

文章作者来自ThoughtWorks:熊子川,图片来自网络。 Inception是ThoughtWorks多年以来使用的启动软件设计和交付项目的方法,通过3天...

3317
来自专栏新智元

人工智能时代芯片产业3个不容忽视的趋势

不到12小时里,有三个人提出可以付钱请我花一小时和一个陌生人聊聊。 这三个人都说他们对我写的一篇关于Google正在做一种新型人工智能计算机芯片的文章很感兴趣,...

3386
来自专栏新智元

吴恩达谈深度学习局限:AI 经济价值目前仅来自监督学习

【新智元导读】《财富》昨日刊登吴恩达专访,吴恩达介绍了百度内部深度学习平台等人工智能应用。吴恩达还指出,近年来 AI 发展主要得益于数据(燃料)和计算力(引擎)...

42413
来自专栏华章科技

黄骞:我们是如何在一张地图上表现86万个数据的

作为一名数据工作者,我每天会接触到很多的数据可视化成果,美好的可视化作品简洁明快炫酷非常,让人心情舒畅。

791
来自专栏AI科技评论

剖析|AI可以写剧本了,能写出魔兽那样4天10亿的剧本吗?

GAIR 今年夏天,雷锋网将在深圳举办一场盛况空前的“全球人工智能与机器人创新大会”(简称GAIR)。大会现场,谷歌,DeepMind,Uber,微软等巨头的人...

4459
来自专栏机器之心

现场直击 | 谷歌云大会最后一天解读开放性:从TensorFlow开源到开放云平台

机器之心报道 记者:CZ 当地时间 3 月 10 日,Google Cloud Next '17 在美国旧金山顺利闭幕。机器之心作为受邀媒体对这场为期 3 天...

3257
来自专栏PPV课数据科学社区

☞【案例】盈虚有数《我们可能比你更了解你自己》@EMC杯智慧校园开放数据大赛(最佳数据综合大奖)

转自:公众号Kesci数据实践,如需转载请申请授权 号外号外号外 EMC杯智慧校园开放数据大赛的终极作品,来自盈虚有数团队的《我们可能比你更了解你自己》,终于...

4765
来自专栏ATYUN订阅号

Lucid宣布将其计算机视觉平台整合到各种智能设备中

Lucid在上海移动世界大会上宣布,它正在与设备制造商合作,将其计算机视觉平台集成到双摄像头手机,无人驾驶飞机,笔记本电脑和安全摄像头中。

1114
来自专栏机器学习算法与Python学习

清华大牛告诉你如何读博士......

当然了,还有别的一些考虑, 例如家人的看法、 现在找工作或工作的不如意等等,但总的来说,是离不开上面两点——当然,有的人只是因为其中某一点,有的人是两点交织在一...

1273

扫码关注云+社区

领取腾讯云代金券