专栏首页数据科学与人工智能R语言玩数据:数据+算法+计算引擎+知识表达

R语言玩数据:数据+算法+计算引擎+知识表达

作者:陆勤


摘要:介绍玩数据的四部曲,分别是数据、算法、计算引擎和知识表达。

文章《R语言玩数据:R语言和数据》介绍了R语言和数据。 文章《R语言玩数据:流程和环境》介绍了玩数据的流程和环境搭建。

本文介绍玩数据的四部曲,分别是数据、算法、计算引擎和知识表达。

一、数据

数据的观点,如下:

  • 玩数据首先要拥有数据,”巧妇难为无米之炊“。
  • 业务问题是什么?预期目标是什么?围绕问题和目标所要的数据是什么?这些数据是否拥有,有多长和多宽?如何利用这些数据解决业务问题和实现预期目标?
  • 数据的结构是什么?是结构化的、半结构化还是非结构化的;数据的源头是那些?是业务数据、前端与后端日志数据、第三方数据、埋点收集数据等;数据的类型是是什么?是数字、还是文本、还是音频、图像、视频,甚至是综合体。总之,数据具有多样性
  • 数据的采集极其复杂,也富有挑战性,不仅是源头多样,结构迥异,还有各种“不确定性”的因素。究竟是一窝蜂地记录所有的数据,还是根据不同阶段有针对性地收集和存储数据呢?
  • 数据的商业价值需要通过分析和挖掘,然后以有效地知识表达出来,才能实现“数据变现”或者基于数据创造新的商业模式。

如何从数据中学习到有用的知识,就需要算法+计算引擎+知识表达。

二、算法

算法的观点,如下:

  • 算法是什么?算法就是告诉计算机做事情的步骤与方法,一类算法就是严谨地一步步告诉计算机要做什么以及最后输出什么结果;领一类算法就是通过给计算喂养数据(Data),从Data中学习到有用知识,然后利用这些知识去做预测或者判别的有价值的行动。
  • 算法有其特定的适用场景,那种“一招通吃”的期盼肯定是不现实的。这就注定了面对不同业务问题和数据,要选择适合的算法。换句话说,“天下没有免费的午餐!”
  • 同一问题,面对多种算法处理时,选择那种既能够达到预期效果,又能够简单易用的算法,换句话说,“若无必要,勿增实体!”

三、计算引擎

算法要让计算机来执行,面对各种逻辑弄清楚后,落地就是“计算”了。因此,熟悉常用的计算引擎和选择合适的计算引擎,也是非常重要的。 数据人网的数据技术里面包括R、Python、Hadoop和Spark,实则它们都可以当作一种计算引擎。关于计算引擎的使用,唯一的建议,根据具体的问题选择合适的计算引擎,秉持“不负荷和不浪费”的原则。

四、知识表达

从数据中学习到有用的知识后,知识如何表达呢?或者说,输出的结果怎么表达的? 知识表达观点,如下:

  • 知识表达有多重形式,可以表格化,可以规则化,可以数值化,可以模式化等等。
  • 知识表达的形态可以促进我们对学习过程的理解,对所解决问题进一步认识。
  • 知识表达的方式也决定了我们如何利用知识的方式与方法。
  • 知识表达也是人工智能所研究的一个重要领域。

总结

一个玩数据的人,数据这四部曲,需要花费时间和精力去修炼。庆幸的是,“你不是一个人在奋斗!”

本文分享自微信公众号 - 数据科学与人工智能(DS_AI_shujuren),作者:陆勤

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-04-17

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

我来说两句

0 条评论
登录 后参与评论

相关文章

  • 如何成功实现数据治理

    如果你处理过大量数据,你也许听说过“数据治理”一词,你可能会想,它是什么?适不适合你?如何实施?简单来说,数据治理就是处理数据的策略——如何存储、访问、验证、保...

    陆勤_数据人网
  • 【数据】作为数据科学家应该学习的第一件事

    根据30年的商业经验,下面的列表是我认为首先应该在数据科学课中讲授的(非全面的)内容选择。 这是我文章的后续内容为什么Logistic回归应该最后讲解。

    陆勤_数据人网
  • 【数据科学】数据科学与工程:大数据时代的新兴交叉学科

    摘要:大数据时代的IT发展的基本特点是:应用驱动创新,开源加速创新,硬件助力创新。基于对这些特点的认识,从社会创新发展、人才需求变化、技术发展趋势等方面论述了数...

    陆勤_数据人网
  • 大数据想做驱动多产业发展的“引擎”,还需掌握哪些技巧?

    早在1980年,著名未来学家托夫勒在其所著的《第三次浪潮》中就将“大数据”称颂为“第三次浪潮的华彩乐章”,到了现在,大数据的热浪已经覆盖了整个时代。

    用户2908108
  • 【BDTC2016】科大讯飞大数据研究院副院长谭昶:讯飞大数据的实践与思考

    2016中国大数据技术大会首日全体会议中,上午最后一位演讲嘉宾来自科大讯飞大数据研究院副院长谭昶,他带来了《讯飞大数据的实践与思考》的主题分享。他从语言谈起,分...

    CSDN技术头条
  • 6位大数据人物浅谈未来三年大数据的发展

    目前,大数据被很多人诋毁、滥用,很多人甚至都没有真正了解什么是大数据。但是这并不是说大数据就要完蛋了,这个行业仍有很大希望。Facebook的立场是非常明确的,...

    灯塔大数据
  • 探寻西安弈聪软件成为大数据运营与数据分析行业黑马的创业史

    2017年工信部公布了《大数据产业发展规划(2016-2020年)》,提出了到2020年的发展目标:大数据相关产品和服务业务收入突破1万亿元,年均复合增长率保持...

    西安弈聪软件公司
  • 数据缺失的坑,无监督学习这样帮你补了

    大数据文摘
  • IT小白知识库:云计算、大数据和人工智能

    IT圈风云变换,既有底层被称为“IT民工”基层技术人员的心酸故事,也有身价过亿窜上富豪榜的IT大咖,造富能力超强,这里从来不缺少话题,当然,所有话题都围绕着IT...

    静一
  • 大数据服务及未来——人工智能+大数据生态模式

    2012年大数据是个流行词,没想到4年过后,在一些大数据论坛上还有人会说“如果我有大数据,我会怎样怎样……。”好吧,如果还停留在如果上,就不该随便上论坛演讲,讲...

    灯塔大数据

扫码关注云+社区

领取腾讯云代金券