探索机器学习中的数据科学

原文作者:原微软技术与研究部门合伙人数据科学架构师Mario Garzia

译者:杜红光

数据科学与“大数据”已经成为21世纪高科技产业的流行语。而“大数据”这个术语,在很多情况下是相对于我们收集、存储和处理数据的能力来说的。有关大数据的挑战并非新生事物,历史上也曾出现过一些著名的大数据使用案例。一个有趣的例子是美国人口普查, 1880年进行的美国人口普查,耗时8年才完成了全部的数据汇总。同时,由于人口膨胀的原因,当时人们预计完成1890年的人口普查要10年以上的时间。这就是当时的一个大数据问题。随后一个名为霍尔瑞斯的人的发明成功解决了这一难题。他的发明使得1890年美国人口普查在预算内不到一年即完成,而他创立的公司则是现在我们也耳熟能详的IBM。霍尔瑞斯通过开发新的有效的方式来收集和存储不断增多的数据量(穿孔卡片),利用电动制表机读取打孔卡,得出计算结果。在霍尔瑞斯博士那个时期的前后还有其他很多类似的大数据案例。

那么,今天大数据的挑战与以往有了哪些不同呢?

数据量的增长速度不断挑战着我们收集、存储和处理数据的能力,推动着新技术的发展。但是,现在数据的种类和我们收集数据的速度也都在不断的增加,并且这种趋势短期内并没有停下来的迹象。爱立信2011年的调查报告显示,预计到2020年,全球将会有将近500亿个连接设备。每一个设备都会生成各自的数据,此外,管理这些数据的收集和处理这些设备数据的系统又将产生更多的数据。另一个大的区别就是今天的大数据蕴藏着巨大的机遇,我们可以直接从每一个终端客户那里收集数据,了解用户体验或设备的服务水平,这在以前是不可能的。这使得我们可以运用全新的方式提供新的产品和前所未有的服务水平来使我们的用户满意,更好地了解用户现在需要的是什么,并预测他们在未来可能需要什么。迄今为止,高科技公司一直是数据领域的领头羊,对于它们来说很多时候数据本身就是产品,比如必应搜索和各大社交网站等;但当今世界的主要关注点是技术推动数据和其分析的民主化,以对整个人类活动有全方位的了解。所以现在不止是科技行业,传统行业和其他机构都能利用大数据优化其服务,用以满足其客户的需求。我们正处在一个令人激动的时代,曾经无法想象的东西现在通过数据和分析成为了可能。

早在“数据科学”和“大数据”广受关注前,微软一直就有根据数据做决策、驱动产品开发的传统。我在1997年加入微软,见证了它在数据领域的演变和成长。在微软工作对我最有吸引力的就是我可以和一群充满才华和激情的人一起工作,并向他们学习。在这里,不断学习、获取新知识和不断追求最好都是根深蒂固的文化。正因为如此,数据在微软一直发挥着重要作用,并在过去的十几年中不断演变和壮大。我们工作的重点,逐渐由“深入理解产品”转移到“深入理解产品的用户体验和服务”。

2000年,我来到了Windows团队,成立了Windows可靠性工作小组。从一开始Windows的可靠性就是由数据驱动的。例如,发布Windows Server 2000时,在微软内部生产服务器上,我们已经拥有大约100年的可靠的运行数据。在Windows Server 2000发布之后,我们对企业用户提供了免费的可靠性服务,企业可以通过它收集数据中心服务器的可靠性数据并上传到微软的服务器。这些数据之后会被自动分析,得到服务可用性和可靠性的结果,这些结果按服务类型和服务运行环境进行分类,在网站上提供给企业用户参考。在大多数情况下,这是这些公司第一次获取他们数据中心如此详尽的可靠性数据。Windows也可以通过这些数据,深入了解操作系统的可靠性和失效模式,为操作系统的新版本设置新的发布标准,并根据故障的频率和严重性优先驱动产品修复。我们还可以利用这些数据开发操作系统的新功能,比如系统中的诊断服务。数据驱动的方式帮助我们根据产品当前的运行状况做出何时可以发布新产品的决策。这些数据虽然深入且全面,但主要用于评估产品质量和为产品发布做准备。如今,Windows操作系统以及其他所有微软的产品和服务都不仅仅关注产品质量,而是更多的关注如何更好的理解用户需求。现在微软正在革新数据驱动的企业文化,对用户体验、参与度和用户需求更深入的理解同产品服务质量同等重要。数据带来的新见解将一直为微软的各类产品和服务带来新的、更强大的功能和提升。

数据驱动的文化是指对产品和用户数据的理解,这不仅仅是数据科学家的事情,在微软,每个人都需要对数据很敏感,并且学会使用数据处理问题。大数据用于对产品和服务的试验、改进,也被用于发布优化机器学习等技术的增强定制服务。必应和必应广告完全是数据驱动的产品。从最初的贝叶斯网络和语音识别研究到现在的产品,如SQL Server数据挖掘,在过去二十年里微软在机器学习方面也拥有了宝贵的经验。我们现在提供给其他公司构建机器学习模型的服务,并将这些模型很容易地部署到微软的云服务Azure ML中。

作为微软的数据科学家,一个非常令人激动的事是可以接触到空前广泛的用户数据。这些数据来自计算机及平板电脑,还有手机、设备、游戏、搜索和大量的用户服务,包含着用户生活的各个方面,这能够使我们更好的理解用户需求和用户体验,并通过这些理解创造出全新的更有效的方式来影响用户的日常生活。数据科学原则应处在我们数据驱动企业策略的核心位置,在微软,我们对这点达成了共识,并拥有一个完整的工程师职业规划路线,数据科学家、机器学习科学家和应用科学家都可以进入到公司的高层。在整个公司,我们拥有很多的数据科学家小组,进而形成了一个充满活力并不断壮大的团队。我相信对于数据科学家而言没有比微软更好的地方了,这是他们学习、成长、收获快乐并创造辉煌的沃土

原文发布于微信公众号 - 智能计算时代(intelligentinterconn)

原文发表时间:2015-10-20

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏云计算D1net

企业应谨慎对待托管数据中心和云计算

日前,调研机构451 Research公司高级分析师Dan Thompson表示,尽管进行了数字化转型,很多组织仍然需要数据中心开展业务,其原因包括从成本到专注...

9500
来自专栏数据科学与人工智能

【陆勤阅读】探索机器学习中的数据科学

原文作者:原微软技术与研究部门合伙人数据科学架构师Mario Garzia 译者:杜红光 数据科学与“大数据”已经成为21世纪高科技产业的流行语。而“大数据”这...

216100
来自专栏软件成本造价评估

软件成本度量体系建设应用案例分析

  随着该行组织级量化管理的不断提升,高层领导对信息化管理提出了新的要求,金融信息化每年投入了大量的人力,如何能客观地量化相应的产出?

20120
来自专栏java架构师

关于敏捷的一点思考

最近公司研发部在注重流程化、标准化的基础上,引入了敏捷的概念,并在刚刚做完的一个小项目中做了初次的尝试。 同时,最近自己在看《敏捷软件开发:原则、模式与实践》,...

29470
来自专栏大数据和云计算技术

运营商常见大数据业务

3.1 运营商常见的大数据业务 第1章介绍了运营商拥有的数据资产,运营商拥有从底层的设备和网络数据到上层的用户行为数据。有了这些数据,运营商大数据便可以衍生出...

451100
来自专栏AI研习社

解惑:Python是否值得学习?最强语言展露端倪

5 月 13 日,由 ThoughtWorks 主办的 2017 技术雷法峰会在北京召开。 正如官方宣传提到的:“ThoughtWorks 技术雷达” 并非一个...

45470
来自专栏SDNLAB

云计算十问

Q1:云服务提供商在未来几年中面临的问题是什么? Gartner预测,到2017年公有云服务市场的总体预计将增长18%,将从2017年的2468亿美元增长到20...

68970
来自专栏DevOps时代的专栏

从作坊到工厂 — 传统企业 DevOps 改造历程

? 作者介绍: 洪烨 资深DBA、数据中心架构师,培训讲师,Oracle YEP成员,拥有DB2 V9 Advanced Administrator、Orac...

424100
来自专栏张俊红

一起来学习用户活跃的方法

本篇内容来源于图书《增长黑客》与文章《用户活跃计划分析》的学习整理。整篇内容在学习前辈的基础上进行改编,对前辈的一些理论选择性地写出来,并根据理论,配了自己平常...

34150
来自专栏EAWorld

DevOps是MindSet:工具也好,文化也罢,人员才是关键

任何变革都需要时间,DevOps亦然。在经过数年的蛰伏期之后,DevOps终于成为了业界聚焦点;不过,从知其然到知其所以然,再到最终完美实现DevOps,依然前...

344130

扫码关注云+社区

领取腾讯云代金券