回顾R和微软过去的一年

托马斯·斯莫尔的ML / DL博客最近回顾了数据科学,机器学习和深度学习显著的进步-其中许多涉及R和/或微软。以下是他们的亮点:

R Project

R和Python保持其作为开放数据科学主要工具的领导地位。Python与R的争论仍在继续,一个新的共识是数据科学家应该考虑学习两者。R有一个更强大的统计和机器学习技术库,在使用小数据时更加灵活。Python更适合开发应用程序,而Python开源许可证对商业应用程序开发的限制较少。

  • R用户社区在2016年继续扩大。在2016年O'Reilly数据科学薪资调查中,它排名第二,仅次于SQL;首先在 KDNuggets 投票; 并首先在 Rexer 调查。R在IEEE Spectrum排名中排名第五。
  • R的功能快速增长。今年四月,微软Andrie de Vries报道, CRAN(R里主要贡献包的库)里有超过8000个包。截至12月中旬,有9737个包。CRAN的机器学习包在数量和功能上继续增长。
  • R联盟,Linux基金会的一个合作项目,在2016年取得了一些进展。IBM和ESRI加入该联盟,其成员目前也包括 Alteryx,Avant,DataCamp,Google,Ketchum Trading,Mango Solutions,微软,甲骨文,RStudio,和TIBCO。现在有三个工作组和八个资助项目。
  • Hadley Wickham有一个好年景。作为R项目的最大贡献者之一,Wickham共同撰写了数据科学相关的R,并于9月发布了tidyverse 1.0.0。在优秀工具的宣言中,Wickham解释了一个好的API的四个基本原则。
  • Max Kuhn,应用预测建模的作者和插入符包学习机的开发,11月加入RStudio。RStudio此前聘请了Joseph Rickert,且他就此离开了微软。
  • AT&T实验室正在与R做一些令人印象深刻的工作,包括使用Hadoop和其他数据平台进行外部处理的分布式后端的开发。在UseR!发布会上Simon Urbanek 提出了一个总结。
  • 枚举今年在R中进行的所有有趣的分析是不可能的。David Robinson’s对Donald Trump’s的推文的分析让人产生了共鸣; 使用tidyverse,tidytext和TWITTER,Robinson能够在同一帐户中区分候选人的“声音”和他的员工的“声音”。
  • 在Revolutions博客,微软的David Smith调查了女性在R社区的增长规律。

微软

微软在机器学习和深度学习方面有一年了。正如我在第一部分和第二部分所指出的,2016年MSFT在Azure中推出了用于视觉,报告,语言,知识和搜索的认知API; AzureHDInsight中的Spark的管理服务;增强了Azure机器学习和2.0版本的深度学习框架,更名为MicrosoftCognitive Toolkit。

这只是为初学者提供的。

  • 在一月份,微软宣布推出微软R服务器,并在2015年收购了革命分析产品。微软R服务器包括一个增强R分布,可扩展的后端,和集成工具。在这一年里,微软为R Server发布了两个主要版本。在第8版中,公司加入了Spark的下推式集成。第9版更新了Spark 2.0的Spark集成,并添加了MicrosoftML,一个用于机器学习的新R包。
  • 微软在3月份发布了SQL Server 2016嵌入式SQL Server服务。在“Revolution”博客上,David Smith报告了此发布。 TomažKaštrun解释了在SQL Server你可以用R做什么。
  • 十一月,在扩展预览之后,Microsoft宣布了Azure HDInsight的R Server的普遍可用性,这是一个与从HDInsight创建的Spark集群集成的R的横向扩展实现。
  • 此外,在Azure中,微软添加一个Linux版本的数据科学虚拟机(DSVM)。以前可用作Windows实例,DSVM包括Revolution R Open,Anaconda,Visual Studio社区版,PowerBI桌面,SQL Server Express和在Azure SDK。
  • PowerBI是微软强大的可视化工具,在8月增加了R支持。在计算机世界里,R用户Sharon Machlis先生热情地说。更多详细内容在Revolution博客。
  • Visual Studio的R Tools于3月推出公开预览,9月份推出。另外在9月,微软发布了Microsoft R Client,这是一个免费的数据科学工具,与Microsoft R Open和ScaleR分布式后端一起使用。
  • 微软数据科学家Gopi Krishna Kumar,Hang Zhang和Jacob Spoelstra开发了一种数据科学方法,他们在9月的微软机器学习和数据科学峰会上提出了这种方法。David Smith对此进行了报导。该方法(作者称为团队数据科学过程)包括一个标准目录结构,用于使用诸如Git之类的系统管理项目工件。它还包括支持该过程的开源实用程序。
  • 微软团队开发了一个识别对话语音的系统,就像人类的行为一样。该团队使用用Microsoft认知工具包(CNTK)构建的卷积和长期短期记忆(LSTM)神经网络。
  • 作为CNTK发布于2015年,Microsoft将其深度学习框架重新命名为Microsoft Cognitive Toolkit(MCT)并发布了2.0版本,并提供了新的Python API和许多其他增强功能。在VentureBeat,Jordan Novet报道。
  • 该公司还在Azure中推出了22种认知API,用于视觉,报告,语言,知识和搜索。另外,MSFT在Azure HDInsight发布了针对Spark的托管服务,并继续增强Azure机器学习。
  • MSFT十二月宣布Azure N系列计算实例由普遍可用的NVIDIA图形处理器供电。

PPV课小组翻译,未经许可严禁转载。

原文:https://www.r-bloggers.com/a-look-back-at-the-year-in-r-and-microsoft/

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-02-23

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏腾讯大讲堂的专栏

微信一年扫出多少个二维码?

图像作为一种特殊的语言形式,它克服了音声语言的转瞬即逝性,把信息长久保存下来,传播不再单纯依赖人类记忆力。 二维码通过图形记录着一组二进制数据,成为设备之间交...

486100
来自专栏CDA数据分析师

如何用 Python 爬取自己的微信朋友

微信作为一款拥有将近9亿用户的超级APP,已经成为很多人生活中不可或缺的一部分,聊天、分享动态、阅读资讯、购物支付……微信就像一张移动互联网的身份证,拥有它就能...

31690
来自专栏机器之心

前沿 | 小心!现在,机器人可以控制你了

远距临场机器人通过一个装有摄像头的机器人可以查看遥远的地点。它具有广泛的实际应用,如在军事和太空研究中的应用。市面上的大部分远距临场机器人(telepresen...

14840
来自专栏大数据和云计算技术

大数据和云计算技术周报(第53期)

“大数据” 三个字其实是个marketing语言,从技术角度看,包含范围很广,计算、存储、网络都涉及,知识点广、学习难度高。

10040
来自专栏杨熹的专栏

2017 我想要骑着光轮2000去追金色飞贼

2017 我想要骑着 光轮2000 去 追金色飞贼 一转眼就到了年底,大家都在忙着做盘点,做总结,做计划。 我也来回顾一下,先来复习一下超级个体的成长工具...

35960
来自专栏大数据

数据到信息到知识到智慧

数据到信息到知识到智慧 这是大数据时代,这是人工智能时代,这是一个数据驱动一切的时代。 中文确实博大精深,大家都在说大数据,说数据挖掘,说知识图谱,说人工智能。...

23370
来自专栏大数据文摘

Science最新研究:AI通过追踪光标移动,线上勘破骗局

17180
来自专栏互联网数据官iCDO

为什么对比测试可能会扼杀转化率

前言:对比测试可能导致产品转化率下降?你没听错,看完本文你就会找到答案! 如果你已经尝试了所有方法,但产品的转化率依然处于下滑趋势,那么对比测试可能是导致这种现...

30060
来自专栏华章科技

大数据告诉你:如何让大忙人及时回复邮件

网上教人们如何写邮件的建议不少,但大多还没有数据做支撑。最近,邮件效率服务商Boomerang通过分析5300多万封邮件数据,找出了一些影响邮件回复率的窍门。总...

7410
来自专栏ThoughtWorks

基于GitHub的敏捷学习方法之道与术|洞见

持续行动,持续反思,持续进步。—— via. 敏捷学习宣言 前言 对时间的敬畏 需要好多年才能懂得,最好不是去震惊世界,而是要像易卜生所说的,生活在世界上...

38130

扫码关注云+社区

领取腾讯云代金券