我们的挚爱——数据科学技术

数据科学家最爱的几款工具!

一个能干的数据科学家经常被看作是分析学中额的独角兽,这是因为他们的工作往往需要深厚的数学和统计学的知识、熟悉计算机科学,还要有掌握一些商务技能。同时掌握这么多的技能是需要耗费大量的时间、全身心的投入以及保持足够的好奇。这对于那些不是真正的热爱用大数据回答大问题的人来说是不可能实现同时掌握这么多技能的任务的。庆祝情人节当天,我们团队自问到底是什么数据科学工具、技术激发了我们对于冷冰冰的量化分析的热情。下面这些就是他们不得不说的。

并行处理:GPUs(图形处理器)为数据探索松绑

对于真正的数据爱好者来说,没有什么能比在未知数据中探索,在探索的每一小步中发现林荫大道更让人感到兴奋的了。不幸的是,传统的数据处理设施都是基于通用的CPU芯片建立的,它的数据分析反应速度根本不可能实现对字节范围数据集的分析,为了等到计算结果你不得不连续等待数分钟甚至是数小时。近几年,GPUs成为数据分析师眼里的热门计算平台。GPUs之所以能够受追捧是因为它能够并行处理多任务,而不是一次只能处理一个。这也就是说在连续处理数据的过程中,GPUs比CPU 内核的处理速度快百倍以上。GPUs将数据分析的喜悦感带到了数据科学当中,它因此也赢得了我们的爱。

Boostedtrees 引领预测数据模型步入更高阶层

数据科学家们通过切换到更高效的计算设施当中省下了大量的时间,那么他们用这些剩下的时间干什么了呢?毫无疑问,他们利用更强大的机器学习算法来创建更进准的预测数据模型。有一个关于XGBoost的例子广受欢迎,这也是我们团队很喜欢的一个。XGBoost是一个类似于随机森林的一种算法。尽管它需要更多的调整时间,但是这项技术确实很难被打败的,原因在于它有一种能够捕捉到每一个数据库所提供的预测精准度的能力。

自动记录为数据科学家省下了更多的时间进行探索

将每个人的工作清晰、完整地记录在案是编码工作的一项重要任务,数据科学家团队也不能例外。然而手工处理这些记录文档是一项异常乏味的工作,所以对于很难找到一组数据科学家团队会持续不断的手工记录文档的现象也就不足为奇了。这也就是我们喜爱文档生成器的原因了。目前我们的最爱要数Sphinx Documentation Generator。Sphinx是一款让人难以置信的支持工具,它已经成为一种记录编码的标准,支持的编码语言从Python、Go到R. 它能基于源代码和docstrings (标准化评论) 毫不费力地生成清晰、漂亮的编码记录文档。

最后,任何一件能够使数据科学家花更多时间在数据科学上并让他们能在第一时间就爱上大数据分析的东西,都能让数据科学家们心砰砰直跳。这些数据科学工具能够让我们的团队减少争吵、数据处理、存档的时间,把更多的时间用来寻找新的、令人兴奋的从大数据中探求深刻见解的方法上。

译:春上秋下7

原文发布于微信公众号 - PPV课数据科学社区(ppvke123)

原文发表时间:2017-02-22

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏新智元

微软对话语音识别再获突破,首次达到人类专业水平

1 新智元推荐1 来源:微软研究院AI头条 【新智元导读】继 9月13日微软将对话语音识别错误率降至6.3%的记录后,前天再次宣布进一步将错误率降至 5.9%...

3906
来自专栏互联网数据官iCDO

运营研究的3个方法:过程法、要素法、分类法

作者:平章大人 全文共 2582 字 7 图,阅读需要 7 分钟 ———— / BEGIN / ———— 研究了这么久的营销和运营,我越发深刻地认可一句话:“上...

3137
来自专栏华章科技

AI取代人类?这4种工作仍将是从业者的“铁饭碗” | 未来

导读:围棋人机大战、人脸识别、自动驾驶、智能控制、语言和图像理解……这些年,人工智能的威力,我们已经见识过太多。“人工智能”甚至入选“2017年度中国媒体十大流...

1014
来自专栏AI科技评论

哈尔滨工业大学刘挺:独家解读人机对话技术的进展 | CCF-GAIR

AI 科技评论按:2017 年 7 月 8 日,由中国计算机学会(CCF)主办,雷锋网与香港中文大学(深圳)承办的全球人工智能与机器人峰会(CCF-GAIR)进...

5228
来自专栏BestSDK

战胜李世石的AlphaGo又出新大招:用神经网络看病

很有意思的是,从当前DeepMind所做的事情里我们其实可以抽取出一些更有价值的模式,比如什么是人工智能+,到底应该怎么加。 案例1:降低能源消耗 DeepMi...

2555
来自专栏机器之心

观点 | 低门槛究竟是深度学习的危机,还是契机?

选自reddit 机器之心编译 参与:黄小天、刘晓坤 近日,Reddit 上出现了一个颇有争议性的问题,提问者怀疑深度学习的低门槛会破坏这个领域的声誉,业余者的...

3087
来自专栏CDA数据分析师

「CDAS 在线」央企财会到数据分析师的华丽转变

原作者 CDA 数据分析师 去年的CDAS 2016 第三届中国数据分析师行业峰会上,有一个比较特别的分论坛。这个论坛的嘉宾有些原本并不是业内人士,但经...

2236
来自专栏人工智能头条

OpenAI用Reddit训练聊天机器人

2294
来自专栏虚拟化云计算

openstack社区发布《边缘计算白皮书》

openstack社区近日发布了《Cloud Edge Computing: Beyond the Data Center》(边缘计算白皮书),用以引导...

7587
来自专栏AI科技评论

百度王海峰Quora精华整理:未来5-10年,NLP领域将会有什么进展?

AI科技评论按:近日吴恩达发文将在4月底离职百度。几乎在同一时间,百度也宣布进一步深度整合,将包括NLP、KG、IDL、Speech、Big Data等在内的百...

3234

扫码关注云+社区

领取腾讯云代金券