前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >什么是数据科学工作台?为什么数据科学家需要它?

什么是数据科学工作台?为什么数据科学家需要它?

作者头像
Fayson
修改2018-04-01 19:04:36
9950
修改2018-04-01 19:04:36
举报
文章被收录于专栏:Hadoop实操Hadoop实操

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

数据科学本质上是一个探索和创新的过程,因为通常对于现在的问题没有明确的答案,也没有获得答案的确定的途径。数据科学家用数据和他们的经验研究问题,探索数据,创建模型,然后通过这些再来决定选择哪些参数和过程来处理手头的具体问题。这使得分享与协作变得非常重要,因为需要数据科学家团队里的每个人都能共享彼此的研究和知识,并最终产生最佳的结果。

数据科学随着大数据的技术一起发展,新的技术一直都在出现。这种变化从一些公司的数据科学家的背景和技能就就看得出来。数据科学家使用各种语言和工具包,包括开源的软件比如R,Python,Spark,以及商业软件比如SAS和SPSS,对于商业工具他们可能受过专门的培训也会非常擅长。为了让数据科学取得成功,各个公司都会让数据科学家高效的工作,让他们用最好的技术来解决手头的问题,而不受其背景的限制。

关于这点,数据科学工作台能提高数据科学家的工作效率和产出。数据科学工作台是一个应用程序,它允许数据科学家在本地环境或者部分企业环境下选择他们自己喜欢的技术,语言和库来工作。数据科学工作台,可以让数据科学家访问存储在其机器和公司中的工具。例如数据科学工作台可以给数据科学家提供Jupyter或者Zeppelin这种notebook,同时也提供R或者Python这种广泛使用的统计语言的开发环境。

数据科学家需要花大量的时间和精力来搭建他们的分析环境。这个搭建过程包括识别数据,从大量数据源收集数据并且导入到数据分析平台上,然后开始分析。通过工作台,数据科学家只需要最简单的设置就可以直接连接到数据湖里的数据源。一旦连接到数据源后,数据科学家就可以用工作台提供的notebook,使用Spark或者其他机器学习技术连接到集群并开始工作。

对于数据科学家来说一件很重要的事就是和同行或者同事交流意见和想法。数据科学工作台提供了一个交流分享的可视化环境,这样数据科学家可以和不同技术领域的专家一起交流分享他们的研究成果。团队成员不仅可以分享代码,还可以把整个包括数据集的可恢复的研究环境打包分享出去,这样团队的其他成员可以直接开始研究而不需要繁琐的设置。工作台提供的协作模式不仅可以促进学习交流和思想碰撞,还可以让不同技术领域的专家们一起预测模型。使用来自不同团队的条件和用例来测试模型,提高了预测模型的鲁棒性和预测能力。同时,在研究问题的过程中,数据科学家会发现代码,手册或者操作教程都可以有效的解决手头上的问题。市场上一些领先的工作台还可以让数据科学家们把这些都整合到当前的项目中。

数据工作台的所有这些因素,使得数据科学家可以自给自足,提高建模效率,更重要的是,加快了预测和分析。

参考英文原文:https://zh.hortonworks.com/blog/data-science-workbench-data-scientists-need-one/

醉酒鞭名马,少年多浮夸! 岭南浣溪沙,呕吐酒肆下!挚友不肯放,数据玩的花!

温馨提示:要看高清无码套图,请使用手机打开并单击图片放大查看。

本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2017-09-01,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 Hadoop实操 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档