首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >开源软件如何推动数据科学的未来发展

开源软件如何推动数据科学的未来发展

作者头像
TARS基金会
发布2021-08-24 14:40:01
3770
发布2021-08-24 14:40:01
举报
文章被收录于专栏:TARS基金会TARS基金会TARS基金会

作者|Isabella Ferreira

翻译 | Mandy Li

编辑 | Paige Huang

本文翻译自TARS基金会大使Isabella的文章,《How Open Source is Pushing the Future of Data Science》,其中谈及到随着5G网络和人工智能等新技术的发展,数据产量会越来越多,处理大数据也变得挑战重重。本文探讨了开源与数据科学是如何相辅相成。

根据Stastista的数据,2021年将有74兆字节的数据。随着5G网络和人工智能等新技术的发展,数据产量会越来越多,那么如何更加便捷的获取这些数据呢?

首先,拥有如此庞大的数据使得专注于数据驱动的商业决策和结果的技术得以发展[2]。大数据分析帮助组织获得新的见解,做出更快速、更明智的决策,并降低其成本[2]。当需要对所有这些数据进行分析时,数据科学家就会发挥作用。为了帮助企业组织实现目标,确定模式和趋势,数据科学家会解析和分析这些大数据,并沉淀出数据处理以及视觉化的方法论[3]。

开源如何推动数据科学的未来发展?

开源帮助数据科学领域有三个主要原因。

  1. 开源允许公司以非常低的成本尝试不同的工具,以及寻找从事特定数据科学工具的专业人员。例如,通过开源,可以找到Python开发人员,从而找到从事数据科学和机器学习框架的优秀开发人员,如PyTorch、Tensorflow和Scikit-learn,这些框架也是直接使用Python构建的。
  2. 开源使公司和不同的利益相关者能够获得大量的数据和不同的模型。如果没有开源,这对没有这么多可用数据和资源的小公司和个人来说都是一个挑战。
  3. 开源让人们了解数据科学。有了大量的开源数据科学框架,对数据科学感兴趣的人就可以实践他们在教科书中所学到的知识。

但是,处理大量的数据是一种挑战!

当处理大量的数据时,存储和计算需求会成为一个问题! 因为大数据越来越复杂,公司和个人可能会努力适应存储和计算需求。为了解决这个问题,带有云计算的数据科学开始流行,数据即服务(DaaS)领域也随之产生。DaaS使用云计算为公司或个人提供数据存储、数据处理、数据整合和数据分析。DaaS的酷之处在于,它允许公司内部不同的公司和部门轻松地相互分享数据,并获得可操作的见解。

尽管对数据进行了分析和处理,但大多数时候,有必要运行机器学习模型,以从数据中获得洞察力。为此,云原生机器学习(ML)和人工智能(AI)开始发挥作用。云原生ML允许公司和个人将人工智能和深度学习模型部署到云的可扩展环境中。有了云原生ML,访问数据和部署程序就更容易了,不需要有编码的经验[4]。此外,用户可以直接从云中调试、评估和复制结果[4]。最后,云环境是有弹性的,这意味着你可以自定义数据的数量和存储位置。该环境将根据你的需要而增长或缩小。云原生ML有以下优势:

  • 它允许可靠的可扩展性。这可以扩大你的计算需求或存储,而不需要改动软件。
  • 你可以使用微服务进行目标开发。这将允许你做更快的部署,增加团队的能力。
  • 它允许你拥有数据湖,也就是说,你可以以原始格式存储数据。这让你做更好的机器学习和部署更新的模型。

你应该从哪里开始?

数据科学家会使用不同的工具来帮助他们的工作。市面上有很多工具可以帮助处理和分析大数据,但开源软件尤其成为一个非常理想的选择,它允许不同的利益相关者尝试不同的开源工具,并能轻松获得最新的解决方案,而且成本低廉。例如,Apache开源家族(如Spark、Kafka、Hadoop、Tomcat和Cassandra)有一个完整的生态系统来帮助处理大数据。

无论你是一个想为专注于数据科学的开源项目做出贡献的软件开发人员,还是一个用户,都有一些项目是很好的起点。大多数流行的开源数据科学项目在GitHub上管理其源代码,如果你想开始学习它们,这里有一个简短的列表。

  • R和Python是数据科学中最流行的编程语言,它们本身也是开源的。
  • scikit-Learn是Python的机器学习库(ML),允许你做许多ML任务,如集群和分类。
  • Numpy提供数值计算工具,有助于数据科学的发展。
  • Pandas主要用于数据操作和分析。
  • PyTorch是一个Python机器学习框架,具有从原型设计到部署的许多功能。
  • Tensorflow用于构建和训练神经网络。

关于数据科学的云计算服务,最受欢迎的是亚马逊网络服务、谷歌云平台和微软Azure。

开源正在使数据科学变得更容易,并为所有人所用。因此,云计算正在帮助数据科学和机器学习应对数据存储和计算需求的挑战。

想提高你的团队能力并做更快的部署吗?可以了解一下TARS框架,TARS是一个微服务框架,有助于加快处理大数据的软件的开发和部署。

文献

[1]

https://www.rtinsights.com/how-open-source-is-driving-the-future-of-data-science/

[2]

https://www.linkedin.com/pulse/why-open-source-future-big-data-analytics-raghavendra-singh

[3]

https://opensource.com/resources/data-science

[4]

https://medium.com/@ODSC/the-benefits-of-cloud-native-ml-and-ai-b88f6d71783


本文参与 腾讯云自媒体分享计划,分享自微信公众号。
原始发表:2021-08-17,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 TARS星球 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体分享计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
大数据
全栈大数据产品,面向海量数据场景,帮助您 “智理无数,心中有数”!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档