前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >开源如何推动数据科学的未来

开源如何推动数据科学的未来

作者头像
TARS基金会
发布2022-04-18 15:54:00
4900
发布2022-04-18 15:54:00
举报
文章被收录于专栏:TARS基金会TARS基金会

据 Stastista 统计,2021 年有 74 ZB 的数据可用。随着 5G 网络和 AI 等新技术的发展,预计随着时间的推移,数据产量将越来越多。问题是如何使这些数据更易于访问?

事实上,这些数据量的可访问性已经允许开发专注于数据驱动的业务和技术 [2]。大数据分析可帮助组织获得新见解、做出更快和明智的决策,并降低成本 [2]。当需要分析所有这些数据时,数据科学家就会发挥作用。也就是说,数据科学家将负责帮助组织通过解析和分析数据来创建常规操作,以达到在数据上识别规律和趋势后可视化的目标[3]。

  1. 开源允许公司以非常低的成本尝试不同的工具,并找到使用特定数据科学工具的专业人士。例如,通过开源,可以找到Python开发人员,从而找到从事数据科学和机器学习框架(如 PyTorch、Tensorflow 和 Scikit-learn)的优秀开发人员,这些框架也直接使用 Python 构建。
  2. 开源允许公司和不同的利益相关者访问大量数据和不同的模型。如果没有开源,对于没有这么多可用数据和资源的小公司和个人来说,这将是一个挑战。
  3. 开源帮助人们学习并实践数据科学。借助大量可用的开源数据科学框架,对数据科学感兴趣的人能够实践他们在教科书中学到的东西。

处理大量数据存储和计算需求可能会造成问题!公司和个人可能难以满足存储和计算需求,因为大数据变得越来越复杂!为了解决这个问题,云计算的数据科学变得流行起来,数据即服务(DaaS)领域也应运而生。DaaS 使用云计算为公司或个人提供数据存储、数据处理、数据集成和数据分析。DaaS很棒的地方在于,它允许公司内部的不同公司和部门相互共享数据并轻松获得可操作的见解。

除了分析和处理数据,大多数时候还是有必要运行机器学习模型来从数据中获得重要信息和解析。为此,云原生机器学习 (ML)和人工智能 (AI)开始发挥作用。云原生 ML 允许公司和个人将 AI 和深度学习模型部署到云中的可扩展环境中。通过使用云原生ML,无需编码经验即可更轻松地访问数据和部署程序[4]。此外,用户可以直接从云端调试、评估和复制结果 [4]。最后,云环境是弹性的,这意味着可以自定义数据的数量和存储位置。环境将应需增长或缩小。云原生ML的优势包括:

  • 它允许可靠的可扩展性。也就是说,无需改变软件就可以扩展计算需求或存储。
  • 可以使用微服务进行目标开发。这将能够更快地进行部署并提高团队能力。
  • 它允许拥有数据湖,即可以用原始格式存储数据。这能够更好地训练和部署更新的模型。

数据科学家能够使用工具来帮助他们完成工作。尽管有许多工具可以帮助处理和分析大数据,但开源软件已成为最非常理想的选择之一了,开源软件允许不同的利益相关者尝试不同的工具,并以低成本轻松访问最新的解决方案。例如, Apache open source family(如 Spark、Kafka、Hadoop、Tomcat 和 Cassandra)拥有一个完整的生态来帮助处理大数据。

无论是想要为专注于数据科学的开源项目做出贡献的软件开发人员还是用户,他们都有一些很好的项目作为起点。目前最流行的开源数据科学项目都在 GitHub上管理源代码,如果想开始学习它们,这里有一个简短的列表:

  • RPython是最流行的数据科学编程语言,它们本身是开源的。
  • Scikit-Learn是一个用于 Python 的机器学习库 (ML),它能够执行许多 ML 任务,例如聚类和分类。
  • Numpy提供了有助于数据科学的数值计算工具。
  • Pandas主要用于数据操作和分析。
  • PyTorch是一个 Python 机器学习框架,具有从原型设计到部署的许多功能。
  • Tensorflow用于构建和训练神经网络。

关于数据科学的云计算服务,最流行的是Amazon Web Services, Google Cloud Platform, 和Microsoft Azure

如果想提高您的团队能力并加快部署速度,可以了解一下TARS框架。TARS是一个有助于加快处理大数据的软件的开发和部署的微服务框架。

TLDR-总结:开源使数据科学变得更容易并让其开放供所有人使用。同时,云计算正在帮助数据科学和机器学习以应对数据存储和计算需求的挑战。

参考文献:

[1] https://www.rtinsights.com/how-open-source-is-driving-the-future-of-data-science/

[2] https://www.linkedin.com/pulse/why-open-source-future-big-data-analytics-raghavendra-singh

[3] https://opensource.com/resources/data-science

[4] https://medium.com/@ODSC/the-benefits-of-cloud-native-ml-and-ai-b88f6d71783


TARS基金会是Linux基金会下的非营利性、微服务基金会,致力于建设一个强大而灵活的微服务生态系统。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-03-27,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 TARS星球 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据保险箱
数据保险箱(Cloud Data Coffer Service,CDCS)为您提供更高安全系数的企业核心数据存储服务。您可以通过自定义过期天数的方法删除数据,避免误删带来的损害,还可以将数据跨地域存储,防止一些不可抗因素导致的数据丢失。数据保险箱支持通过控制台、API 等多样化方式快速简单接入,实现海量数据的存储管理。您可以使用数据保险箱对文件数据进行上传、下载,最终实现数据的安全存储和提取。
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档