作者|Isabella Ferreira
翻译 | Mandy Li
编辑 | Paige Huang
本文翻译自TARS基金会大使Isabella的文章,《How Open Source is Pushing the Future of Data Science》,其中谈及到随着5G网络和人工智能等新技术的发展,数据产量会越来越多,处理大数据也变得挑战重重。本文探讨了开源与数据科学是如何相辅相成。
根据Stastista的数据,2021年将有74兆字节的数据。随着5G网络和人工智能等新技术的发展,数据产量会越来越多,那么如何更加便捷的获取这些数据呢?
首先,拥有如此庞大的数据使得专注于数据驱动的商业决策和结果的技术得以发展[2]。大数据分析帮助组织获得新的见解,做出更快速、更明智的决策,并降低其成本[2]。当需要对所有这些数据进行分析时,数据科学家就会发挥作用。为了帮助企业组织实现目标,确定模式和趋势,数据科学家会解析和分析这些大数据,并沉淀出数据处理以及视觉化的方法论[3]。
开源如何推动数据科学的未来发展?
开源帮助数据科学领域有三个主要原因。
但是,处理大量的数据是一种挑战!
当处理大量的数据时,存储和计算需求会成为一个问题! 因为大数据越来越复杂,公司和个人可能会努力适应存储和计算需求。为了解决这个问题,带有云计算的数据科学开始流行,数据即服务(DaaS)领域也随之产生。DaaS使用云计算为公司或个人提供数据存储、数据处理、数据整合和数据分析。DaaS的酷之处在于,它允许公司内部不同的公司和部门轻松地相互分享数据,并获得可操作的见解。
尽管对数据进行了分析和处理,但大多数时候,有必要运行机器学习模型,以从数据中获得洞察力。为此,云原生机器学习(ML)和人工智能(AI)开始发挥作用。云原生ML允许公司和个人将人工智能和深度学习模型部署到云的可扩展环境中。有了云原生ML,访问数据和部署程序就更容易了,不需要有编码的经验[4]。此外,用户可以直接从云中调试、评估和复制结果[4]。最后,云环境是有弹性的,这意味着你可以自定义数据的数量和存储位置。该环境将根据你的需要而增长或缩小。云原生ML有以下优势:
你应该从哪里开始?
数据科学家会使用不同的工具来帮助他们的工作。市面上有很多工具可以帮助处理和分析大数据,但开源软件尤其成为一个非常理想的选择,它允许不同的利益相关者尝试不同的开源工具,并能轻松获得最新的解决方案,而且成本低廉。例如,Apache开源家族(如Spark、Kafka、Hadoop、Tomcat和Cassandra)有一个完整的生态系统来帮助处理大数据。
无论你是一个想为专注于数据科学的开源项目做出贡献的软件开发人员,还是一个用户,都有一些项目是很好的起点。大多数流行的开源数据科学项目在GitHub上管理其源代码,如果你想开始学习它们,这里有一个简短的列表。
关于数据科学的云计算服务,最受欢迎的是亚马逊网络服务、谷歌云平台和微软Azure。
开源正在使数据科学变得更容易,并为所有人所用。因此,云计算正在帮助数据科学和机器学习应对数据存储和计算需求的挑战。
想提高你的团队能力并做更快的部署吗?可以了解一下TARS框架,TARS是一个微服务框架,有助于加快处理大数据的软件的开发和部署。
文献
[1]
https://www.rtinsights.com/how-open-source-is-driving-the-future-of-data-science/
[2]
https://www.linkedin.com/pulse/why-open-source-future-big-data-analytics-raghavendra-singh
[3]
https://opensource.com/resources/data-science
[4]
https://medium.com/@ODSC/the-benefits-of-cloud-native-ml-and-ai-b88f6d71783