前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
工具
TVP
发布
社区首页 >专栏 >近百个大数据开源项目,你该如何选型?|《开源大数据热力报告2022》入围项目公示

近百个大数据开源项目,你该如何选型?|《开源大数据热力报告2022》入围项目公示

作者头像
深度学习与Python
发布2023-03-29 13:42:01
3900
发布2023-03-29 13:42:01
举报
文章被收录于专栏:深度学习与python

在开源大数据技术飞速发展的十数年,我们见证了多元化技术的兴起和变迁。如何从海量数据中,通过数据处理和可视化的手段,对开源大数据技术的过去、现在和未来,做出深刻洞察?如何为开发者在开源大数据技术领域的学习、选型和技术研发提供有益参考?带着这样的思考,开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会共同发起了「2022 开源大数据热力报告」项目, InfoQ 作为战略合作伙伴参与其中。

项目简介

「2022 开源大数据热力报告」收集相关公开数据进行关联分析,通过 Star、Issue、open PR 等核心指标绘制基于大数据技术栈的热力地图,研究开源大数据进入新阶段后的技术趋势,以及开源社区的运作模式对技术走向的助推作用。项目研究遵循如下 7 个阶段:公开数据初筛 ->项目技术分类 ->专家审议 ->入围公示 & 征集修正 ->热力值计算和关联分析 ->数据洞察和课题研究 ->报告审议。

数据来源

2015 年 1 月至 2022 年 9 月的 Github 和 Jira 公开数据,包括项目 id、Star、Issue、open PR,review comment,merge PR 等。

数据初筛

项目初筛 Github 上 Topic Tag 满足如下条件且开源的大数据项目:Topic Tag:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

技术分类

根据大数据现代技术栈框架,对初筛项目进行技术分类。技术分类包括:数据集成、流处理、数据存储、数据查询和分析、数据开发、数据调度和编排、数据管理 / 安全 / 中间件、数据可视化。

#说明

  • 数据查询和分析分类聚焦大数据分析类型项目,不包括 OLTP 数据库、OLTP 能力为主的 HTAP 数据库和 NoSQL数据库
  • 数据可视化分类中需具备数据源链接和处理能力,不包括可视化框架工具项目
  • 数据管理 / 安全 / 中间件分类中,项目较少且功能互相交叠,因此归为一类
  • 本次报告聚焦大数据领域,不包含大数据 AI 融合型

项目公示

现将本次入围项目(共计 92 个)予以公布,公示期为 2022 年 10 月 10 日至 10 月 16 日。

其他项目补充征集

如果你也是开源项目的爱好者,如果你熟知的项目不在上述列表,但是满足以下标准,可在公示期内扫描下方二维码参与项目提报。

参与标准:

1、开源大数据项目,有明确的开源协议、完善的文档;半年内发布过新版本

2、Github 上带有如下 Topic Tag 之一:big-data、etl、data-ingestion、data-collection、data-pipeline、data-analysis、data-analytics、analytics、data visualization、business-intelligence、data science、data-engineering

参与方式:

扫描上方二维码,参与征集

截止日期:2022 年 10 月 16 日 24 时

发布预告

「 开源大数据热力报告 2022」将于 2022 年 11 月云栖大会现场正式发布。

特别致谢

  • 联合发起方:开放原子开源基金会、X-Lab 开放实验室、阿里巴巴开源委员会
  • 战略合作:开源中国、InfoQ、阿里云开发者社区
  • 合作媒体:CSDN、Datafun、SegmentFault 思否
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2022-10-10,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 InfoQ 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
相关产品与服务
数据库
云数据库为企业提供了完善的关系型数据库、非关系型数据库、分析型数据库和数据库生态工具。您可以通过产品选择和组合搭建,轻松实现高可靠、高可用性、高性能等数据库需求。云数据库服务也可大幅减少您的运维工作量,更专注于业务发展,让企业一站式享受数据上云及分布式架构的技术红利!
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档