首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >问答首页 >PyFlink性能与Scala的比较

PyFlink性能与Scala的比较
EN

Stack Overflow用户
提问于 2021-11-05 14:23:43
回答 1查看 599关注 0票数 1

如何将PyFlink性能与Flink + Scala进行比较?

大照片。我们的目标是建立冷和热层的Lambda架构。冷(批)层将用Apache (PySpark)实现。但是对于热(流)层有不同的选择:火花流或Flink。

因此,Apache是纯流的,而不是Spark的微批,我倾向于选择Apache。但我唯一关心的是PyFlink的性能。PySpark流的延迟会更少吗?它比Scala编写的Flink代码慢吗?在什么情况下更慢?

提前谢谢你!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-11-05 15:23:25

我实现了一些非常相似的东西,根据我的经验,下面是几点

作业的

  1. 性能完全取决于您正在编写的代码类型,如果您在解压缩时使用一些用python编写的自定义UDF运行,那么性能将比使用基于Scala的代码执行相同的操作慢--这主要是因为python对象转换为JVM,反之亦然。
  2. Flink是真正的流式处理过程,如果您的用例确实需要一个真正的流服务,则星星之火中的微批就不需要使用Flink.

如果将服务固定在PyFlink中提供的本机函数上,您将不会观察到性能上的任何明显差异。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/69854764

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档