在2.29.0版本上,我有一个已经工作了一年的管道。然而,本周我们不能再构建了,因为这个已经从Redhat回购中删除了。我将管道升级为BeamVersion2.32.0。我们的管道使用SparkRunner,Spark的版本是: 3.2.0。然而,新的梁版本正在抛出一个异常。下面是我收到的错误和堆栈跟踪。有人知道我需要配置/更改什么才能让它再次工作吗?(SparkRunner.java:449)
at org.apache.beam.runn
我正在尝试理解apache是如何工作的,我不太确定我是否这样做了。所以,我希望有人告诉我我的理解是否正确:
Beam是大数据框架的抽象层,如spark、hadoop、google等。现在几乎所有的功能都是这样的,但几乎就是Beam以两种形式处理数据的情况--有界和无界。像.csv一样有界,像卡夫卡的订阅一样无界。不同的i/o读取方法是不同的。i/o方法的输出是一个pCollectionThere are pTransformations (这是我希望对数据运行的操作),这些操作应用于p
我试图在DataBricks笔记本上使用Apache运行一个简单的管道,但是我无法创建任何自定义函数。下面是一个简单的例子:from apache_beam.options.pipeline_options import PipelineOptions(options=pipeline_options) as p: p
| "
我想在一个有一主两从的spark集群上运行apachebeam go sdk提出的使用spark runner的成绩示例(Spark2.4.5版本)。然而,我得到了以下错误。我不认为主要问题是因为ssh和docker已经安装并运行。: java.lang.IllegalStateException:没有运行id为xxxxxxxxx的容器 at org.apache.beam.vendor.guav