在Spark上运行Golang apache Beam管道

文章/答案/技术大牛

发布

1回答

apache-spark、go、apache-beam

我创建了一个简单的golang Apache光束管道，它在DirectRunner上工作得很好。我尝试使用以下命令将其部署到Spark集群上：./bin/spark-submit --master=spark://vm:7077 main.go --runner=SparkRunner --job_endpoint=localhost:8099--artifact_endpoint=localhost:8098 --environ

浏览 71提问于2021-03-06得票数 0

回答已采纳

2回答

在Spark上运行python Apache Beam Pipeline

python、apache-spark、apache-beam

我在这里尝试了apache beam (使用python sdk)，所以我创建了一个简单的管道，并尝试将其部署在Spark集群上。from apache_beam.options.pipeline_options import PipelineOptions op = PipelineOptions([1, 2, 3]) | beam<

浏览 54提问于2020-10-31得票数 1

回答已采纳

2回答

如何使用火花转轮运行云数据流管道？

apache-spark、google-cloud-platform、google-cloud-dataflow、apache-beam

我读过管道，它基于Apache，可以与Spark或Flink一起运行。我有一些数据流管道目前运行在GCP上，使用默认的Cloud运行程序，我想使用Spark运行它，但我不知道如何运行。

浏览 0提问于2018-06-20得票数 0

回答已采纳

1回答

Apache从2.29.0升级到2.32.0

apache-beam

在2.29.0版本上，我有一个已经工作了一年的管道。然而，本周我们不能再构建了，因为这个已经从Redhat回购中删除了。我将管道升级为BeamVersion2.32.0。我们的管道使用SparkRunner，Spark的版本是: 3.2.0。然而，新的梁版本正在抛出一个异常。下面是我收到的错误和堆栈跟踪。有人知道我需要配置/更改什么才能让它再次工作吗？(SparkRunner.java:449) at org.apache.beam.runn

浏览 4提问于2022-07-12得票数 0

2回答

用Python在Spark上运行Apache字词计数管道时的低并行性

python、apache-spark、apache-beam

因此，我正试图在火花PortableRunner (运行在同一个小型星火集群上，4名工作人员各有4核心和8GB内存)上对Pyspark和Beam进行苹果对苹果的比较，并且我已经确定了一个相当大的数据集的单词计数工作首先，我使用以下命令启动了Spark作业服务器(在Spark主节点上)： docker run --rm --net=host -e SPARK_EXECUTOR_MEMORY=8g apache<

浏览 3提问于2020-11-17得票数 6

回答已采纳

1回答

Apache /flink runner未在EMR中执行(从GCS访问文件)

apache-spark、hadoop、apache-beam、apache-spark-2.0、apache-beam-io

我有一个apache beam管道来索引一些数据到elasticsearch。我尝试使用spark或Flink runner在AWS EMR中运行作业。当我试图在本地设置的独立spark上运行作业时，管道可以处理本地磁盘中的源文件，但是，当我从GCS读取文件时，它不能工作。当我在EMR集群中运行时，这是相同的。我在Hadoop core-site

浏览 6提问于2020-08-05得票数 0

1回答

如何在有限的数据上分批运行apache束？

python-3.x、mapreduce、apache-beam、distributed-computing、apache-beam-io

我正在尝试理解apache是如何工作的，我不太确定我是否这样做了。所以，我希望有人告诉我我的理解是否正确： Beam是大数据框架的抽象层，如spark、hadoop、google等。现在几乎所有的功能都是这样的，但几乎就是Beam以两种形式处理数据的情况--有界和无界。像.csv一样有界，像卡夫卡的订阅一样无界。不同的i/o读取方法是不同的。i/o方法的输出是一个pCollectionThere are pTransformations (这是我希望对数据运行的操作)，这些操作应用于p

浏览 5提问于2020-04-12得票数 2

1回答

基于google云存储的Spark结构化流媒体

apache-spark、apache-spark-sql、google-cloud-dataproc、spark-structured-streaming

我正在运行几个使用google云存储上的Avro数据的batch Spark管道。我需要更新一些管道，使其更实时，并且想知道spark structured是否可以以流的方式直接消费来自gcs的文件，即parkContext.readstream.from(...)可以应用于从外部源的存储桶下连续生成的Apache beam已经有像File.MatchAll().continuously()，Watch，watchnewFiles这样的东西，允许<em

浏览 1提问于2018-01-05得票数 2

1回答

问题

maven、apache-spark、hadoop-yarn、apache-beam、spark-submit

) at org.apache.beam.sdk.Pipeline.run) at org.apache.beam</

浏览 3提问于2017-12-04得票数 0

回答已采纳

1回答

Apache + Databricks笔记本-映射函数错误

databricks、apache-beam

我试图在DataBricks笔记本上使用Apache运行一个简单的管道，但是我无法创建任何自定义函数。下面是一个简单的例子：from apache_beam.options.pipeline_options import PipelineOptions(options=pipeline_options) as p: p | "

浏览 7提问于2022-08-16得票数 0

1回答

运行apache* beam go sdk示例时，没有运行id为xxxxxx的容器*

docker、apache-spark、go、sdk、apache-beam

我想在一个有一主两从的spark集群上运行apache beam go sdk提出的使用spark runner的成绩示例(Spark2.4.5版本)。然而，我得到了以下错误。我不认为主要问题是因为ssh和docker已经安装并运行。: java.lang.IllegalStateException:没有运行id为xxxxxxxxx的容器 at org.apache.beam.vendor.guav

浏览 105提问于2021-09-18得票数 1

1回答

如何用apache处理org.apache.spark.sql.Dataset？

apache-spark-sql、apache-beam

我想要处理来自org.apache.spark.sql.Dataset对象的数据，该对象是我用Apache从spark.sql(“query ")检索到的。现在，我使用的解决方案是将数据集转储到txt文件，然后使用beam进行处理。有没有什么方法可以让我直接把Dataset / JavaRDD用到电子束中(Ptransform)？我使用的是apache beam 2.9.0。

浏览 17提问于2019-02-12得票数 1

回答已采纳

1回答

数据流SparkPipelineRunner -有可用的例子吗？

apache-spark、google-cloud-platform、google-cloud-dataflow

有人有使用Cloudera SparkPipielineRunner来执行(在集群上)使用Dataflow编写的管道的工作示例吗？我在或的github repos中看不到任何东西。我们试图评估在星火集群上运行管道是否会比在GCP数据流服务上运行管道带来任何性能上的提高。

浏览 3提问于2015-10-06得票数 2

回答已采纳

1回答

Apache束-无法使用hadoop- file -system sdk从S3读取文本文件。

java、hadoop、amazon-s3、apache-beam、apache-beam-io

我正在尝试使用文件系统v2.0.0和Spark作为运行程序从AWS集群中读取S3。我可以在纱线日志中看到管道能够检测到S3中的文件，但是它无法读取文件。请看下面的日志。在org.apache.beam.runners.spark.io.SourceRDD$Bounded$ReaderToIteratorAdapter.tryProduceNext(SourceRDD.java(RDD. .iterator(RDD.scala:270)斯卡拉:306)<

浏览 2提问于2017-06-28得票数 1

1回答

如何从beam写入HDFS？

apache-beam、apache-beam-io

我正在尝试编写一个光束管道，它使用SparkRunner运行，从本地文件读取，并写入HDFS。下面是一个最小的例子：package com.mycompany.beam.hdfsIOIssue; import org.apache

浏览 1提问于2018-11-03得票数 1

2回答

带有火花流道的Apache字数示例在“未知的' runner‘指定的’SparkRunner‘中失败

apache-spark、apache-beam

我试图通过提供以下命令来完成Apache波束字数计数示例的星火提交。spark-submit --class org.apache.beam.examples.WordCount word-count-beam-0.1.jar --inputFile=pom.xml -=SparkRunner 线程"main“java.lang.IllegalArgumentException中的异常:未知的'runner‘指定的'SparkRunner'，支持

浏览 3提问于2017-07-06得票数 1

1回答

在Apache上使用spark运行时配置时Scala版本问题

scala、apache-spark、apache-hop

我在kubernetes (v3.1.2)上运行了spark集群，它附带了v2.12.10的scala jars2022/01/31 11:33:56 - General - ERROR: org.apache.hop.core.exception.HopException:(SparkConf.scala:

浏览 10提问于2022-01-31得票数 0

1回答

(Apache光束)无法增加执行器内存-尽管使用了多个设置，但内存仍固定在1024M

java、python、apache-spark、apache-beam

我在Spark上运行一个apache beam工作负载。我用32 of的内存初始化了工作进程(从进程使用-c 2 -m 32G运行)。管道选项如下： --runner PortableRunner \ --environment_type=PROCESS\ --environment_config='{"command": &qu

浏览 32提问于2020-10-23得票数 2

1回答

如何为Apache* SpecificRecordBase的所有子类选择一个编码器？*

apache-spark、avro、apache-beam、serializable、encoder

我的失败解决方案AvroCoder.of(SpecificRecordBase.class)：不工作Caused by: avro.shaded.com.google.common.util.concurrent.UncheckedExecutionExceptionLocalCache.java:2228)SerializableCoder.of(SpecificRecordBase.class)：混淆异常抛出这应该是一个很有希望的选择，但是当我运

浏览 14提问于2020-03-02得票数 0

回答已采纳

1回答

在内存处理中使用Apache梁

go、apache-beam

我正在运行自己的GRPC服务器，收集来自各种数据源的事件。服务器是以Go开发的，所有事件源都以预定义的格式将事件作为protobuf消息发送。我想要做的是在内存中处理所有这些事件。我翻阅了Apache的文档，却找不到一个能做我想做的事情的样本。我不打算使用Kafka，Flink或任何其他流媒体平台，只需要处理内存中的消息并输出结果。

浏览 1提问于2020-08-11得票数 0

回答已采纳

点击加载更多