如何在Apache Beam Java中将TestStreams与MultiOutput类一起使用

在Apache Beam Java中，可以通过将TestStreams与MultiOutput类一起使用来进行测试和验证数据流处理的功能。

首先，让我们了解一下Apache Beam和TestStreams的概念。

Apache Beam是一个用于大规模数据处理的开源框架，它提供了一种统一的编程模型，可以在不同的分布式处理引擎上运行，如Apache Flink、Apache Spark和Google Cloud Dataflow等。它允许开发人员编写一次代码，然后在不同的处理引擎上运行，从而实现跨多个平台的数据处理。

TestStreams是Apache Beam提供的一个测试工具，用于编写单元测试和集成测试。它提供了一组用于模拟和验证数据流的方法，以确保数据处理逻辑的正确性。

接下来，我们将介绍如何在Apache Beam Java中将TestStreams与MultiOutput类一起使用。

MultiOutput类是Apache Beam中的一个概念，它允许将数据流分发到多个输出。通常情况下，一个数据流处理任务可能需要将数据分发到不同的目的地，例如不同的文件、数据库表或消息队列等。MultiOutput类提供了一种方便的方式来实现这种数据流的分发。

要在Apache Beam Java中将TestStreams与MultiOutput类一起使用，可以按照以下步骤进行操作：

首先，导入必要的依赖项。在Maven项目中，可以在pom.xml文件中添加Apache Beam和TestStreams的依赖项。

<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-sdks-java-core</artifactId>
    <version>2.33.0</version>
</dependency>
<dependency>
    <groupId>org.apache.beam</groupId>
    <artifactId>beam-sdks-java-test-streams</artifactId>
    <version>2.33.0</version>
    <scope>test</scope>
</dependency>

创建一个测试类，并导入必要的类和方法。

import org.apache.beam.sdk.testing.TestStream;
import org.apache.beam.sdk.testing.TestStream.Event;
import org.apache.beam.sdk.testing.TestStream.Builder;
import org.apache.beam.sdk.testing.TestStream.ElementEvent;
import org.apache.beam.sdk.testing.TestStream.Event.Type;
import org.apache.beam.sdk.testing.TestStream.ProcessingTimeEvent;
import org.apache.beam.sdk.testing.TestStream.WatermarkEvent;
import org.apache.beam.sdk.transforms.DoFn;
import org.apache.beam.sdk.transforms.ParDo;
import org.apache.beam.sdk.values.PCollection;
import org.apache.beam.sdk.values.TupleTag;
import org.apache.beam.sdk.values.TupleTagList;

import static org.apache.beam.sdk.testing.PAssert.that;
import static org.apache.beam.sdk.testing.TestStream.create;

编写测试方法，并使用TestStream和MultiOutput类来模拟和验证数据流。

@Test
public void testMultiOutput() {
    // 创建一个TestStream对象
    TestStream<String> testStream = create(StringUtf8Coder.of())
            .addElements("element1", "element2", "element3")
            .advanceWatermarkToInfinity();

    // 创建一个MultiOutput对象
    TupleTag<String> mainOutputTag = new TupleTag<>();
    TupleTag<String> additionalOutputTag = new TupleTag<>();
    MultiOutput<String> multiOutput = MultiOutput.withTags(mainOutputTag, additionalOutputTag);

    // 创建一个PCollection对象，并应用数据处理逻辑
    PCollection<String> output = pipeline.apply(testStream)
            .apply(ParDo.of(new MyDoFn()).withOutputTags(mainOutputTag, TupleTagList.of(additionalOutputTag)));

    // 验证输出结果
    that(output).containsInAnyOrder("element1", "element2", "element3");

    // 获取额外的输出结果
    PCollection<String> additionalOutput = output.get(additionalOutputTag);
    that(additionalOutput).empty();
}

// 自定义的DoFn类，用于处理数据流
public static class MyDoFn extends DoFn<String, String> {
    @ProcessElement
    public void processElement(ProcessContext c) {
        String element = c.element();
        // 处理数据流的逻辑
        c.output(element);
    }
}

在上述代码中，我们首先创建了一个TestStream对象，并使用addElements方法添加了一些元素。然后，我们创建了一个MultiOutput对象，并定义了两个输出标签。接下来，我们创建了一个PCollection对象，并应用了自定义的DoFn类来处理数据流。最后，我们使用PAssert来验证输出结果，并获取额外的输出结果进行验证。

这样，我们就可以使用TestStreams和MultiOutput类来测试和验证Apache Beam Java中的数据流处理逻辑了。

推荐的腾讯云相关产品：腾讯云数据开发套件（https://cloud.tencent.com/product/dts）

我得到了这个错误严重通道ManagedChannelImpl{logId=1，target=bigquerystorage.googleapis.com:443}没有正确关闭

google-cloud-platform、google-bigquery、apache-beam、apache-beam-io、apache-beam-internals

我创建了一个Beam脚本，用于从kafka获取数据，并使用Apache将其推送到BigQuery。目前，我使用的是java直接运行程序，只需要将数据推送到bigquery。这是我的密码：- package com.knoldus.section8; import com.google.api.services.bigquery.model.TableFieldSchema; import com.google.api.services.bigquery.model.TableRow; import com.google.api.services.bigquery.model.TableSc

浏览 2提问于2021-05-19得票数 2

4回答

Apache Beam：“无法为hdfs找到注册员”

maven、hadoop、hdfs、apache-beam

我想要运行一个管道与火花运行，数据存储在远程机器上。以下命令已用于提交作业： ./spark-submit --class org.apache.beam.examples.WordCount --master spark://192.168.1.214:6066 --deploy-mode cluster --supervise --executor-memory 2G --total-executor-cores 4 hdfs://192.168.1.214:9000/input/word-count-ck-0.1.jar --runner=SparkRunner

浏览 8提问于2017-06-12得票数 1

回答已采纳

1回答

Apache Beam似乎没有运行测试

java、apache-beam

我在我的代码库上实现了一组测试，这些测试似乎没有执行，也没有通过。因此，Jacoco代码覆盖率不会报告这些测试的任何执行情况。这就是这个问题的一个例子。 package com.striiv.dataflow; import org.apache.beam.sdk.coders.AvroCoder; import org.apache.beam.sdk.testing.PAssert; import org.apache.beam.sdk.testing.TestPipeline; import org.apache.beam.sdk.transforms.Create; import o

浏览 12提问于2020-10-31得票数 0

回答已采纳

1回答

如何在类路径中添加Apache Beam direct runner？

java、maven、apache-beam

我正在尝试Apache光束的MinimalWordCount示例项目的一个简单衍生项目。我开始了一个新的项目，而不是下载他们的原型。我遇到了一个明显常见的问题，这个问题并不是通过通用的解决方案来解决的： Exception in thread "main" java.lang.IllegalArgumentException: No Runner was specified and the DirectRunner was not found on the classpath. Specify a runner by either: Explicitly specif

浏览 27提问于2021-10-29得票数 0

回答已采纳

1回答

接下来要采取的步骤是apache波束丢失类吗？

java、apache-beam

当我试图使用apache波束时，我收到了这个错误。 org/apache/beam/runners/dataflow/util/DoFnInfo :java.lang.NoClassDefFoundError 当试图逃跑时 PCollection<ReadableFile> activities = p.apply( "ReadBatchFiles", FileIO.match().filepattern("<google cloud storage bucket taken out>")) .apply(FileIO.rea

浏览 3提问于2017-12-09得票数 0

回答已采纳

1回答

在Google中将云修复集成到云数据流中

maven、google-cloud-platform、google-cloud-firestore、google-cloud-dataflow

我正在一个云数据流中集成一个“应用”，它为cloud编写了一条json消息。问题是apache库(以及依赖项)和Firestore库不兼容。下面，我将向您展示我的pom、数据流代码和maven编译错误的摘录：数据流工作非常好，可以从pub/sub或云存储中读取数据，并将其写入pub/sub。但是，在我添加了防火墙依赖项的那一刻，我在编译时得到了一个依赖错误。我认为grpc是个问题。我已经注意到了最后一个apache版本，但是我得到了同样的错误。 pom <properties> <beam.version>2.8.0</beam.vers

浏览 0提问于2019-05-09得票数 1

1回答

使用BigQuery作为接收器多次执行模板

google-bigquery、google-cloud-dataflow、apache-beam

对于BigQuery批处理管道，模板只能执行一次，因为BigQuery作业ID是在创建模板时设置的。我正在使用Apache v2.0.0，无法多次执行该模板。我们可以使用beam at head来实现这一限制吗？如果是，我想知道的第一件事是什么是波束在头部？为了支持多次模板执行，我的Apache Beam程序需要做哪些确切的更改？ Maven依赖： <dependency> <groupId>org.apache.beam</groupId> <artifactId>beam-sdks-java-io-jms</artifactId

浏览 13提问于2017-08-09得票数 0

1回答

从数据流中的getAttribute到PubsubMessage

java、google-cloud-dataflow、apache-beam、google-cloud-pubsub

我在试图访问公共消息的属性时遇到了问题。错误消息如下： Coder of type class org.apache.beam.sdk.coders.SerializableCoder has a #structuralValue method which does not return true when the encoding of the elements is equal. stackTrace: [org.apache.beam.sdk.io.gcp.pubsub.PubsubMessage.getAttribute(PubsubMessage.java:56), trans

浏览 1提问于2019-12-06得票数 0

回答已采纳

2回答

数据流单元测试

java、unit-testing、google-cloud-dataflow、apache-beam

我正试着为我的管道建立一个单元测试。该管道从pubsub读取，执行转换，并将结果再次写入pubsub。为了进一步简化单元测试，直到它生效为止，单元测试将只接收一个字符串作为输入，如果输出是某个字符串，则进行测试。代码如下所示： @RunWith(JUnit4.class) public class TesterPipeline { // Our static output data, which is the expected data that the final PCollection must match. static final String[] COU

浏览 0提问于2019-12-16得票数 1

回答已采纳

1回答

在Apache光束中将元件发射到多个输出PCollections的故障

java、apache-beam、capture、incompatibletypeerror

在Apache中使用MultiOutputReciver到PCollectionTuple和TupleTag有麻烦。 logSchema是我的AvroGenerated类，用于处理传入日志。日期、类型、消息等。我想要做的是将不同类型的日志(错误、警告、通知)存储在不同的PCollections中。我得到了这个错误java: incompatible types: logSchema cannot be converted to capture#1 of ? 对于processElement内部的每个processElement在branching extends DoFn<logSch

浏览 5提问于2021-11-18得票数 0

1回答

在哪里可以找到类: Apache实现的AutoValue_DynamicJdbcIO_DynamicRead？

java、scala、maven、google-cloud-dataflow、apache-beam

我试图用GCP数据流来实现Apache，使用谷歌提供的这个。在可用的模板中，我使用的是JdbcToBigquery，这是我的用法。这些是我在pom.xml中的依赖项 <project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0

浏览 5提问于2021-03-22得票数 0

3回答

FlatMapElement Kotlin梁非系列化灯

maven、kotlin、java-8、apache-beam

我有一个现有的带有Java 8、ApacheBam2.27.0、Maven和Dagger 2的Apache项目。我在Kotlin : Kotlin 8中迁移了这个项目，版本为1.5.0。我使用了1.5.0版本的Kotlin，因为1.4.3与Beam和Maven插件有问题(无法阅读类: VirtualFile：) 除了使用带有Typedescriptor和lambda表达式的本机MapElement或FlatMapElement之外，一切似乎都很好。我的pom.xml文件的一部分 <properties> <beam.version>2.27.0&l

浏览 4提问于2021-04-30得票数 0

回答已采纳

1回答

Apache依赖关系错误

java、maven、google-cloud-dataflow、apache-beam、google-cloud-pubsub

我正在尝试使用来自Java的Apache作为数据管道。我编写了一个简单的类，它来自Google并深入到，但我无法让它为我的生命构建。我使用Maven构建并添加了我能找到的每一个束包，但是我仍然会得到“类文件未找到”错误。具体地说： [ERROR] /X:/Work/pipeline/backup-pipeline/src/main/java/PassthroughPipeline.java:[28,16] cannot access org.apache.beam.sdk.options.GcpOptions class file for org.apache.beam.sdk.opti

浏览 0提问于2018-02-12得票数 2

回答已采纳

1回答

无法从本地数据流管道读取gs:// dirs

google-cloud-dataflow、apache-beam

我刚刚在Java中找到了我的第一条管道，下面会弹出以下错误。 Exception in thread "main" java.lang.IllegalArgumentException: No filesystem found for scheme gs 有下面的代码。 pipeline.apply("ReadLines", TextIO.read().from(options.getInputFile())) .apply(MapElements.via(new SampleFn())) .app

浏览 12提问于2021-02-08得票数 0

2回答

尝试启动ZetaSQL规划器时出错

java、google-cloud-platform、apache-beam、beam-sql

我正在尝试使用ZetaSQL解析的SQL转换来运行Beam管道。我从设置选项开始 options.setPlannerName("org.apache.beam.sdk.extensions.sql.zetasql.ZetaSQLQueryPlanner"); 当我尝试使用任何给定的查询创建SqlTransform时，我会得到 java.util.ServiceConfigurationError: org.apache.beam.repackaged.sql.com.google.zetasql.ClientChannelProvider: Provider org.apac

浏览 29提问于2019-12-04得票数 0

2回答

使用BigQuery从数据流模板读取ValueProvider时出现异常

java、google-cloud-platform、google-bigquery、google-cloud-dataflow、apache-beam

我正在尝试创建一个从BigQuery读取的模板，不幸的是，我在构建模板时遇到了异常。在执行Java类时发生异常。如果表是动态设置的，则无法调用验证。读取时，在从批处理模板读取BigQuery时似乎有一个特殊的函数可调用： .withTemplateCompatibility()备注：如果要运行从BigQuery读取的批处理管道，则必须对所有BigQuery读取使用BigQuery。下面是我的代码片段： PCollection<Discount> discountFromBigQuery = p.apply("Parse Discounts from B

浏览 0提问于2018-11-28得票数 3

回答已采纳

1回答

Apache /flink runner未在EMR中执行(从GCS访问文件)

apache-spark、hadoop、apache-beam、apache-spark-2.0、apache-beam-io

我有一个apache beam管道来索引一些数据到elasticsearch。我尝试使用spark或Flink runner在AWS EMR中运行作业。当我试图在本地设置的独立spark上运行作业时，管道可以处理本地磁盘中的源文件，但是，当我从GCS读取文件时，它不能工作。当我在EMR集群中运行时，这是相同的。我在Hadoop core-site.xml上设置为EMR配置的配置 { "Classification": "core-site", "Properties": { "fs.gs.impl":

浏览 6提问于2020-08-05得票数 0

1回答

使用Kafka运行Apache梁时的依赖错误

maven、google-cloud-dataflow、apache-beam

当我使用Direct运行我的Apache代码时，我会得到以下错误： Caused by: java.lang.NoSuchMethodError: org.slf4j.helpers.MessageFormatter.arrayFormat(Ljava/lang/String;[Ljava/lang/Object;)Lorg/slf4j/helpers/FormattingTuple; at org.apache.kafka.common.utils.LogContext$LocationAwareKafkaLogger.writeLog (LogContext.java:428)

浏览 3提问于2020-03-16得票数 2

回答已采纳

1回答

数据流和Bigtable依赖冲突

java、google-cloud-dataflow、apache-beam、bigtable

我得到的错误是： Error: A JNI error has occurred, please check your installation and try again Exception in thread "main" java.lang.NoClassDefFoundError: org/apache/beam/sdk/transforms/DoFn at java.lang.Class.getDeclaredMethods0(Native Method) at java.lang.Class.privateGetDeclaredMethods(Cl

浏览 3提问于2019-07-03得票数 0

1回答

利用梁和DataFlow将数据从Cloud移动到弹性搜索

google-cloud-dataflow、google-cloud-sql、apache-beam

我刚开始使用beam和Google数据流，我创建了一个简单的类，通过在下面编写这个类将数据从云sql迁移到弹性搜索(使用批处理)： package com.abc; class DataFlowTest{ public static void main(String[] args) { DataflowPipelineOptions options = PipelineOptionsFactory.as(DataflowPipelineOptions.class); options.setProject("staging"); optio

浏览 1提问于2020-02-11得票数 1

回答已采纳

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Apache Beam Java中将TestStreams与MultiOutput类一起使用

相关·内容

我得到了这个错误严重通道ManagedChannelImpl{logId=1，target=bigquerystorage.googleapis.com:443}没有正确关闭

Apache Beam：“无法为hdfs找到注册员”

Apache Beam似乎没有运行测试

如何在类路径中添加Apache Beam direct runner？

接下来要采取的步骤是apache波束丢失类吗？

在Google中将云修复集成到云数据流中

使用BigQuery作为接收器多次执行模板

从数据流中的getAttribute到PubsubMessage

数据流单元测试

在Apache光束中将元件发射到多个输出PCollections的故障

在哪里可以找到类: Apache实现的AutoValue_DynamicJdbcIO_DynamicRead？

FlatMapElement Kotlin梁非系列化灯

Apache依赖关系错误

无法从本地数据流管道读取gs:// dirs

尝试启动ZetaSQL规划器时出错

使用BigQuery从数据流模板读取ValueProvider时出现异常

Apache /flink runner未在EMR中执行(从GCS访问文件)

使用Kafka运行Apache梁时的依赖错误

数据流和Bigtable依赖冲突

利用梁和DataFlow将数据从Cloud移动到弹性搜索

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐