如何在Apache光束中设置PCollection<List<String>>的编码器？

在Apache Beam中设置PCollection<List<String>>的编码器可以通过以下步骤完成：

首先，需要导入相关的依赖项，包括Apache Beam和相关的编码器库。
创建一个PTransform来处理PCollection<List<String>>。可以使用ParDo或Map等转换操作。
在PTransform中，使用.withCoder()方法来设置编码器。编码器用于将数据序列化和反序列化，以便在分布式环境中进行数据传输和处理。
选择适当的编码器来处理List<String>类型的数据。Beam提供了一些内置的编码器，如StringUtf8Coder和ListCoder。
在设置编码器时，可以使用.withCoder()方法的参数来指定编码器。例如，使用StringUtf8Coder.of()来设置String类型的编码器，使用ListCoder.of(StringUtf8Coder.of())来设置List<String>类型的编码器。
最后，将设置好编码器的PTransform应用于PCollection<List<String>>，并执行相应的操作。

以下是一个示例代码片段，展示了如何在Apache Beam中设置PCollection<List<String>>的编码器：

import org.apache.beam.sdk.Pipeline;
import org.apache.beam.sdk.coders.ListCoder;
import org.apache.beam.sdk.coders.StringUtf8Coder;
import org.apache.beam.sdk.transforms.DoFn;
import org.apache.beam.sdk.transforms.ParDo;
import org.apache.beam.sdk.values.PCollection;

public class BeamExample {
  public static void main(String[] args) {
    Pipeline pipeline = Pipeline.create();

    PCollection<List<String>> input = ... // 从某个数据源创建PCollection<List<String>>

    PCollection<List<String>> output = input.apply(
        ParDo.of(new DoFn<List<String>, List<String>>() {
          @ProcessElement
          public void processElement(ProcessContext c) {
            // 处理元素的逻辑
          }
        }).withCoder(ListCoder.of(StringUtf8Coder.of())));

    pipeline.run();
  }
}

在上述示例中，我们使用了ListCoder.of(StringUtf8Coder.of())来设置PCollection<List<String>>的编码器。这将使用StringUtf8Coder作为List<String>的编码器。

请注意，这只是一个示例，实际应用中需要根据具体的业务需求和数据类型选择适当的编码器。

对于腾讯云相关产品和产品介绍链接地址，由于要求不能提及具体的云计算品牌商，建议参考腾讯云官方文档或咨询腾讯云的技术支持团队，以获取与Apache Beam集成的相关产品和服务信息。

如何在Apache光束中设置PCollection<List<String>>的编码器？

、、、

我尝试过的所以我试着用几种不同的方式添加一个编码器： .setCoder(SerializableCoder.of(List<String>.class)) 结果是“不能从参数化类型中选择”。但它看起来很有希望，所以我尝试了一下： .setCoder(ListCoder.of(SerializableCoder.of(String.class))) 但这让我回到了最初的错误，即没有手动设置编码器问题是如何满足为

浏览 48提问于2021-10-31得票数 2

回答已采纳

2回答

java.lang.IllegalStateException:无法返回数据流2.X中的默认编码器

、、

我在dataflow 2.1SDK中有一个简单的管道。它从pubsub读取数据，然后向其应用DoFn。PCollection<MyClass> e = streamData.apply("ToE", ParDo.of(new MyDoFNClass())); java.lang.IllegalStateException:无法返回ToEvents/ParMultiDo(MyDoFNClass).out0 PCollection的默认编码器</em

浏览 2提问于2017-12-08得票数 7

回答已采纳

2回答

如何在Apache中为我的AutoValue使用PCollection数据类型？

、、

我想在我的AutoValue中使用我的PCollection数据类作为对象类型，但是我在使用自动编码器时遇到了困难：public abstract class MyPersonClass{ public abstract Integer getAge(); public static MyPersonClass create(<

浏览 8提问于2020-06-24得票数 2

回答已采纳

1回答

在使用Kafka和Apache光束的上下文中，Coder和Kafka反序列化程序之间的区别是什么？

、

我是新来的阿帕奇光束我正在尝试按照文档使用KafKaIO从Kafka中读取数据。在创建PCollection的过程中，withValueDeserializerAndCoder方法允许您设置编码器和反序列化程序。我不明白为什么我们可能需要反序列化程序和编码器。

浏览 22提问于2019-10-16得票数 0

回答已采纳

2回答

如何在阿帕奇光束/谷歌数据流中使用ParseJsons？

、、、、

我正在努力理解如何在我的Apache Beam管道中使用将字符串PCollection解析为对象PCollection。我的理解是，我需要首先定义一个与json结构匹配的类，然后使用ParseJsons将json字符串映射到该类的对象。然而，在我看来，ParseJsons文档看起来很神秘。我不确定如何使用Apache光束实际执行转换。谁能给我一个简单明了的例子，告诉我如何解析行分隔的</e

浏览 9提问于2017-12-16得票数 2

1回答

Apache :带有多个自定义数据类型键的群密钥

我正在apache中创建一个管道，在这里我需要用两个键按键群。groupbykey中传递类型类，如下所示。提供编码器:无法为CoderRegistry提供编码器使用注册的CoderProvider生成编码器失败。详细故障请参见抑制的异常。使用生产PTransform的默认输出编码器失败: PTransform.getOutputCoder调用。) at org.apache.beam.sdk.val

浏览 0提问于2018-02-08得票数 0

1回答

Beam SQL - SqlValidatorException:找不到对象'PCOLLECTION‘

、

我正在做一些关于光束SQL的实验。我从转换SampleSource中获得一个PCollection<Row>，并将其输出传递给一个SqlTransform。String sql1 = "select c1, c2, c3 from PCOLLECTION where c1 > 1";p.run().waitUntilFi

浏览 7提问于2019-07-02得票数 0

1回答

Apache梁跳过管道步骤

、、

我正在使用Apache建立一个由两个主要步骤组成的管道： myPCollection = (org.apache.beam.sdk.values.PCollectionParDo.of(new MyTransformClassName.MyTransformFn())); .apply("Load BigQuery data f

浏览 0提问于2018-12-07得票数 1

回答已采纳

1回答

如何在PCollection<KV<String，B>>中使用自定义编码器？

我试图使用自定义Coder，以便进行一些转换，但我很难让PCollection使用我的自定义编码器，我怀疑(？)这是因为它封装在一个KV中。PCollection<String> input = ...PCollection<KV<String, MyClass>> t = input.apply(new ToKVTransform()); 当我试图运行这样的程序时，我会得到一个java.lang.

浏览 2提问于2015-05-08得票数 2

回答已采纳

1回答

如何在google /数据流中为KV<Boolean、Map<String、Object>>指定编码器

、

我有一个在json文件中描述的表，在此基础上，我希望稍后将集合创建为sideInput。/Map.out PCollection的默认编码器。纠正以下原因之一:没有手动指定Coder；您可以使用.setCoder()这样做。从CoderRegistry推断编码器失败:无法为org.apache.beam.sdk.values.KV>提供默认编码器。纠正以下原因之一:使用已注册的CoderFactory生成编码器

浏览 1提问于2017-06-19得票数 2

1回答

不能将SerializableCoder转换为BeamRecordCoder

、、

我使用beam从包含json对象的文件中准备了一个Pcollection<BeamRecord>对象。最后，我尝试在返回的BeamSql上使用PCollection<BeamRecord>，但是我得到了异常，不能将SerializableCoder转换为BeamRecordCoder。<String> fields_list= new ArrayList<String>(Arrays.asList(&qu

浏览 1提问于2018-02-26得票数 1

回答已采纳

4回答

在google-cloud-dataflow中使用文件模式匹配时如何获取文件名

如何在使用文件模式匹配时获取文件名。

浏览 2提问于2015-05-01得票数 5

1回答

使用Google /sub更新单例HashMap

、、、、

此PCollection是提供IoT设备记录的数据的数据流。来自IoT设备的数据流使用Apache管道，该管道作为Google运行，使用Google /sub。当我处理PCollection (设备数据)时，我将Google /sub链接到HashMap中的相关查找条目。我需要更新HashMap，基于第二个pub/sub，它推动了对其数据的更改。PCollection ->包含管

浏览 0提问于2018-11-21得票数 16

1回答

将Apache的PCollection对象收集到驱动程序内存中

、

是否可以将Apache中的PCollection中的对象收集到驱动程序的内存中？类似于：我在这里借用了Apache的方法，但我想知

浏览 0提问于2018-11-06得票数 1

回答已采纳

1回答

如何从beam写入HDFS？

、

我正在尝试编写一个光束管道，它使用SparkRunner运行，从本地文件读取，并写入HDFS。下面是一个最小的例子：package com.mycompany.beam.hdfsIOIssue; String getOutputFile(); }

浏览 1提问于2018-11-03得票数 1

1回答

Apache BatchMode对象模型问题

、、、

我有一个用例，我想使用Apache Beam和Spark runner以批处理模式从Kafka读取数据。但我发现，在批处理模式中，数据首先从每个分区读取，放入内存，然后传递给下一个操作(map、filter等)。我在每个分区中都有大量数据，在批处理模式下读取这些数据时，我得到了OOM错误。我认为之所以会发生这种情况，是因为在批处理模式下，每个分区中的所有记录都被分配给GlobalWindow (ProcessContext的一部分)，只有所有数据才会被读取。这可能是因为OOM问题。如果这是原因，那么我如

浏览 17提问于2019-12-11得票数 0

1回答

如何在有限的数据上分批运行apache束？

、、、、

我正在尝试理解apache是如何工作的，我不太确定我是否这样做了。所以，我希望有人告诉我我的理解是否正确： Beam是大数据框架的抽象层，如spark、hadoop、google等。这里的批处理将是窗口中的所有数据点，直到触发器被击中为止。然而，对于有界数据集，所有数据集都加载在RAM中(？)我f是的，我如何使光束成批工作？)。i/o方法的输出是一个pCollectionThere are pTransfo

浏览 5提问于2020-04-12得票数 2

2回答

波束json解析

、、

我正在尝试读取和解析的JSON文件在Apache光束代码。PipelineOptionsFactory.create(); PCollection<String> lines = p.apply("ReadMyFile", TextIO.read().from("/Users/xyz&#x

浏览 1提问于2018-05-31得票数 8

1回答

Apache光束/ Google Cloud Dataflow大查询阅读器在第二次运行时失败

、、

我们有一个使用Apache光束的数据流构建，并部署在GCP数据流基础设施中。数据流实例第一次完全运行，并按预期创建分区表，但当它第二次运行时，它将清除数据集中的结果，而不是替换为特定分区中的新数据集。当使用本地设置中的Direct runner运行作业时，它工作得很好。table_name) Table: ",

浏览 10提问于2021-01-28得票数 0

回答已采纳

1回答

如何为Apache* SpecificRecordBase的所有子类选择一个编码器？*

、、、、

SpecificRecordBase {}Pipeline pipeline = Pipeline.createGiveShowerToPetDoFn)) .apply(kafkaWriterTransformer);我的问题是如何在我的</e

浏览 14提问于2020-03-02得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Apache光束中设置PCollection<List<String>>的编码器？

相关·内容

如何在Apache光束中设置PCollection<List<String>>的编码器？

java.lang.IllegalStateException:无法返回数据流2.X中的默认编码器

如何在Apache中为我的AutoValue使用PCollection数据类型？

在使用Kafka和Apache光束的上下文中，Coder和Kafka反序列化程序之间的区别是什么？

如何在阿帕奇光束/谷歌数据流中使用ParseJsons？

Apache :带有多个自定义数据类型键的群密钥

Beam SQL - SqlValidatorException:找不到对象'PCOLLECTION‘

Apache梁跳过管道步骤

如何在PCollection<KV<String，B>>中使用自定义编码器？

如何在google /数据流中为KV<Boolean、Map<String、Object>>指定编码器

不能将SerializableCoder转换为BeamRecordCoder

在google-cloud-dataflow中使用文件模式匹配时如何获取文件名

使用Google /sub更新单例HashMap

将Apache的PCollection对象收集到驱动程序内存中

如何从beam写入HDFS？

Apache BatchMode对象模型问题

如何在有限的数据上分批运行apache束？

波束json解析

Apache光束/ Google Cloud Dataflow大查询阅读器在第二次运行时失败

如何为Apache* SpecificRecordBase的所有子类选择一个编码器？*

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐