使用Apache beam的ZetaSQL示例_使用JdbcIO的Apache Beam管道_使用Apache Beam (并行)查找组件？ - 腾讯云开发者社区

、、、、

我有一个用例，其中我们需要创建包含抽象数据类型的字段的PCollection。在这种情况下如何定义模式和编码器。此数据是从某些数据源(local/S3等)中存在的json文件中提取的。对于ex： PCollection<Customer>, where Customer is defined as Customer { Gender gender; } interface Gender { } Female implmements Gender { } 在流水线中，对于客户将模式设置为：

浏览 0提问于2021-05-12得票数 1

1回答

GroupByKey的光束类型提示

、

使用GroupByKey的Hit problems，我相信可以追溯到一个类型问题。我已经研究了一段时间，并跟踪了一些堆栈跟踪，但我不清楚为什么下面的内容是错误的 @beam.typehints.with_output_types(beam.typehints.Tuple[long, float]) class MultiMap(beam.DoFn): def process(self, element): items = element.split(',') print items r = (long(items[0]), float

浏览 0提问于2018-06-30得票数 1

1回答

简单的蜂巢书写不起作用

、

试图使用Apache和Hive编写一个简单的POC： public static void main(String[] args) { PipelineOptions options = PipelineOptionsFactory .fromArgs(args) .withValidation() .as(PVAOptions.class); Pipeline p = Pipeline.create(options); p .apply(TextIO.read().from(&#

浏览 0提问于2018-07-20得票数 0

回答已采纳

1回答

从BigQuery函数中写入ParDo

、、

我想从一个beam.io.Write(beam.io.BigQuerySink(..))函数中调用一个ParDo操作，为PCollection中的每个键生成一个单独的BigQuery表(我正在使用python )。下面是两个类似的线程，不幸的是它们没有帮助： 1) 2) 当我执行以下代码时，第一个键的行被插入到BigQuery中，然后管道失败，出现下面的错误。非常感谢你对我做错了什么的建议，或者对如何修正它的任何建议。管道代码： rows = p | 'read_bq_table' >> beam.io.Read(beam.io.BigQuerySource(

浏览 3提问于2016-09-24得票数 4

回答已采纳

2回答

发出写入bigquery中多个表的数据流

、、

我使用来自的代码并将其改为： def getFullTableName(pn,tn): return "{0}:{1}".format(pn,tn) ... ( pipeline | "Read Data From Input Topic" >> beam.io.ReadFromPubSub(topic=data_topic) | "Get Table data from input row" >> beam.Map(lambda r : data_ingestion.getData(r

浏览 12提问于2022-01-05得票数 0

2回答

Beam TextIO写入NullPointerException，因为目标为null

、

我正在使用Apache，并且我已经定义了一个管道如下： val p = Pipeline.create(options) p.apply(Create.of("/tmp/dc/foo.txt")) .apply(FileLoader()) .apply(SaveLineToRedis()) .apply(AddToRedisIndex()) .apply(MatchTransform()) .apply(GroupByKey.create()) .apply(TextIO.write

浏览 0提问于2018-02-27得票数 2

回答已采纳

3回答

AttributeError：'function‘对象没有属性'tableId’。阿帕奇光束数据流流道

、、

我试图从Apache Beam设备WriteToBigQuery()中写入bigquery，但是当我为表提供一个读取“PTransform”字段的值的lambda函数时，我得到了一个错误。我在一个流作业中做了这件事，并且工作了，但由于某些原因，这在这个批处理作业中不起作用。我的管道选项： import apache_beam as beam from apache_beam.runners import DataflowRunner from apache_beam.options import pipeline_options from apache_beam.options.pipeli

浏览 0提问于2020-06-11得票数 0

1回答

如何从beam写入HDFS？

、

我正在尝试编写一个光束管道，它使用SparkRunner运行，从本地文件读取，并写入HDFS。下面是一个最小的例子： Options类- package com.mycompany.beam.hdfsIOIssue; import org.apache.beam.runners.spark.SparkPipelineOptions; import org.apache.beam.sdk.io.hdfs.HadoopFileSystemOptions; import org.apache.beam.sdk.options.Description; import org.apache.beam

浏览 1提问于2018-11-03得票数 1

1回答

如何将非模板梁作业转换为模板作业，并在GCP数据流流道上运行？

、、

通过使用以下命令，我能够在GCP数据流流道上直接运行非模板梁作业： java -jar <jar_name> --runner=DataFlowRunner --gcpTempLocation=gs://some/gcs/location --stagingLocation=gs://some/gcs/location/stage --tempLocation=gs://some/gcs/location/temp --region=<region_name> --project=<project_name> --subnetwork=<

浏览 10提问于2022-09-19得票数 1

2回答

使用Apache光束notebooks启动数据流作业时处理名称错误

、、、

当我在Google Cloud Platform的网站上运行the example notebook Dataflow_Word_count.ipynb时，我可以使用Apache Beam notebooks启动一个数据流作业，该作业成功完成。流水线的定义如下。 class ReadWordsFromText(beam.PTransform): def __init__(self, file_pattern): self._file_pattern = file_pattern def expand(self, pcoll):

浏览 23提问于2020-10-05得票数 0

回答已采纳

1回答

将JSON解析为数据流作业中的键值

、、

如何在apache beam中解析apache beam数据并存储在bigquery表中？例如: JSON数据 [{ "name":"stack"},{"id":"100"}]. 如何解析JSON数据，并转换为PCollection K，V，将存储在烧烤表？感谢你的帮助！！

浏览 0提问于2018-05-11得票数 0

1回答

从卡夫卡读取的Apache光束给出了CoderException: java.io.EOFException

、、

我已经实现了一个来自Kafka的光束管道读取，基于这里的文档：管道本身对于有界源工作得很好，并且我有测试用例，它可以从文件中读取数据而不会出现问题。从Kafka中读取代码非常简单，与示例基本相同： PCollection<String> input = p.apply(KafkaIO.<Long, String>read() .withBootstrapServers(KAFKA_BROKER) .w

浏览 1提问于2017-04-04得票数 3

1回答

apache波束作业单元测试

、、

我有一个非常简单的数据流工作，我想编写单元测试。遗憾的是，没有好的例子说明什么是最好的方法。这是代码 import logging from datetime import datetime from re import sub import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions from apache_beam.options.pipeline_options import GoogleCloudOptions from beam_nuggets.io im

浏览 5提问于2020-01-02得票数 2

1回答

Apache写入

、、

无法使用Apache Beam JavaSDK写入PubSub。我正在尝试使用beam从PubSub中读取数据，进行处理，然后将数据写入PubSub主题，但我无法找到如何写入PubSub的工作示例。是否有人可以帮助适当的转换，以写入PubSub主题。 .apply("Create pubsub messages", ParDo.of(new DoFn<String, PubsubMessage>() { @DoFn.ProcessElement public void processElement(ProcessContext c) throws

浏览 0提问于2017-11-14得票数 2

1回答

Apache读取csv文件和groupbykey

、、、、

我有一个csv文件，我知道如何使用pandas实现这一点，基本上将csv作为一个df ->组按字段‘aaa’、‘bbb’读取数据，然后构造一个新的'id‘。我的问题是如何在Apache Beam中实现相同的功能，我以前从未使用过它，我试图使用Beam读取这个csv文件和分组多个记录，但是我对熊猫使用的相同功能不支持Beam，下面是我的当前代码： import apache_beam as beam from apache_beam.dataframe.io import read_csv pipeline = beam.Pipeline() csv_lines = (pipe

浏览 2提问于2021-08-16得票数 0

回答已采纳

2回答

数据流作业失败，输出属性缺失错误

、

将输出参数作为参数传递时，数据流管道作业失败，缺少消息输出属性。错误： Exception in thread "main" java.lang.IllegalArgumentException: Class interface org.apache.beam.runners.dataflow.options.DataflowPipelineOptions missing a property named 'output'. at org.apache.beam.sdk.options.PipelineOptionsFactory.parseObjec

浏览 0提问于2018-05-10得票数 1

2回答

用TableRowJsonCoder将PubSub消息转换成TableRow

、、、、

我使用Dataflow 1.9 (JAVA )读取Pubsub消息和无缝流到BigQuery中，而不显式地设置TableRow中的每个列。下面是转换的代码片段。 PCollection<TableRow> payloadTableRow = pipeline .apply("Read",PubsubIO.Read.subscription(***MY_SUBSCRIPTION***) .withCoder(TableRowJsonCoder.of()));` 上面的代码工作得很好，我可以看到主题中的Pubsub消息被转换为PCollection<

浏览 3提问于2017-08-08得票数 2

3回答

datetime：[在运行'ChangeDataType DistrictAllocationAndListStore-ptransform-570']‘时未定义名称’NameError‘

、、、

我编写代码将CSV文件中的数据注入到谷歌的BigQuery中。我用阿帕奇光束做管道。这是管道代码： list_of_data = open_file() DistrictAllocationAndListStore_data = (p | 'CreateDictData from DistrictAllocationAndListStore File' >> beam.Create(list_of_data) | 'Renam

浏览 19提问于2021-08-03得票数 1

回答已采纳

2回答

抛出“缺少一个名为”output“的属性”

、

当使用数据流运行beam模型时，我得到了以下错误。 java.lang.IllegalArgumentException: Class interface org.apache.beam.sdk.options.PipelineOptions missing a property named 'output'. at org.apache.beam.sdk.options.PipelineOptionsFactory.parseObjects(PipelineOptionsFactory.java:1488) at org.apache.beam.sdk.options

浏览 1提问于2019-09-17得票数 0

1回答

使用BigQuery作为接收器多次执行模板

、、

对于BigQuery批处理管道，模板只能执行一次，因为BigQuery作业ID是在创建模板时设置的。我正在使用Apache v2.0.0，无法多次执行该模板。我们可以使用beam at head来实现这一限制吗？如果是，我想知道的第一件事是什么是波束在头部？为了支持多次模板执行，我的Apache Beam程序需要做哪些确切的更改？ Maven依赖： <dependency> <groupId>org.apache.beam</groupId> <artifactId>beam-sdks-java-io-jms</artifactId

浏览 13提问于2017-08-09得票数 0

1回答

不能将SerializableCoder转换为BeamRecordCoder

、、

我使用beam从包含json对象的文件中准备了一个Pcollection<BeamRecord>对象。下面的代码解析并将json行映射到ChatHistory对象，然后将映射的对象转换为BeamRecord。最后，我尝试在返回的BeamSql上使用PCollection<BeamRecord>，但是我得到了异常，不能将SerializableCoder转换为BeamRecordCoder。 PCollection<ChatHistory> json_objects = lines.apply(ParDo.of(new ExtractObjectsFn())

浏览 1提问于2018-02-26得票数 1

回答已采纳

1回答

Apache Beam无法识别脚本GCP中的全局函数

、、

我正在做一个在GCP上创建流处理预测引擎的项目。我主要是从这个回购学习。然而，当我尝试执行脚本blogposts/got_sentiment/4_streaming_pipeline/streaming_tweet.py时，我总是会出错。 NameError: name 'estimate' is not defined [while running 'generatedPtransform-129'] 我的函数如下所示 from __future__ import absolute_import import argparse import datetime

浏览 0提问于2020-01-19得票数 0

1回答

ApacheBeam数据流作业的TypeError：“无法对<TableReference>进行确定性编码，请提供类型提示”

、、、

我可以使用Direct Runner在本地运行我的流水线而没有问题，但是当我部署到Dataflow时，我得到了以下错误： "Error message from worker: generic::unknown: Traceback (most recent call last): File "apache_beam/runners/common.py", line 1233, in apache_beam.runners.common.DoFnRunner.process File "apache_beam/runners/common.py"

浏览 38提问于2021-09-13得票数 0

回答已采纳

1回答

使用BigQuery类从表中读取SchemaAndRecord数字数据类型

、、、、

在开发代码时，我使用下面的代码片段从BigQuery读取表数据。 PCollection<ReasonCode> gpseEftReasonCodes = input. apply("Reading xxyyzz", BigQueryIO.read(new ReadTable<ReasonCode>(ReasonCode.class)) .withoutValid

浏览 1提问于2019-05-23得票数 1

回答已采纳

1回答

从大查询读取Apache波束管道中的浮点转换为字符串

、、

如何在从Big Query读取apache beam管道中将from类型转换为字符串？我正在编写一段代码，以便从GCP中的一个名为的列中读取BigQuery表，然后从BigQuery表中查找字符串中的正则表达式。然而，我似乎在我的管道中遇到了一个TypeERROR。看来我有一些类型为float的字段(即“NaN”值)： Traceback (most recent call last): File "bla.py", line 147, in <module> | beam.Map(print)) File "/Library/Framew

浏览 0提问于2021-02-02得票数 1

1回答

对apache_beam.io.gcp.bigquery.ReadFromBigQuery的动态查询

、、

我需要在Apache管道中运行一个对BigQuery的动态查询。应该根据消息中的值在运行时对查询进行评估。即select * from mytable where mycolumn = << dynamic value >> 我似乎无法让Apache连接器使用动态查询。理想情况下，管道应该是这样的： from apache_beam import Create, Pipeline from apache_beam.io.gcp.bigquery import ReadFromBigQuery ... with Pipeline(argv=pipeline_args

浏览 3提问于2022-04-25得票数 0

1回答

在Dataflow上运行Apache Beam Python时出现奇怪的酸洗错误

、、

我们正在运行一个相当简单的作业，它读取JSON，进行一些处理并输出JSON。由于某些原因，这总是会失败，并出现一个非常奇怪的“酸洗”错误： PicklingError: Can't pickle <type 'generator'>: attribute lookup __builtin__.generator failed [while running 'map to user_activity'] 它在处理第一行数据时几乎立即失败。上一阶段发出(String，[])的元组。当'map to user_activity‘阶段运行时，

浏览 1提问于2017-12-02得票数 0

2回答

如何解决将多个元素作为单一视图访问的PCollection

、、

光束作业的流水线给出了以下异常 java.lang.RuntimeException: java.lang.RuntimeException: Exception while fetching side input: org.apache.beam.runners.dataflow.worker.GroupAlsoByWindowsParDoFn$1.output(GroupAlsoByWindowsParDoFn.java:184) org.apache.beam.runners.dataflow.worker.GroupAlsoByWindowFnRunn

浏览 7提问于2019-11-22得票数 0

1回答

从Dataflow上传到MS使用DirectRunner运行良好，但不使用DataflowRunner (使用pyodbc / msodbcsql18)

、、、

我们正在尝试使用Dataflow将数据从BigQuery上传到Microsoft服务器。我们使用我安装了pyodbc和msodbcsql18的Dataflow flex环境。当在交互式会话中使用DirectRunner在对接器容器中运行我们的数据流脚本时，我们没有问题:读取BigQuery、转换数据并最终上传到server。但是，当在交互式会话中使用DataflowRunner运行相同的脚本时，我们会得到以下错误： Traceback (most recent call last): File "/usr/local/lib/python3.7/site-packages/ap

浏览 8提问于2022-09-27得票数 0

回答已采纳

1回答

DynamicDestinations中的错误: Apache

、

在执行以下代码时，我得到了一个错误： tableRows2.apply(BigQueryIO.writeTableRows() .to(new DynamicDestinations<TableRow, TableRow>() { private static final long serialVersionUID = 1L; @Override public TableDestination getTable(TableRow dest) {

浏览 4提问于2017-07-24得票数 0

回答已采纳

2回答

如何在Python中创建从发布/订阅到GCS的数据流管道

、、、

我想使用Dataflow将数据从发布/订阅移动到GCS。因此，基本上我希望Dataflow在固定的时间内(例如15分钟)积累一些消息，然后在该时间段过去后将这些数据作为文本文件写入GCS。我的最终目标是创建一个自定义的管道，所以“发布/订阅到云存储”模板对我来说是不够的，而且我对Java一无所知，这让我开始在Python中进行调整。这是我目前所得到的(Apache Beam Python SDK 2.10.0)： import apache_beam as beam TOPIC_PATH="projects/<my-project>/topics/<my-to

浏览 6提问于2019-02-18得票数 7

回答已采纳

2回答

运行Apache Beam Python SplittableDoFn时出错

、

尝试pubsub io > splittable dofn时遇到错误 RuntimeError: Transform node AppliedPTransform(ParDo(TestDoFn)/ProcessKeyedElements/GroupByKey/GroupByKey, _GroupByKeyOnly) was not replaced as expected. 有没有人可以帮我检查一下代码中我可能做得不正确的地方代码： """ python examples/test_restriction_unbounded.py --project mk2

浏览 12提问于2020-08-05得票数 1

2回答

为什么ParDo不在DataflowRunner上工作？

、、、、

当我从DirectRunner切换到Dataflowrunner：Pardo显然不起作用时，我遇到了问题。当我将runner设置为Dataflowrunner时，def process(self，query)从未运行。我可以看到这个工作在GCP上工作，但是，我的方法InsertPostgresql不使用Dataflowrunner。根据日志错误，很明显，ParDo没有识别出“psycopg2 2”。 process NameError:在处理上述异常时未定义名称“psycopg2” 我想知道为什么？ def run_pipeline(): os.enviro

浏览 4提问于2020-11-11得票数 1

回答已采纳

2回答

google数据流中的Pardo函数不产生任何输出

、、、

我试图在数据流中创建我的第一个管道，当我使用交互式游梁运行程序执行时，我有相同的代码运行，但是在数据流上，我得到了所有的错误，这对我来说没有多大意义。 {"timestamp":1589992571906,"lastPageVisited":"https://kickassdataprojects.com/simple-and-complete-tutorial-on-simple-linear-regression/","pageUrl":"https://kickassdataprojects.com/",&#

浏览 5提问于2020-06-05得票数 0

回答已采纳

1回答

Python束- Flink运行程序设置: ReadFromKafka返回错误- RuntimeError:无法编码空byte[]

、、、

我试图在python中构建一个流束管道，它应该从kafka捕获消息，然后执行从其他源获取数据和聚合的进一步阶段。到目前为止，我逐步建立的过程是：在本地主机上运行Kafka实例的：9092 ./bin/kafka-server-start.sh ./config/server.properties 运行波束-使用码头的flink作业服务器 docker run --net=host apache/beam_flink1.10_job_server:latest 运行梁-卡夫卡管道 import apache_beam as beam from apache_beam.io.external.k

浏览 3提问于2020-07-14得票数 3

2回答

如何修复Apache Beam中的“连接无界PCollections当前仅支持非全局窗口和触发器”

、、、、

我正在尝试使用连接两个无界源。当我加入的时候，我会收到以下错误信息。线程"main“java.lang.UnsupportedOperationException中的异常:当前只支持非全局窗口使用已知每个窗口生成一次输出的触发器加入无界PCollections，例如默认触发器，允许延迟为零。在这种情况下，可保证每个窗口连接所有输入元素一次。( WindowingStrategy{windowFn=org.apache.beam.sdk.transforms.windowing.SlidingWindows@1b87117，allowedLateness=PT0S，trigger=R

浏览 0提问于2019-07-08得票数 1

回答已采纳

1回答

数据流模板"Pub/Sub Avro to Bigquery“解码失败

、、、、

我正在尝试通过数据流模板"Pub/Sub Avro to Bigquery“将数据从Pub/Sub流式传输到Bigquery。Pub/Sub中的数据是AVRO格式的，来自Kafka主题。我从模式注册表中获得的相应模式文件。它看起来是这样的： {"type":"record","name":"KsqlDataSourceSchema","namespace":"io.confluent.ksql.avro_schemas","fields":[{"name":

浏览 32提问于2021-01-22得票数 0

2回答

用Python将数据存储到csv文件的MIgrating数据

、、

我想编写一个管道来从数据存储中迁移一些数据并将其导出到一个csv中。出于这个原因，我正在考虑做：从数据存储读取将实体转换为python字典(不确定正确性) 写入大查询从大查询导出到csv 我编写了这段代码，但我不确定我的想法是否正确，也不确定最后一步到底需要写什么。相反，有什么直接的方法从Datastore获得csv？ from google.cloud import datastore from google.cloud.datastore import query as datastore_query from apache_beam.io.gcp.datas

浏览 14提问于2022-11-03得票数 0

1回答

如何将google cloud pubsub作为源代码添加到Beam SQL shell中？

、、

我正在试用shell中的BeamSQL，并想测试无界源代码在可用性和性能方面是如何工作的。通过阅读here上的文档，我创建了一个外部表，如下所示- CREATE EXTERNAL TABLE pubsub_table (event_timestamp TIMESTAMP, attributes MAP<VARCHAR, VARCHAR>, payload ROW<id INTEGER, location VARCHAR>) TYPE pubsub LOCATION 'projects/test-project/topics/test-topic'; 现

浏览 23提问于2019-05-16得票数 1

回答已采纳

1回答

在数据流中运行Apache总线管道时的SSLHandshakeException

、、、、

我有一条阿帕奇光束管道。在其中一个DoFn步骤中，它执行https调用(想想REST )。在我的本地环境中，所有这些都可以在DirectRun中很好地工作。这是我的本地环境，apache 2.16.0： $ mvn -version Apache Maven 3.6.1 (d66c9c0b3152b2e69ee9bac180bb8fcc8e6af555; 2019-04-04T12:00:29-07:00) Maven home: /opt/apache-maven-3.6.1 Java version: 1.8.0_222, vendor: Private Build, runtime:

浏览 2提问于2019-12-01得票数 2

1回答

尝试使用Apache Beam进行读/写时，“找不到方案s3的文件系统”

、、

我第一次开始在一个项目中使用Apache Beam，我正在尝试做的是从亚马逊网络服务上的电子病历集群读取和写入S3的Parquet文件。然而，每次我尝试执行我的代码时，我只得到： java.lang.IllegalArgumentException: No filesystem found for scheme s3 at org.apache.beam.sdk.io.FileSystems.getFileSystemInternal(FileSystems.java:459) at org.apache.beam.sdk.io.FileSystems.match(FileSystems.j

浏览 6提问于2018-08-27得票数 1

2回答

尝试使用DataflowRunner时出现ClassNotFound异常

、、、、

我正在尝试使用Apache Beam0.6.0在GCP上启动一个数据流作业。我正在使用shade插件编译一个uber jar，因为我无法使用"mvn:execjava“启动作业。我包含了这个依赖项： <dependency> <groupId>org.apache.beam</groupId> <artifactId>beam-runners-google-cloud-dataflow-java</artifactId> <version>0.6.0-SNAPSHOT</version> &

浏览 0提问于2017-03-22得票数 8

1回答

如何用python制作数据存储的流水线pubsub？

、、、、

在流式处理过程中，我尝试将json文件发布到pubsub，并使用cloud Dataflow写入数据存储。 from __future__ import absolute_import import apache_beam as beam import json import logging from apache_beam.options.pipeline_options import PipelineOptions from apache_beam.options.pipeline_options import GoogleCloudOptions from google.cloud.p

浏览 0提问于2018-10-12得票数 1

1回答

定义管道的beam.ParDo阶段

、、

我正在使用Google Cloud平台上的AI平台Jupyter Notebook环境(用于Python3的Apache Beam2.28.0)开发Apache Beam管道。在浏览我必须动手的代码时，我来到了一个以如下方式应用的转换：new_pColl = pColl | "Process images" >> ProcessImages(*args)，其中ProcessImages是由以下定义的类： import datetime import json import time from ssl import SSLError import apache_be

浏览 3提问于2021-03-04得票数 1

1回答

异常写入ByteBuffer字段到Cassandra

、、、、

我们有一个apache数据流作业，它读取来自Big的数据，在使用Datastax驱动程序将数据写入Cassandra之前将它们转换为POJO。最近，我向表中添加了一个新的blob列，并将一个ByteBuffer字段添加到POJO中。我是如何创建ByteBuffer的 String str = objectMapper.writeValueAsString(installSkuAttributes); byte[] bytes = str.getBytes( StandardCharsets.UTF_8 ); pojo.setInstallAttributes(ByteBuffer.wrap(

浏览 0提问于2019-01-31得票数 0

回答已采纳

1回答

使用DataFlowRunner时未实现波束/ DataFlow意外错误ProtocolMessageEnum

、、、

当在本地运行我的Beam管道时，它完全按预期工作，但是当尝试在DataflowRunner上运行它时，我突然得到下面的错误。老实说，我甚至不知道从哪里开始评估它，因为DataflowRunner似乎是一个黑匣子。 Jan 14, 2019 11:26:51 AM org.apache.beam.runners.dataflow.DataflowRunner fromOptions INFO: PipelineOptions.filesToStage was not specified. Defaulting to files from the classpath: will stage 165

浏览 0提问于2019-01-14得票数 1

1回答

BigQueryIO:通过选项配置的查询，但“值仅在运行时可用”

、、

Apache Beam 2.9.0 我已经建立了一个从BigQuery中提取数据并对其执行一系列转换的管道。这些选项具有使用ValueProvider附加的开始日期 ValueProvider<String> getStartTime(); void setStartTime(ValueProvider<String> startTime); 然后，我使用BigQueryIO拉取数据(为了明确说明发生了什么，稍微修改了一下内容)： BigQueryIO.read( (SerializableFunction<SchemaAndRecor

浏览 13提问于2019-02-24得票数 1

2回答

：ReadFromKafka不能使用数据(错误)？

、

运行env： 2.12-2.0.1apach-beam OS:Ubuntu20.04kafka版本：库版本：apache-beam==2.32.0 操作步骤： shell 1：在代码下面运行 import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions from apache_beam.io.external.kafka import ReadFromKafka pipeline_options = PipelineOptions(["--runner=Direc

浏览 5提问于2021-09-01得票数 1

1回答

google提供的数据流批处理模板不起作用

、、、、

我想在% 1中运行示例。但是，当我这样做时，我得到以下错误： org.apache.beam.sdk.Pipeline$PipelineExecutionException: org.apache.avro.UnresolvedUnionException: Not in union ["null",{"type":"int","logicalType":"date"}]: 1990-01-01 (field=birthday) at org.apache.beam.runners.direct.Dire

浏览 1提问于2021-01-06得票数 0

2回答

从google云存储读取35000个文件时，数据流作业堆栈

、

class Mp3_to_npyFn(beam.DoFn): def process(self, element): filename, e = element # get mp3 from the storage bucket = storage.Client().get_bucket('BUCKET_NAME') blob = bucket.get_blob(filename) tmp_mp3 = TemporaryFile() blob.download_to_fil

浏览 0提问于2019-05-08得票数 0

回答已采纳