Apache光束Python SDK -会话窗口间隔不准确_Apache光束会话窗口不返回任何内容 - 腾讯云开发者社区

java、apache-beam、stream-processing、apache-samza

我正在尝试使用Samza Runner从here运行单词计数演示。这是我的build.gradle plugins { id 'eclipse' id 'java' id 'application' // 'shadow' allows us to embed all the dependencies into a fat jar. id 'com.github.johnrengelman.shadow' version '4.0.3' } mainClassName =

浏览 23提问于2020-07-12得票数 3

1回答

Google Cloud Storage Concurrency with Python / Apache Beam？

python、google-cloud-storage、apache-beam

我正在使用Python中的Apache光束构建一个管道，并且我需要避免在Google Cloud Storage中写入文件时出现竞争条件。下面的链接介绍了如何通过gsutil在谷歌云存储中使用并发控制。有没有人知道有没有办法用Python或Apache Beam Python SDK来完成同样的事情？

浏览 2提问于2018-08-31得票数 0

2回答

固定窗口触发延迟几分钟

apache-beam

在Apache光束中使用已修复的窗口。水印由事件时间设置。某些数据可能会乱序到达，并导致窗口关闭。在Java中，触发器如何定义为在看到最后一个数据后2分钟发生？

浏览 1提问于2019-07-05得票数 0

1回答

通过Apache airflow进行编排时，将apache Beam版本升级到2.11.0失败

python-2.7、google-cloud-dataflow、airflow、apache-beam

Apache光束Python SDK升级到2.11.0问题。我正在使用requirements.txt将sdk从2.4.0升级到2.11.0。它有如下依赖关系： apache_beam==2.11.0 google-cloud-dataflow==2.4.0 httplib2==0.11.3 google-cloud==0.27.0 google-cloud-storage==1.3.0 workflow 为了管理光束管道中的依赖关系，我们有这个txt文件。google计算引擎上有两个vm实例，一个是master实例，另一个是worker实例。

浏览 8提问于2019-03-27得票数 1

1回答

Apache光束Python SDK -从GCS读取GZIP压缩的拼图文件

python、google-cloud-storage、apache-beam、apache-beam-io

我想读取一个GZIP压缩的帕奎特文件从GCS到BigQuery使用Python SDK for Apache光束。但是，apache_beam.io.parquetio.ReadFromParquet方法似乎不支持从压缩文件中读取。根据源代码，压缩类型被硬编码为UNCOMPRESSED。有没有一个技巧来读取压缩的拼图文件，而不需要在GCS中预先解压缩文件？如果这是唯一的方法，有没有办法在GCS中直接解压缩文件？

浏览 2提问于2019-11-25得票数 0

1回答

基于apache beam的滚动窗特征工程

apache-beam

我已经能够读入以下数据，将客户事务表示为带有光束的csv (Python SDK)。 timestamp,customer_id,amount 2018-02-08 12:04:36.899422,1,45.92615814813004 2019-04-05 07:40:17.873746,1,47.360044568200514 2019-07-27 04:37:48.060949,1,23.325754816230106 2017-05-18 15:46:41.654809,2,25.47369262400646 2018-08-08 03:59:05.791552,2,34.859367

浏览 4提问于2020-06-30得票数 0

1回答

在python中的管道运行期间访问Apache光束度量值？

python、apache-beam

我正在使用Apache光束Python SDK的直接运行器来执行一个简单的流水线，类似于单词计数示例。因为我正在处理一个大文件，所以我希望在执行过程中显示指标。我知道如何报告指标，但我找不到在运行期间访问指标的任何方法。我在PipelineResult中找到了metrics()函数，但似乎只从Pipeline.run()函数获得了一个PipelineResult对象，这是一个阻塞调用。在Java SDK中，我发现了一个可以在PipelineOptions上配置的MetricsSink，但在Python SDK中找不到对应的an。如何在管道执行期间访问实时指标？

浏览 17提问于2021-08-16得票数 2

回答已采纳

1回答

尝试访问Firestore集合时获取java.lang.IllegalAccessError

google-cloud-platform、google-cloud-firestore、apache-beam、java-11

当我尝试使用direct runner从Apache光束调用我的Spring应用程序时，我得到了下面的异常。 org.apache.beam.sdk.Pipeline$PipelineExecutionException: java.lang.IllegalAccessError: class io.grpc.internal.CensusTracingModule$TracingClientInterceptor tried to access private field io.opencensus.trace.unsafe.ContextUtils.CONTEXT_SPAN_KEY

浏览 8提问于2020-04-24得票数 1

1回答

如何使用Apache beam处理历史时间序列数据？

google-cloud-platform、time-series、google-cloud-dataflow、apache-beam

我有Apache光束模型来实时处理多个时间序列。部署在GCP DataFlow上，它将多个时间序列组合到窗口中，并计算聚合等。我现在需要对历史数据(相同(多个)时间序列数据)执行相同的操作，直到2017年。如何使用Apache beam来实现这一点？我知道我需要使用Apache光束的窗口属性来计算聚合等，但它应该接受2年前的数据实际上，我需要数据，如果我部署了相同的管道两年就会有数据。这是测试/模型训练目的所必需的

浏览 2提问于2019-06-21得票数 0

1回答

数据流似乎被卡住了

google-cloud-dataflow

收到以下消息：The Dataflow appears to be stuck. Please reach out to the Dataflow team at http://stackoverflow.com/questions/tagged/google-cloud-dataflow. 我意识到还有关于同一错误消息的其他问题，但每个错误消息的上下文似乎不同，并且消息相当通用，所以我再次发布。作业ID: 2017-09-25_09_27_25-5047889078463721675 请协助。谢谢。编辑:在从2.0.0更新到用于Python 2.1.1的Apache光束SDK后，问题似乎

浏览 0提问于2017-09-26得票数 2

1回答

如何去除滑动窗口中的重复- Apache梁

java、apache-beam、windowing、beam-sql

我实现了一个具有多个无界源和侧输入的数据管道，用滑动窗口连接数据(30s和10s)，并将转换后的输出发送到Kafka主题中。我的问题是，在窗口的前10秒内收到的数据被发出了3次(即)。每当新窗口开始时，直到第一个窗口完成为止，都会触发。如何只发出一次转换后的数据或避免重复？我使用过废弃的烧制窗格，这并没有什么区别。每当我尝试将窗口关闭行为设置为FIRE_ALWAYS/FIRE_NON时，它会抛出以下错误。线程"main“org.apache.beam.sdk.Pipeline$PipelineExecutionException: java.lang.IllegalArgumen

浏览 0提问于2019-07-17得票数 0

1回答

我们可以对批处理进行窗口操作吗？

batch-processing、apache-beam、dataflow

在Apache光束文档中，我们谈到了使用有界PCollections进行窗口操作。 https://beam.apache.org/documentation/programming-guide/#windowing 如果我们有一个有界的数据，那么所有的元素都将属于同一个全局窗口。在哪些用例中，我们需要在批处理上应用窗口？

浏览 22提问于2019-08-27得票数 0

回答已采纳

1回答

数据流的命令术语表？

python、google-cloud-dataflow

我正在试验Dataflow Python SDK，想要一些关于各种命令的功能、它们所需的参数以及它们推荐的语法的参考资料。所以在import google.cloud.dataflow as df之后我在哪里可以读到关于df.Create，df.Write，df.FlatMap，df.CombinePerKey等的内容？有没有人整理过这样的参考资料？是否有任何地方(请链接)收集和解释了所有可能的Apache光束/数据流命令？

浏览 0提问于2016-04-30得票数 1

1回答

在流式管道中组合多个端输入时，数据流失败

python、google-cloud-dataflow、apache-beam

我已经用Python SDK (Apache光束Python3.7SDK 2.19.0)构建了一个窗口数据流管道。初始数据的表示形式为： | Phone Number | Call length | |--------------|-------------| | 1234 | 6 | | 1234 | 2 | | 5678 | 5 | 其思想是找到给定窗口中每行号码的电话呼叫的平均时长。数据以来自Pub/Sub的CSV行的形式读入，我将一个值添加到与该号码的平均呼叫长度相对应的所有行：

浏览 12提问于2020-02-21得票数 0

1回答

多线程在有限源的apache光束管道中是如何工作的？

apache-beam

我是大数据处理方面的新手。我正在使用apache beam Java SDK来处理它。尝试了解多线程/并行数据处理在apache光束管道中是如何工作的。关于多线程，数据是如何从一个PTransform处理到另一个的？

浏览 9提问于2020-07-23得票数 0

1回答

Apache Beam Python读取.tgz并解析为BigQuery

python、google-cloud-dataflow、apache-beam

例如，我有.tgz文件。它驻留在Google云存储中。在.tgz内部是一系列|分隔的.txt文件。例如，这10个文件中的一个可以命名为我想使用Python SDK中的Apache光束来至少读取.tgz和附带的.txt文件，而不必先解压缩它。我想解析|分隔的内容，并在预定义的Dataset.Table中将集合发送到BigQuery。这就是我到目前为止所拥有的。 import apache_beam as beam from apache_beam import (coders, io) raw_logs = (p | io.Read("ReadLogsFro

浏览 0提问于2018-12-13得票数 0

1回答

如何读取数据流中10+ GB大小的文件？

google-cloud-dataflow、apache-beam

通过调用函数ReadableFile.readFullyAsUTF8String，尝试使用数据流作业中的apache光束FileIO读取大小为10+ GB的CSV文件。而且，它失败了，错误如下。读取大小超过INTEGER.MAX_VALUE的文件似乎失败。敬请指教。 at java.io.ByteArrayOutputStream.hugeCapacity(ByteArrayOutputStream.java:123) at java.io.ByteArrayOutputStream.grow(ByteArrayOutputStream.java:117) at ja

浏览 4提问于2019-05-05得票数 0

1回答

Kafka Streams SIiding窗口实现代码示例

apache-kafka、dsl、apache-kafka-streams

我一直在尝试使用Streams DSL在Kafka中实现滑动窗口，但我无法做到。有没有人能帮我举个代码例子。我想要使用滑动窗口方法聚合特定时间段的值。我搜索了融合的博客，但没有代码

浏览 3提问于2019-07-16得票数 1

1回答

使用Apache光束/数据流从BigQuery读取数据时使用fastavro

google-bigquery、google-cloud-dataflow、apache-beam

我的项目运行的是Python2.7(是的，我知道...)Google Dataflow上的Apache Beam 2.19。我们连接到BigQuery的方式与Apache光束教程中指定的方式相同： p | 'Get data from BigQuery' >> beam.io.Read(beam.io.BigQuerySource( query=get_query(limit), use_standard_sql=True))) 然而，此管道的读取步骤非常慢-很可能是由于读取.avro文件所致。不过，看起来fastavro似乎并没有真正被使用。AFA

浏览 0提问于2020-03-19得票数 0

1回答

如何从beam写入HDFS？

apache-beam、apache-beam-io

我正在尝试编写一个光束管道，它使用SparkRunner运行，从本地文件读取，并写入HDFS。下面是一个最小的例子： Options类- package com.mycompany.beam.hdfsIOIssue; import org.apache.beam.runners.spark.SparkPipelineOptions; import org.apache.beam.sdk.io.hdfs.HadoopFileSystemOptions; import org.apache.beam.sdk.options.Description; import org.apache.beam

浏览 1提问于2018-11-03得票数 1

1回答

Dataflow中的自定义Apache Beam Python版本

python、google-cloud-dataflow、apache-beam

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。例如，来自Apache Beam官方存储库的HEAD版本，或与此相关的特定标签。我知道打包定制包(例如私有的本地包)的可能性，正如官方中所描述的那样。这里有关于如何为其他一些脚本做这件事的答案是。这上面甚至有一个GIST的。但我还没有设法得到当前的Apache光束开发版本(或标记的版本)，该版本可在其官方存储库的主分支中获得，以便打包并将我的脚本发送到Google Dataflow。例如，对于最新的可用标记，其PiP处理的链接将是：git+htt

浏览 16提问于2017-07-27得票数 4

回答已采纳

1回答

在apache波束中创建自定义Sink

google-cloud-dataflow、apache-beam

我正在使用apache并试图创建一个自定义接收器，不幸的是，无法找到任何关于如何创建自定义接收器.Can的指南。在以前的数据流中，我用来覆盖com.google.cloud.dataflow.sdk.io.Sink中可用的Sink 我似乎找不到类似的呼叫在Beam.Is，它仍然可以飞行在光束某处？我正在使用beam 2.3SDK和Java

浏览 0提问于2018-03-18得票数 2

回答已采纳

1回答

如何读取GCP数据流中CombineFn函数的日志消息？

google-cloud-dataflow、apache-beam

我正在创建一个Apache光束流处理管道，以便在GCP数据流中运行。我有许多扩展DoFn和CombineFn的转换。在DoFn中，使用数据流作业详细信息中的日志窗口可以很好地显示日志。但是，不会显示来自CombineFn转换的日志。我尝试了不同的日志级别，但使用DirectRunner时，它们也显示得很好。下面是一些示例代码。为简洁起见，我将输入和输出更改为字符串，代码中有一些自定义类。 import java.io.Serializable; import org.apache.avro.reflect.Nullable; import org.apache.beam.sdk.code

浏览 15提问于2019-10-07得票数 0

1回答

pdf查看器无法在外部屏幕上运行。

pdf、fullscreen

我想使用令人印象深刻的作为我的默认pdf查看器的演示，但我不能让它运行全屏上的外部屏幕，即光束。在我拖动窗口的任何屏幕上都会显示全屏。我在openbox中使用了arch Linux，如果这有什么区别的话，我用xrandr/arandr管理我的屏幕. 我怎样才能在全屏幕上运行给人印象深刻的光束呢？

浏览 0提问于2016-11-28得票数 0

1回答

需要为初学者提供Apache_beam学习材料的建议

apache-beam

我需要学习一个项目的阿帕奇光束。我已经阅读了Apache光束文档，但我认为这还不够。有没有人可以推荐学习Apache光束的资源？

浏览 10提问于2017-07-04得票数 0

回答已采纳

1回答

使用数据流指定自定义用户代理

google-cloud-dataflow、apache-beam

我正在尝试通过定制用于不同GCP呼叫的用户代理。然而，它似乎总是退回到Apache_Beam_SDK_for_Java/2.6.0。看一下光束代码库，用户代理似乎是被数据流运行器：强制的。这是故意的吗？它应该是可定制的吗？编辑:通过--userAgent CLI标志指定它似乎也不起作用。

浏览 4提问于2018-11-15得票数 1

1回答

Apache光束数据流作业在本地执行什么操作？

python、google-cloud-dataflow、apache-beam

我有一些关于Apache光束Python SDK定义的数据流的问题。如果我单步执行我的代码，它会到达pipeline.run()步骤，我认为这意味着成功地定义了执行图。然而，该作业从未在数据流监控工具上注册，这让我认为它永远不会到达管道验证步骤。我想更多地了解这两个步骤之间发生了什么，以帮助调试问题。我看到输出显示我的requirements.txt和apache-beam中的包正在进行pip安装，似乎有什么东西在被发送到谷歌的服务器之前已经被浸泡过了。为什么会这样呢？如果我已经下载了apache-beam，为什么还要再下载一次？到底是什么在泡菜？我不是在这里寻找我的问题的解决方案，只是想

浏览 3提问于2018-04-28得票数 1

1回答

BeamRecord类型是否已从Apache Beam中删除？

java、apache-beam

我正在做一个Apache光束项目，并且在其他项目中发现了BeamRecord类型的用法。我无法使用最新版本的Java SDK (2.14.0)导入此类型，并且只能在降级到版本2.3.0时访问它。我检查了，没有迹象表明此类型已被弃用。API文档是否已过期？如果是，应该使用哪种类型？

浏览 3提问于2019-08-12得票数 1

回答已采纳

2回答

无法使用Apache光束读取发布/订阅消息(Python SDK)

python、streaming、apache-beam、google-cloud-pubsub、apache-beam-io

我正在尝试使用光束编程框架(Python SDK)流式传输来自发布/订阅主题的消息，并将它们写出到控制台。这是我的代码(使用apache-beam==2.27.0)： import apache_beam as beam from apache_beam.options.pipeline_options import PipelineOptions TOPIC_PATH = "projects/<project-id>/topics/<topic-id>" def run(pubsub_topic): options = Pipeline

浏览 24提问于2021-01-21得票数 0

2回答

如何在Apache Beam中为复合变换提供参数？

python、apache-beam

我使用的是Apache光束的Python SDK。我有几个转换步骤，并希望使它们可重用，这使我可以编写一个自定义复合转换，如下所示： class MyCompositeTransform(beam.PTransform): def expand(self, pcoll, arg1, kwarg1=u'default'): result = (pcoll | 'Step 1' >> beam.Map(lambda f: SomeFn(f, arg1)) | 'Last step

浏览 23提问于2018-12-19得票数 4

1回答

KafkaIO连接器/Apache光束转换"go“SDK可用？

go、apache-kafka、apache-beam、apache-beam-io

我正在努力建立一个数据摄取管道使用Apache光束"go“SDK。我的流程是使用Kafka队列中的数据，并将数据持久化到Google Cloud Bigtable (和/或另一个Kafka主题)。到目前为止，我还没有找到用"go“编写的Kafka IO连接器(也称为Apache I/O转换)(但是我能够找到java版本)。下面是支持的Apache Beam内置I/O转换的链接：https://beam.apache.org/documentation/io/built-in/ 我正在寻找与以下Java代码等效的"go“： pipeline.apply

浏览 9提问于2020-01-25得票数 1

1回答

Apache光束抛出不能setCoder(null)：java

google-cloud-dataflow、apache-beam、apache-beam-io

我是新手阿帕奇光束，我正在尝试连接到mysql数据库的google云实例。当我运行下面的代码片段时，它抛出了下面的异常。 Logger logger = LoggerFactory.getLogger(GoogleSQLPipeline.class); PipelineOptions options = PipelineOptionsFactory.create(); Pipeline dataflowPipeline = Pipeline.create(); dataflowPipeline.apply(JdbcIO.<KV<Integer,

浏览 6提问于2017-06-19得票数 0

1回答

如何在束FileSystem中连接路径

scala、google-cloud-storage、apache-beam、dataflow

我正在弄清楚关于束的一些基本内容。这在光束中有什么相似之处？ import java.nio.File.{FileSystems => FS} ... FS.getDefault().getPath("gcs://foo", "/bar") (edited) 我试过了 import org.apache.beam.sdk.io.{FileSystems => BFS} BFS.matchNewResource("gcs://foo", isDirectory=true).resolve("/bar", ...).get

浏览 9提问于2022-07-22得票数 0

2回答

如何修复Apache Beam中的“连接无界PCollections当前仅支持非全局窗口和触发器”

java、join、streaming、apache-beam、beam-sql

我正在尝试使用连接两个无界源。当我加入的时候，我会收到以下错误信息。线程"main“java.lang.UnsupportedOperationException中的异常:当前只支持非全局窗口使用已知每个窗口生成一次输出的触发器加入无界PCollections，例如默认触发器，允许延迟为零。在这种情况下，可保证每个窗口连接所有输入元素一次。( WindowingStrategy{windowFn=org.apache.beam.sdk.transforms.windowing.SlidingWindows@1b87117，allowedLateness=PT0S，trigger=R

浏览 0提问于2019-07-08得票数 1

回答已采纳

1回答

从卡夫卡读取的Apache光束给出了CoderException: java.io.EOFException

apache-kafka、google-cloud-dataflow、apache-beam

我已经实现了一个来自Kafka的光束管道读取，基于这里的文档：管道本身对于有界源工作得很好，并且我有测试用例，它可以从文件中读取数据而不会出现问题。从Kafka中读取代码非常简单，与示例基本相同： PCollection<String> input = p.apply(KafkaIO.<Long, String>read() .withBootstrapServers(KAFKA_BROKER) .w

浏览 1提问于2017-04-04得票数 3

1回答

Apache beam中的状态类

python、google-cloud-dataflow、apache-beam、stateful

我正在接近数据流和Apache光束的世界，我有一些关于有状态处理和一些类实现的问题。特别是，我想知道和之间的区别是什么。事实上，在中，它们看起来是一样的，但我仍然不确定。此外，我正在寻找这些的源代码，但我无法检索到'beam_runner_api_pb2‘指向哪里以及它是在哪里实现的。此外，我对以及从它继承的所有类(BagRuntimeState、SetRuntimeState、CombiningValueRuntimeState)的了解并不清楚。这些类是不是在python SDK中没有实现，还是我遗漏了什么？最后，这些类和非运行时状态(例如SetStateSpec)之间的区别是

浏览 0提问于2021-05-26得票数 0

1回答

如何在梁管道中为会话窗口编写单元测试？

google-cloud-dataflow、apache-beam

我正在编写一个处理产品事件(创建、更新、删除)的管道。每一种产品都属于有一定期限的销售。我希望能够对给定销售中的所有产品执行某种聚合。对于这个例子，让我们假设我只想要一个每个销售的唯一产品ID的列表。因此，我的管道正在使用sale id上的会话窗口，其持续时间非常长(因此，当销售结束，并且不再发布产品更新时，该销售窗口也会关闭)。我的问题是，我如何编写单元测试？为了进行这个测试，让我们假设如下：事件只是带有销售ID和产品ID的String，用空格分隔， applyDistinctProductsTransform基本上将执行我前面所说的内容。创建键为sale的KV<Stri

浏览 0提问于2018-08-23得票数 3

回答已采纳

1回答

窗口操作如何与Flink中的keyBy一起工作？

scala、apache-flink、flink-streaming

我在Kafka中有这样的数据： { "account": "iOS", //Possible values: iOS, android, web, windows "events": [ { "timestamp": "2017-07-03T20:19:35Z" } ] } 时间戳从2017-07-03T20:19:35Z到2017-07-03T20:22:30Z (大约3分钟)。我有这个Flink程序，它从上面的kafka主题中摄取数据： object TestWindow

浏览 31提问于2017-07-04得票数 1

回答已采纳

1回答

如果我们可以直接使用Apache spark，为什么还要使用Apache beam spark runner？

apache-spark、etl、apache-beam

我在读关于阿帕奇光束的文章。在阿帕奇光束中经历了各种跑步者。但我想知道，如果有人可以直接使用apache spark，为什么要使用带有spark runner的apache beam？

浏览 2提问于2020-06-30得票数 1

1回答

为什么在本地机器上运行apache时会出现属性错误？

apache-beam

我试图在本地机器上使用Python运行apache程序。我创建并激活了python虚拟环境，并使用pip安装了apache。但是，当我使用下面的命令触发代码时，它会给出attribute error并说： module filename.py has no attribute __path__ 下面是我运行的命令(通过转到venv文件夹)： python -m filename.py 请帮我一下..。我在试着学习阿帕奇光束 import apache_beam as beam p=beam.Pipeline() lines= p | beam.io.ReadFromText('

浏览 0提问于2019-08-08得票数 0

回答已采纳

2回答

是否可以在不具有本地所有依赖项的情况下运行/序列化数据流作业？

python、google-cloud-dataflow、apache-beam

我已经使用Apache光束为Google Cloud Dataflow创建了一个管道，但我不能在本地拥有Python依赖项。但是，远程安装这些依赖项是没有问题的。在我的本地(开发)环境中，有没有可能在不执行Python代码的情况下运行作业或创建模板？

浏览 1提问于2019-09-27得票数 0

2回答

Spanner中的查询计划

google-cloud-dataflow、apache-beam、google-cloud-spanner

我正在执行一个查询:在扳手中执行"SELECT e.name,d.name FROM emp as e, department as d WHERE e.dept = d.dept;"，它在扳手控制台上工作得很好。但是，当我尝试使用Apache光束来触发相同的查询时，它给出了一个错误消息： java.lang.RuntimeException: org.apache.beam.sdk.util.UserCodeException: com.google.cloud.spanner.SpannerException: INVALID_ARGUMENT: io.grpc.Statu

浏览 0提问于2018-06-13得票数 2

1回答

如何在DataFlow上使用apache SDK SDK的自定义版本？

google-cloud-dataflow、apache-beam、google-cloud-spanner

Apache光束的当前版本不支持来自google spanner的类型代码11 (json)，因为它使用了google-cloud-spanner的一个版本，该版本是当前版本后面的两个主要版本。因此，我更新了我自己的版本来做到这一点-还没有完全弄清楚如何在Github上做一个适当的PR或运行测试。无论哪种方式，这都需要一段时间。我听说有一种方法可以在DataFlow上指定自定义Apache custom，但那是3年前的事了，并没有具体说明。还有可能吗？我需要什么样的文件来保存SDK - zip，tar，tar.gz？该存档中需要包含哪些文件夹？apache_beam，apache_beam-

浏览 7提问于2021-11-22得票数 0

1回答

从Beam示例中理解"|“和">>”

python、apache-beam

我有一些关于Python的工作知识，但对Apache光束来说还是个新手。我遇到了一个来自Apache光束的例子，是关于一个简单的字数统计程序。让我感到困惑的代码片段如下所示： pipeline_options = PipelineOptions(pipeline_args) pipeline_options.view_as(SetupOptions).save_main_session = save_main_session with beam.Pipeline(options=pipeline_options) as p: # Read the text file[p

浏览 12提问于2020-12-31得票数 0

回答已采纳

1回答

无法使用beam管道将数据写入内部SQL server

apache-beam、apache-beam-io

我正在尝试使用python创建一个apache光束管道，它从CSV读取数据并将输出数据存储到本地SQL服务器。我不确定如何建立到SQL server的连接并写入服务器。你能帮帮我吗。如果需要更多信息，请告诉我。

浏览 22提问于2021-08-16得票数 0

6回答

Google Dataflow上的Apache光束示例出现权限错误

python、google-cloud-platform、google-cloud-dataflow、apache-beam

我在从本地机器向我们的云平台提交Apache光束示例时遇到了问题。但是当我尝试运行python wordcount示例时，我得到了以下错误： IOError: Could not upload to GCS path gs://my_bucket/tmp: access denied. Please verify that credentials are valid and that you have write access to the specified path.

浏览 0提问于2017-05-25得票数 8

2回答

google-cloud-dataflow vs apache-apache

google-cloud-dataflow、apache-beam

令人困惑的是，每个关于数据流的谷歌文档都说它现在是基于Apache光束的，并将我引导到光束网站。此外，如果我查找github项目，我会发现google dataflow项目是空的，并且所有的项目都转到apache see repo。假设我现在需要创建一个管道，根据我从Apache光束中读到的，我会这样做：from apache_beam.options.pipeline_options然而，如果我使用google-cloud-dataflow，我会得到错误：no module named 'options'，结果我应该使用from apache_beam.utils.pipel

浏览 1提问于2017-06-16得票数 3

1回答

在用于python版本的apache beam中，pcollection的数据类型是什么？

apache-spark、pyspark、apache-beam、dataflow

我读过很多教程，它们都解释了transform的输出是apache光束中的一个集合。有没有人能告诉我，Pcollection到底是如何存储的，如果我们应用任何转换，它会返回什么数据类型？它是python字典、元组、列表吗？

浏览 3提问于2021-09-06得票数 0

1回答

用RowCoder编码JSON字符串

java、encoding、apache-beam

假设我有一个JSON字符串 {"targetTable": "table", "primaryKey": {"A": "a"}, "payload": {"A": "a", "B": "b"}} 我对使用RowCoder.of(schema)将其序列化为org.apache.beam.sdk.values.Row很感兴趣，模式定义如下 import java.io.InputStream; import org.apache.beam

浏览 20提问于2021-04-18得票数 0

回答已采纳

2回答

从波束/数据流读取RabbitMQ

rabbitmq、google-cloud-dataflow、apache-beam

我尝试以流的方式从光束/数据流运行一个RabbitMQ队列(这样它就可以无限期地运行)。我尝试运行的最小示例代码是： import org.apache.beam.sdk.Pipeline; import org.apache.beam.sdk.io.rabbitmq.RabbitMqIO; import org.apache.beam.sdk.io.rabbitmq.RabbitMqMessage; import org.apache.beam.sdk.transforms.DoFn; import org.apache.beam.sdk.transforms.ParDo; publi

浏览 23提问于2019-01-05得票数 0