使用Apache Beam Python SDK将文件写入Parquet中的动态目标_将BigTable中的checkAndMutate (条件写入)与Apache Beam结合使用_如何将数据转换为所需的格式并写入文件- Python + Apache Beam - 腾讯云开发者社区

python、google-cloud-dataflow、apache-beam、parquet、pyarrow

我正在尝试通过WriteToFiles类使用dynamic destinations编写拼图文件。我目前正在尝试使用pyarrow库来编写一个Parquet接收器，它可以以分布式的方式管理写操作，类似于WriteToParquet PTransform的方式。，据我所知，不可能将无界的PCollections编写为Parquet文件，因此，如果我尝试使用下面的类按记录编写，则在关闭的文件</

浏览 17提问于2021-02-04得票数 1

回答已采纳

1回答

谷歌云数据流-来自PubSub消息的Pyarrow架构

python、google-cloud-dataflow、apache-beam、google-cloud-pubsub、pyarrow

我正在尝试使用Google Cloud Dataflow (Python SDK)将Google PubSub消息写入Google Cloud Storage。消息以json格式进入PubSub，我必须定义一个模式，以便将它们写入Google Cloud Storage中的parquet格式。根据其他用户的建议，我从特别研究和源代码开始着手这项任务。第一个不是我想要做的，因为它将更改应用到json

浏览 3提问于2020-07-23得票数 0

2回答

写入拼板错误

apache-beam、parquet、apache-beam-io

我正在使用Apache和Java。我正在尝试读取一个csv文件，并使用预部署的Spark上的SparkRunner，使用本地模式将它写入parquet格式。在DirectRunner中，一切都很好，但是SparkRunner根本无法工作。我正在使用maven阴影插件来构建一个胖jat。<init>(Lorg/apache/parquet</e

浏览 0提问于2019-08-07得票数 0

回答已采纳

1回答

尝试使用Apache* Beam进行读/写时，“找不到方案s3的文件系统”*

amazon-s3、kotlin、apache-beam

我第一次开始在一个项目中使用Apache Beam，我正在尝试做的是从亚马逊网络服务上的电子病历集群读取和写入S3的Parquet文件。(FileSystems.java:459)at org.apache.beam</em

浏览 6提问于2018-08-27得票数 1

1回答

如何创建从postgres到parquet的管道？

java、google-cloud-dataflow、apache-beam

我们正在创建一个数据流管道，我们将从postgres读取数据并将其写入一个拼花文件。我们使用org.apache.beam.sdk.io.jdbc读取文件，使用org.apache.beam.sdk.io.parquet包写入文件。ParquetIO.Sink允许您将PCollection of GenericRecord写入<

浏览 1提问于2019-06-26得票数 2

回答已采纳

2回答

我正试图使用assumeRole通过FileIO和ParquetIO来给亚马逊ParquetIO写信。

java、amazon-web-services、file-io、parquet、apache-beam-io

return credentialsProvider; return new ProfileCredentialsProvider();步骤2:将凭据设置为管道credentials.getCredentials().getAWSAccessKeyId(), credentials.getCredentials().getAWSAccessKeyId()))); .withDestinationCo

浏览 0提问于2020-06-17得票数 2

回答已采纳

1回答

使用读取Parquet文件而不提供模式

java、apache-beam、apache-beam-io

org.apache.beam.sdk.io.parquet.ParquetIO.readFiles方法似乎需要传入一个模式。如果我试图用不同的模式读取多个Parquet文件，该怎么办？

浏览 1提问于2019-11-25得票数 0

1回答

从BigQuery导出的Firebase事件

firebase、google-cloud-platform、analytics、data-export

是否有一种将火基事件导出到(例如Parquet格式)的推荐方法？如果我将数据导出到BigQuery，那么将数据一致推送到的最佳方法是什么？原因是我有处理云存储中的拼花文件的daraproc作业，我希望我的防火墙数据能够以同样的方式访问。

浏览 2提问于2020-05-13得票数 1

回答已采纳

1回答

Dataflow中的自定义Apache* Beam *Python版本

python、google-cloud-dataflow、apache-beam

我想知道是否有可能有一个自定义的阿帕奇光束Python版本运行在谷歌数据流。在公共存储库中不可用的版本(在撰写本文时: 0.6.0和2.0.0)。例如，来自Apache Beam官方存储库的HEAD版本，或与此相关的特定标签。但我还没有

浏览 16提问于2017-07-27得票数 4

回答已采纳

1回答

Apache写入

java、java-8、apache-beam

无法使用Apache Beam JavaSDK写入PubSub。我正在尝试使用beam从PubSub中读取数据，进行处理，然后将数据写入PubSub主题，但我无法找到如何写入PubSub的工作示例。是否有人可以帮助适当的转换，以写入PubSub主题。<java.lang.String,org.apache.beam.<e

浏览 0提问于2017-11-14得票数 2

2回答

无法从Apache束中的avro-parquet模式读取日期格式列(int96类型)。

apache-beam、apache-beam-io

当读取具有date列的拼花文件时，我将面临以下异常。我使用的是梁-sdks java-io* 2.11.0和拼花*-1.10，请帮我做同样的事情。 at org.apache.parquet.avro.AvroSch

浏览 1提问于2019-04-24得票数 0

2回答

如何将SCollection元素保存到不同的BigQuery表中？

google-cloud-dataflow、apache-beam、spotify-scio

我需要根据SCollection元素的时间戳将它们保存到不同的每小时BigQuery表中。我试过以下方法- 按(TableName, Iterable[TableRow])对元素进行分组，然后使用BigQueryClient实例将每个Iterable[TableRow]保存到各自的表中。创建一个SCollection[TableName, PCollection[TableRow]]，然后使用BigQueryIO.Write将每个

浏览 0提问于2017-06-19得票数 0

2回答

当我将environment_type设置为“`PROCESS`”时，Beam* SDK线束仍然试图启动对接器*

apache-kafka、apache-beam

根据 "--runner=portableRunner", "--sdk_worker_parallelism", "--environment_config={\&

浏览 18提问于2022-06-02得票数 1

回答已采纳

1回答

Google Cloud Storage Concurrency with Python* / Apache *Beam？

python、google-cloud-storage、apache-beam

我正在使用Python中的Apache光束构建一个管道，并且我需要避免在Google Cloud Storage中写入文件时出现竞争条件。下面的链接介绍了如何通过gsutil在谷歌云存储中使用并发控制。有没有人知道有没有办法用Python或Apache Beam Python SDK来完成同样的事情？

浏览 2提问于2018-08-31得票数 0

1回答

束流管道(PY)输出不写入本地主机磁盘

python-2.7、google-cloud-dataflow、apache-beam

我正在学习Apache中的窗口&触发概念，目的是：每5秒将传入消息写入本地主机磁盘，每5秒固定窗口间隔。问题:没有输出被写入本地主机磁盘(管道确实创建了一个波束团队文件夹，并在其中写入了一些文件，但是目标目标中没有output.csv，每5秒编写一次)。运行apache-beam=2.9.0，

浏览 0提问于2019-01-02得票数 2

1回答

pip搜索显示apache-beam* 2.9，但是pip安装apache-*beam只安装apache-beam2.2

pip、apache-beam

在我新的虚拟环境里。我跑我得到了然后我跑了pip listapache-beam 2.2.0 python -m apache_beam</

浏览 0提问于2019-01-27得票数 0

回答已采纳

1回答

如何从beam写入HDFS？

apache-beam、apache-beam-io

我正在尝试编写一个光束管道，它使用SparkRunner运行，从本地文件读取，并写入HDFS。; import org.apache.beam.sdk.io.FileBasedSink; import org.apache.beam.sdk.io.TextIO:它读取本地testInput文件</e

浏览 1提问于2018-11-03得票数 1

1回答

在flink集群上远程调试apache* beam作业*

scala、apache-flink、apache-beam、flink-streaming、spotify-scio

文件格式写入Alluxio数据湖。我正在使用Spotify的scio在Scala中编写这项工作。)) .toSinkTap(sink) 从异常中，我可以看到源路径和输出路径应该具有相同的URI方案，但是我不知道这是如何发生的，因为我使用了一个alluxio路径作为输出目录。在alluxio输出目录中创建了一些临时目录，但在WindowDuration之后，当创建输出文件时，会发生此异常。

浏览 24提问于2020-09-01得票数 0

3回答

Apache光束是否需要互联网来运行GCP数据流作业

python、google-cloud-platform、offline、apache-beam、dataflow

代码中断是因为正在尝试代表apache-beam进行http连接。以下是我在运行代码时收到的错误消息。(connect timeout=15)')': /simple/apache-beam/ Could not fi

浏览 0提问于2019-05-18得票数 0

1回答

当在google数据流上运行apache波束时，日文字符被损坏。

google-cloud-dataflow、apache-beam、apache-beam-io

我在google数据流上运行apache beam管道。它从GCS桶中读取数据，并在处理后写入GCS桶。这条管道处理日本数据。在堆栈驱动程序日志中，日语字符正在正确显示。但是当我看到o/p桶中的数据时，它就被破坏了。因此，我主要是在想，或者是在向GCS写入数据时，编码器没有设置，或者我们必须对GCS文件格式进行更改。解决这个问题需要帮助。我尝试过在束流管道中设置编码。此外，在运行pipleine时，我尝试<

浏览 5提问于2019-10-22得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云