在Apache Beam中读取整个文件_如何在Apache Beam中以byte[]格式读取文件？_使用apache beam从GCS读取文件时面临性能问题 - 腾讯云开发者社区

、

是否可以读取整个文件(而不是逐行读取)？例如，我想读取多行JSON，我的想法是逐个文件读取，从每个文件中提取数据并从列表中创建PCollection。这是一个好主意，还是将源JSON预处理为一个JSON文件更好，每行都是单独的JSON？谢谢你的预支。

浏览 17提问于2019-10-18得票数 1

回答已采纳

1回答

在光束管道中访问文件名和类型中的信息(元数据)

、

我的文件名包含我在管道中需要的信息，例如，我的数据点的标识符是文件名的一部分，而不是数据中的字段。例如，每个风力涡轮机都会生成一个文件-loc-001-007.csv。例如，我需要管道中的loc数据。

浏览 32提问于2019-01-31得票数 1

3回答

使用Apache光束的`ReadFromText`解析中包含"\n“的行

、

我有一个.csv文件，我试图在管道中使用apache_beam.io.ReadFromText()读取该文件(beam是apache_beam的别名)： reader = beam.io.ReadFromText(csv_path, skip_header_lines=1) 我有一个行读取类，如下所示： class RowReader(beam.DoFn): def pro

浏览 38提问于2021-08-11得票数 0

回答已采纳

3回答

在google cloud上训练神经网络时出现"Unable to get Filesystem for path“错误

、、、、

PROJECT_ID}-mlenginegsutil cp -r data gs://$BUCKET_NAME我发现这个运行时错误的原因来自trainer.preprocess.py文件中的某一行。这行是这样的： read_input_source = <e

浏览 2提问于2017-05-23得票数 9

1回答

避免在Beam Python SDK中重新计算所有云存储文件的大小

、、

我正在开发一个从Google Cloud Storage (GCS)目录中读取大约500万个文件的管道。我将其配置为在Google Cloud Dataflow上运行。问题是，当我启动管道时，它需要几个小时来“计算”所有文件的大小： INFO:apache_beam.io.gcp.gcsio:Starting the size estimation of the input在撰写本文时，该作业在Dataflow控制台中仍然不可用，这使

浏览 19提问于2020-03-27得票数 3

回答已采纳

2回答

如何使用在同一管道中读取BigQuery和文件系统中的数据？

、、

我正在尝试使用下面的代码读取Bigquery中的一些数据和文件系统中的一些数据。_replace(覆盖)文件第340行中，在_replace self.visit(TransformUpdater(自我))文件第503行中，在访问self._root_transform().visit(访问者，self )中，(访问)文件"/etl/dataflow&

浏览 4提问于2020-03-01得票数 1

1回答

Apache读取csv文件和groupbykey

、、、、

我有一个csv文件，我知道如何使用pandas实现这一点，基本上将csv作为一个df ->组按字段‘aaa’、‘bbb’读取数据，然后构造一个新的'id‘。我的问题是如何在Apache Beam中实现相同的功能，我以前从未使用过它，我试图使用Beam读取这个csv文件和分组多个记录，但是我对熊猫使用的相同功能不支持Beam，下面是我的当前代码： importapache_beam a

浏览 2提问于2021-08-16得票数 0

回答已采纳

1回答

如何使用Python中的Apache beam将txt文件读取和操作为json

、

我有一个.txt文件，它有一些数据碎片。我想要将文件读取、操作和重组为json格式，我如何使用Apache在Python中做到这一点？import re #convert txt to json with beamapache</e

浏览 3提问于2022-03-26得票数 1

1回答

如何从beam写入HDFS？

、

我正在尝试编写一个光束管道，它使用SparkRunner运行，从本地文件读取，并写入HDFS。; import org.apache.beam.sdk.io.FileBasedSink; import org.apache.beam.sdk.io.TextIOtestInput文件中的行，并将它们写到我的hdfs主目录中一个名为testOut

浏览 1提问于2018-11-03得票数 1

3回答

有没有一种方法可以使用Python转换( ReadFromText )来读取Apache* Beam中的多行csv文件？*

、、、、

有没有办法在Python语言中使用ReadFromText转换来读取多行csv文件？我有一个文件，其中包含一行我试图让Apache光束将输入作为一行读取，但无法使其工作。testfile.csv'# foo,bar,"blah blah (p

浏览 0提问于2018-04-19得票数 6

1回答

对大型BigQuery响应进行分块，并使用Apache光束和数据流将这些分块保存在CSV文件中

、、

我刚接触Apache光束和Dataflow。我正在尝试获取大约20000条记录的大数据集。我必须将它分成1000条记录，并将这些分块保存在单独的CSV文件中。我知道如何从BQ读取和写入CSV，但不能理解如何使用波束变换来分块文件，或者是否有任何其他方法。我的尝试:我从简单的代码开始，将我从BQ读取的数据传递给ParDo函数。此外，ParDo不会打印我在以下代码中传递的元素。import apache_beam as

浏览 0提问于2021-05-08得票数 0

2回答

为什么read_utf8()给出了TypeError:在Apache* / python中'int‘和'NoneType’的实例之间不支持'<‘*

、、、、

我跟踪，希望在读取文本文件时访问文件名和内容。我有GCP存储中的文本文件，(以压缩格式- gzip)，当我试图读取这些文件时，它给我的错误如下： File "apache_beam/runners/common.py", line 1417, in apache<

浏览 14提问于2022-11-03得票数 0

1回答

使用google数据流beam.io.avroio.WriteToAvro将python中的csv转换为avro (

、

使用/ Composer为CSV到Avro，一切都在我的本地环境中工作。当尝试从云存储桶中读取包含Avro模式的.avsc文件时，我一直得到: IOError: Errno 2--没有这样的文件或目录：‘gs://my/xxx.avsc’from __future__ import absolute_importimport loggingimport avro.schema import <

浏览 0提问于2018-08-22得票数 1

回答已采纳

1回答

Apache :使用ParDo类返回条件语句

、、、

我想检查一下，如果我们在apache beam管道中读取的CSV文件在执行任何转换之前满足了我期望它在Ex中的格式:字段检查、类型检查、空值检查等等。在管道外对每个文件执行这些检查将消除并行性的概念，所以我只想知道是否有可能在管道中执行它。代码可能是什么样子的示例： branched=<em

浏览 1提问于2022-04-16得票数 0

回答已采纳

1回答

Apache Beam Python读取.tgz并解析为BigQuery

、、

例如，我有.tgz文件。它驻留在Google云存储中。在.tgz内部是一系列|分隔的.txt文件。例如，这10个文件中的一个可以命名为from apache_beam

浏览 0提问于2018-12-13得票数 0

2回答

如何在Dataflow中用ReadAllFromText/ReadFromText中的数据映射标头

、、、、

我想读取流数据流作业中的csv文件，并将每一行映射到dict {"column1": "value"1}并将其上传到BQ中。

浏览 9提问于2022-11-10得票数 0

1回答

如何读取数据流中10+ GB大小的文件？

、

通过调用函数ReadableFile.readFullyAsUTF8String，尝试使用数据流作业中的apache光束FileIO读取大小为10+ GB的CSV文件。而且，它失败了，错误如下。读取大小超过INTEGER.MAX_VALUE的文件似乎失败。敬请指教。ByteArrayOutputStream.java:93) at

浏览 4提问于2019-05-05得票数 0

1回答

从卡夫卡读取的Apache光束给出了CoderException: java.io.EOFException

、、

我已经实现了一个来自Kafka的光束管道读取，基于这里的文档： PCollection<String> input = p.apply(KafkaIO.org.apache.beam.runners.direct.DirectRunner.run(DirectRunner.java:71) at o

浏览 1提问于2017-04-04得票数 3

2回答

如何标记数据流中的已读文件？

、、、、

我正在使用数据流从GCS存储桶中读取文件，并对其进行一些转换。为此，我使用了beam.io.ReadFromText()方法。标记已经读取的文件的最佳方式是什么，以便相同的文件不会被数据流重复读取？

浏览 5提问于2020-07-02得票数 1

2回答

如何用Python中的Apache* beam读取和操作Json文件*

、、、

我有一个具有JSON格式的.txt文件。我想读取、操作和重构文件(更改字段名.)我如何用Apache在Python中做到这一点呢？

浏览 0提问于2019-06-04得票数 1

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云