如何将数据转换为所需的格式并写入文件- Python + Apache Beam_python: csv文件转换为json格式，并尝试调用数据中没有另一列的列 - 腾讯云开发者社区

python、json、apache-beam、apache-beam-io、ndjson

我有一个.ndjson文件，如下所示： {"property_id": "107", "transaction_unique_id": "{C3C3F9B5-FB9E-362B-E053-6B04A8C03ACC我使用Apache Beam读取数据，并按property_id对数据进行分组，然后将输出写入json文件，但数据如下所示： ('107', [PPD(p

浏览 15提问于2021-08-16得票数 0

回答已采纳

1回答

使用Apache光束`GroupByKey`，构造一个新的列-- Python

python、json、csv、apache-beam、apache-beam-io

通过这个问题：How to group data and construct a new column - python pandas?，我知道了如何使用pandas对多列进行分组并构造一个新的唯一id，但是如果我想在Python中使用Apache beam来实现该问题中描述的相同功能，我如何实现它，然后将新数据写入换行符分隔的JSON格式文件(每行都是一个unique_id，其中

浏览 14提问于2021-08-15得票数 0

回答已采纳

1回答

将数据从csv写入BigQuery时出错

python、google-cloud-dataflow

我已经编写了一个Python数据流作业，用于从csv文件读取数据并使用该数据填充BigQuery表。但是，每当我运行此作业时，都会弹出一个错误。如果我删除write to Big Query部分，改为写入文件，则代码执行正常，并且表以dict格式写入输出文件。ReadFromTextf

浏览 0提问于2017-08-30得票数 0

1回答

从BigQuery导出的Firebase事件

firebase、google-cloud-platform、analytics、data-export

是否有一种将火基事件导出到(例如Parquet格式)的推荐方法？如果我将数据导出到BigQuery，那么将数据一致推送到的最佳方法是什么？原因是我有处理云存储中的拼花文件的daraproc作业，我希望我的防火墙数据能够以同样的方式访问。

浏览 2提问于2020-05-13得票数 1

回答已采纳

2回答

Apache- Bigquery .fromQuery ClassCastException

java、google-bigquery、google-cloud-dataflow、apache-beam

我试图对一个BigQuery表执行一个查询，提取一个列并填充到一个文件中。下面的代码引发异常。我可能错了，但这个过程似乎正在尝试编写临时结果，将位置临时转换为avro格式，读取其中的数据并抛出强制转换异常。$1.apply(BigQuerySourceBase.java:242) at org.apache.beam.sdk.io.gcp.bigquery.BigQuerySourceBase$1.apply(BigQuerySour

浏览 0提问于2020-02-25得票数 0

2回答

使用Apache处理非结构化数据的最佳实践

python、architecture、airflow、etl、apache-beam

我们使用气流来调度作业，并调用Apache作为ETL步骤。数据源是非结构化文件(批处理)，在将它们转换为PCollections之前需要对其进行分析。在我看来，现有的两个最佳选择是：在气流数据组中添加一个预处理节点来解析文件并写入一个拼图文件，然后由Beam处理。在Beam中写入一个自定义IO连接器来解析非结构化文件并创建PC

浏览 5提问于2021-10-19得票数 1

2回答

使用Apache以CSV格式将BigQuery结果写入GCS

python、google-bigquery、google-cloud-dataflow、apache-beam

我在Apache上工作非常新，在这里我尝试编写一个管道，从Google BigQuery中提取数据，并使用Python格式将数据写入GCS。使用beam.io.read(beam.io.BigQuerySource())，我可以从BigQuery读取数据，但不确定如何以CSV格式将其写入GCS。是否有一个定制功能来实现同样的功能，你能帮我吗？import logg

浏览 1提问于2018-10-22得票数 6

回答已采纳

1回答

读取csv文件并在BigQuery表中填充数据

google-cloud-dataflow

下面是从csv文件中读取并写入另一个csv文件和BigQuery的代码：import loggingimport apache_beam as beamfrom apache_beam.io import ReadFromTextfrom

浏览 4提问于2017-07-31得票数 0

回答已采纳

2回答

无法在云数据流上的apache* beam程序中使用来自beam_utils.sources的CsvFileSource*

python、apache-beam、apache-beam-io

无法导入CsvFileSource，但能够安装beam_utils。我需要这个导入来运行云数据流程序。代码有- from beam_utils.sources import CsvFileSource 错误消息： >>> from beam_utils.sources import CsvFileSourceTraceback (most recent call last): Fi

浏览 11提问于2020-01-22得票数 1

1回答

在数据流作业中安装Python包

python、dataflow

在我的数据流(beam)工作流中，我使用来自Python的datetime包(在gcp上使用jupyter notebook )。当我用pip安装缺少的包时，一切都很好。现在我想在gcp上运行我的转换为数据流作业。我总是得到错误的"NAME ERROR“，因为datetime是未知的(当我使用Apache beam SDK for Python<

浏览 1提问于2020-11-16得票数 0

1回答

python -从apache_beam.io导入文件给出错误:无法导入名称文件

python、apache、csv

我想要将csv文件读入apache beam应用程序的列表中，其中列表中的每个元素都是一个元组或列表(实际上并不重要)，这样我就有了csv4,5,6[(1,2,3) , (4,5,6in <module> File "/usr/local/lib/python2.7/site-packages/beam_utils/sources.py", l

浏览 1提问于2017-10-17得票数 1

1回答

Apache束I/O变换

python、apache-beam、apache-beam-io

Apache文档声明：

浏览 2提问于2018-10-14得票数 2

1回答

在Apache* Beam中使用ReadFromMongoDB时出现错误："pymongo.errors.OperationFailure: Feature not supported: splitVector*

mongodb、google-cloud-dataflow、apache-beam、aws-documentdb、aws-documentdb-mongoapi

我正在尝试从mongodb(在AWS Documentdb中运行)读取数据并写入bigquery。我已经为此编写了python代码，并使用python3命令运行它。我的管道字符串如下所示： p | ReadFromMongoDB(uri='mongodb://documentdb_url:27017',db="test_db",coll="test_collection") | b

浏览 36提问于2021-01-25得票数 1

1回答

来自pubsub的Apache光束读取模式

python、apache-beam

我对传输和读取流数据非常陌生，所以我希望我的问题不是太琐碎。在将数据写入其他文件之前，我将使用beam Python SDK从PubSub读取数据。因为我收到的数据总是相同的格式，所以我尝试使用特性来解析我从PubSub收到的数据。接收到的数据总是一个字典name: "my_name",

浏览 0提问于2021-07-22得票数 0

1回答

PCollection to Array -如何在WriteToText PTransform中动态输入头？

python、google-cloud-dataflow、apache-beam

我正在使用运行在dataflow runner上的Apache beam 2.19编写一个数据流作业。我正在尝试将包含嵌套和重复字段的BigQuery输入转换为平面化的CSV。BQ输入是使用递归方法展平的。我需要将扁平化的格式写入CSV文件，这不是问题，除非我需要将字典键作为头文件传递。我可以将header转换为pvalue singelton，

浏览 8提问于2020-05-20得票数 0

1回答

谷歌云数据流-来自PubSub消息的Pyarrow架构

python、google-cloud-dataflow、apache-beam、google-cloud-pubsub、pyarrow

我正在尝试使用Google Cloud Dataflow (Python SDK)将Google PubSub消息写入Google Cloud Storage。消息以json格式进入PubSub，我必须定义一个模式，以便将它们写入Google Cloud Storage中的parquet格式。根据其他用户的建议，我从特别研究和源代码开始着手这项任务。第一个不是我想要做的，因为它将更改应用到json文件(它通过一个窗口合并它们，将原始

浏览 3提问于2020-07-23得票数 0

2回答

更新Google Cloud数据存储中的所有同类实体

google-cloud-platform、google-cloud-datastore

我们在数据存储中有大约1000万个实体或某种类型的数据集。我们想要更改products的功能，所以我们想要更改所有种类实体上的字段。有没有一种智能/快速的方法来做到这一点，而不涉及迭代所有的系列实体？

浏览 29提问于2020-12-28得票数 2

1回答

如何在中正确定义和使用模式？

python、apache-beam

以下代码尝试从源读取数据、定义架构和执行SQLTransform。 File "/home/lib/python3.9/site-packages/apache_beam/coders/coders.py", line 423, in encode| SqlTransform( ... ""&q

浏览 6提问于2022-04-13得票数 -2

回答已采纳

2回答

如何在apache* beam数据流中将csv转换为字典*

python、csv、google-bigquery、google-cloud-dataflow、apache-beam

我想读取一个csv文件，并将其写入到BigQuery使用阿帕奇光束数据流。为此，我需要将数据以字典的形式呈现给BigQuery。如何使用apache beam转换数据以实现此目的？我的输入csv文件有两列，我想在BigQuery中创建一个后续的两列的表。我知道如何在BigQuery中创建数据，这很简单，我不知道的是如何将csv转

浏览 1提问于2016-12-16得票数 9

回答已采纳

2回答

NameError:未定义名称“存储”的python3.8

python-3.x、google-cloud-platform、google-cloud-storage、google-cloud-dataflow、apache-beam

我正在尝试设置一个数据流作业，用于将json文件转换为csv，并使用下面的python脚本将其写入桶中。(我在3.8.13中尝试了这一点)，因为我使用的是apache。我尝试过改变许多版本的python和google云存储。在不使用存储库的情况下，有什么替代方法吗？import apache_beam as beam import pandas

浏览 6提问于2022-07-06得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云