Pyspark:从表中读取数据并写入文件

文章/答案/技术大牛

发布

1回答

、、、

我正在使用HDInsight spark集群来运行我的Pyspark代码。我尝试从postgres表中读取数据，并将其写入如下所示的文件中。所以我无法将DataFrame写到文件中。为什么"spark.read“返回DataFrameReader。这里我漏掉了什么？from pyspark.sql.types import * from pyspark.

浏览 40提问于2020-04-24得票数 0

回答已采纳

1回答

如何在postgres驱动程序中使用nextval()？

、、、、

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。id使用nextval('my_sequence')从序列中获取其值。PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我可以看到，在读取数据</em

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

使用配置单元元数据读取HDFS文件- Pyspark

、、、、

我是PySpark新手，正在尝试读取HDFS文件(上面创建了hive表)并创建PySpark数据帧。通过PySpark读取配置单元表非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe中的模式)？我希望将文件位置、表名和数据库名作为输入传递给aa程序/函数，以便从配置单元元数据(可

浏览 15提问于2019-03-06得票数 0

回答已采纳

1回答

完整数据帧的火花散列

、

是否可以找到完整PySpark数据的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道pySpark中存在函数，用于从pyspark.sql.functions导入sha2进行列级哈希计算。读取数据中的数据</em

浏览 8提问于2022-12-04得票数 0

1回答

将Google存储数据加载到bigtable中

、、

是否有简单的方法或示例将Google Cloud Storage数据加载到bigtable中？但是我找不到一个简单的方法去做那件事！我已经尝试过来自python的代码，它的工作效率很高，但是它只是一行一行地读取到bigtable中，这对我来说很奇怪。任何帮助都将不胜感激。

浏览 2提问于2017-11-17得票数 3

回答已采纳

1回答

如何在PySpark笔记本中运行sql查询

、

我有一个SQL查询，运行在Azure Synapse分析中，可以从ADLS查询数据。我能否使用Azure Synapse分析中的PySpark在笔记本中运行相同的查询？我谷歌了一些在笔记本中运行sql的方法，但是看起来需要对代码做一些修改。查询选择*来自OPENROWSET(大容量'，FORMAT = 'PARQUET‘)

浏览 7提问于2022-01-11得票数 -1

回答已采纳

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为：from pyspark.sql.functions import*在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functionsemp.em

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

如何使用QueryCassandra和ExecutePySpark Nifi处理器将我的cassandra数据传输到火花源？

、、、、

我只是使用querycassandra处理器查询cassandra表，但我不理解的是如何将Json输出文件作为输入文件传递给ExecutePyspark处理器，然后我需要将我的Spark数据传递给Hive

浏览 1提问于2018-03-14得票数 3

回答已采纳

1回答

DynamicFrame.fromDF在使用glueContext.write_from_options()写入数据库时会造成极大的延迟

、

我有一个胶水作业，其中我需要从Server的两个表中读取数据，执行一些联接/转换，并将其写回Server中的另一个新的/截断表。要写入的数据大小约为15 be。方法1-大约需要17分钟(从Server读取数据、转换、写入S3、从S3读取数据、将数据写回Server) 将数据

浏览 9提问于2022-10-14得票数 0

1回答

使用pyspark从s3读取流数据

、、、、

我想利用python的极其简单的文本解析和函数式编程能力，并利用丰富的科学计算库，如numpy和scipy，因此我想使用pyspark来完成一项任务。我一开始要执行的任务是从一个存储桶中读取数据，其中有文本文件作为流的一部分被写入。有人可以粘贴一个代码片段，说明如何使用pyspark从s3路径中读取流数据吗？直到最近我还以为只能使用scala和java才能做到这一点，但我今天才发现

浏览 1提问于2015-04-11得票数 2

1回答

数据库Python优化

、、、、

我需要您的帮助，我在python中有一个简单的代码，它列出了数据库中所有数据库中的所有字段，有将近90个表，我想将结果保存在一个txt或csv文件中。

浏览 8提问于2022-01-06得票数 0

1回答

Avro schema ( .avsc )在Pyspark中的实施

、、

有人可以帮助我通过Pyspark读取avro schema (.avsc )，并在将数据帧写入目标存储时强制执行它吗？我所有的targetr表模式都是以.avsc文件的形式提供的，在Pyspark中保存我的数据框架时，我需要提供这个自定义模式。我知道有像databricks的spark-avro这样的库。

浏览 19提问于2021-03-23得票数 1

2回答

我正在尝试读取通过Kafka和SparkStreaming获取的HDFS存储的数据。consumerRecordJavaRDD.saveAsTextFile("/tmp/abcd_" + System.currentTimeMillis());一个文本文件行被推入卡夫卡数据保存在本地主机:50070的默认hadoop浏览器中。然后，在pyspark应用程序中，我尝试使用sparkContext.

浏览 0提问于2018-01-22得票数 0

回答已采纳

1回答

Pyspark :云存储中来自多个文件的增量ETL

、、、、

我有大约500-700 csv文件的日志加载每周。文件名是每周随机生成的。这些文件存储在google云存储上，pyspark在google dataproc上运行，有几个工作节点。我已经创建了一个pyspark文件，它基本上只是迭代文件并按原样加载到bigquery中。我以为我会在bigquery表上看到增量加载，但似乎pyspark会将整个gz输入文件合并到dataframe中，

浏览 22提问于2021-10-10得票数 1

2回答

如何在pyspark的不同模块中使用相同的连接数据帧用法

、、、、

我们有从多个源表读取数据并根据业务规则连接和应用映射的场景。在某些情况下，从几个表中读取的数据可以用于多个目标加载。那么，为了避免在运行不同的模块时多次读取相同的数据，有什么选择可以在不同的pyspark模块中使用相同的dataframe输出吗？from table1) df_out =

浏览 0提问于2020-11-07得票数 0

1回答

如何使用Pyspark从xml文件创建子数据帧？

我在pyspark中有所有这些支持库，并且我能够为parent创建数据帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子数据帧

浏览 11提问于2019-03-15得票数 0

2回答

星星之火HiveContext :插入覆盖与读取表相同的表

、、、

我想使用SCD1和SCD2在HiveContext中使用PySpark。在我的方法中，我正在读取增量数据和目标表。阅读完后，我将加入他们的行列，寻找新的方法。我正在对所有的源数据做registerTempTable。我正在尝试将最终数据集写入目标表，并且我面临的问题是，无法在从目标表读取的表中插入覆盖。请提出一些解决办法。我不想将中间数据<em

浏览 6提问于2017-09-10得票数 1

回答已采纳

2回答

从pyspark作业在s3存储桶中动态创建文件夹

、、、

我正在将数据写入s3存储桶，并使用pyspark创建拼图文件。我的存储桶结构如下：子文件夹和表如果文件夹不存在，这两个文件夹应该在运行时创建，如果文件夹存在，拼图文件应该在文件夹表中。当我在本地机器上运行pyspark<

浏览 2提问于2020-12-03得票数 0

2回答

读取Avro文件并将其写入BigQuery表

、、、

我的目标是从云存储中读取avro文件数据，并使用Java将其写入BigQuery表。如果有人提供代码片段/想法来读取avro格式的数据并使用将其写入BigQuery表，那就太好了。

浏览 1提问于2019-02-05得票数 5

回答已采纳

2回答

使用Phoenix从PySpark更新HBase

、、、、

我正在尝试使用Phoenix连接器从PySpark读取和写入HBase。我已经看到中的示例代码复制了此处的示例代码，以便于参考： .format("org.apache.phoenix.spark") \ .option("table", "TABLE1") \ .option("zkUrl", "localhost:2

浏览 5提问于2018-01-06得票数 0

点击加载更多