如何将uuid从pyspark dataframe保存到postgres？_如何将表达式iloc从pandas转换为Pyspark Dataframe？ - 腾讯云开发者社区

、、、

给出一个具有非空uuid列和可空uuid列的表设计，如何使用Python3.7.9与Pysmack2.4.3数据table和PostgreSQL42.2.18.jar驱动程序进行插入？ table_df = spark.read.format('jdbc) \ .option('driver', 'org.postgresql.Driver') \ .option('dbtable', 'example_table') \

浏览 9提问于2020-11-03得票数 4

1回答

如何使用postgreSQL表插入csv文件内容？

、、、

我希望将数据从csv文件插入到postgreSQL表中。我编写了从csv文件中获取数据的代码，如下所示 myData = spark.read.format("csv").option("header","true").load("D:/sample.csv") 我得到了'myData‘变量中的文件内容，我编写了如下数据库连接。 url = 'postgresql://myPath'; properties = { "user": "postgres", &

浏览 0提问于2018-09-19得票数 1

回答已采纳

1回答

如何在postgres驱动程序中使用nextval()？

、、、、

在Postgres中，我有一个名为"mytable“的表，其中有两个列，id (bigint)和value (varchar(255))。 id使用nextval('my_sequence')从序列中获取其值。 PySpark应用程序接受一个dataframe并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“中。我使用以下方法创建id列： df.withColumn('id', lit("nextval('my_sequence')")) Postgres将该列解释

浏览 0提问于2018-01-21得票数 2

回答已采纳

1回答

Pyspark:从表中读取数据并写入文件

、、、

我正在使用HDInsight spark集群来运行我的Pyspark代码。我尝试从postgres表中读取数据，并将其写入如下所示的文件中。pgsql_df返回的是DataFrameReader而不是DataFrame。所以我无法将DataFrame写到文件中。为什么"spark.read“返回DataFrameReader。这里我漏掉了什么？ from pyspark.sql.types import * from pyspark.sql import SparkSession from pyspark import SQLContext from pyspark import S

浏览 40提问于2020-04-24得票数 0

回答已采纳

1回答

Pyspark dataframe:用给定模式编写jdbc来动态创建表

、、、

是否有一种方法可以像我们使用熊猫的方法那样，动态地从pyspark创建具有给定模式的表。类似地，我们可以从pyspark dataframe创建一个具有给定模式的表吗？ df.write.jdbc("jdbc:postgresql://localhost:5432/postgres", "sample_data1",mode="overwrite", properties=prop); 在上面的代码中，我们如何给出模式来生成我们想要的表？

浏览 4提问于2020-06-22得票数 1

回答已采纳

1回答

postgres regexp_substr的pyspark等效项无法提取值

、、、

我正在尝试将我已有的一些postgres sql代码调整为pyspark sql。在postgres sql中，我使用regexp_substr函数解析出‘.5G’，如果它出现在productname列的字符串中。(我已经在下面包含了示例代码)。在pyspark方面，我尝试使用regexp_extract函数，但它只返回null。我将postgres中的regexp_replace函数的输出与pyspark进行了比较，结果返回了相同的值。所以问题一定出在regexp_extract函数中。我已经创建了一个示例输入dataframe和下面运行的pyspark代码。有没有人能告诉我我哪里做错了，

浏览 20提问于2021-01-26得票数 0

1回答

根据字段的唯一值在PySpark数据框中生成UUID

、、

目前还没有办法基于字段的唯一值在PySpark数据帧中生成UUID吗？我知道Pandas可以很容易地做我想做的事情，但是如果我想根据特定的列属性为pyspark dataframe的每一行提供一个唯一的UUID，我该怎么做呢？假设我有一个熊猫DataFrame，如下所示： df = pd.DataFrame({'Name': ['John Doe', 'Jane Smith', 'John Doe', 'Jane Smith','Jack Dawson','John Doe']}

浏览 0提问于2020-04-11得票数 1

2回答

计算UDF一次

、、、、

我希望在一个只计算一次的pyspark dataframe中有一个UUID列，这样我就可以在一个不同的dataframe中选择该列，并且UUID是相同的。但是，当我选择UUID列时，将重新计算UUID列的UDF。我想做的是： >>> uuid_udf = udf(lambda: str(uuid.uuid4()), StringType()) >>> a = spark.createDataFrame([[1, 2]], ['col1', 'col2']) >>> a = a.withColumn('

浏览 9提问于2020-01-21得票数 0

回答已采纳

2回答

Databricks - pyspark.pandas.Dataframe.to_excel不承认abfss协议

、、、、

我想使用Python将Dataframe (pyspark.pandas.Dataframe)作为一个Excel文件保存在Azure数据湖Gen2上。我已经切换到pyspark.pandas.Dataframe，因为它是从Spark3.2开始推荐的。有一种名为to_excel (，文档)的方法允许将文件保存到ADL中的容器中，但我在文件系统访问协议方面遇到了问题。在同一个类中，我使用了使用abfss的to_csv和to_parquet方法，我想在excel中使用相同的方法。因此，当我尝试这样保存它时，我使用： import pyspark.pandas as ps # Omit the d

浏览 32提问于2022-05-11得票数 0

回答已采纳

2回答

PySpark将DataFrame保存到实际的JSON文件

、、、、

如何将PySpark DataFrame保存到真正的JSON文件？在以下文档中，我尝试了 df.write.json('myfile.json') 它可以工作，但它将文件保存为一系列字典，每行一本，这不能被 import json d = json.load(open('myfile.json')) 我希望这个文件包含一个字典的列表。有办法吗？

浏览 5提问于2016-03-22得票数 2

回答已采纳

1回答

在Scala Spark和PySpark之间传递sparkSession

、、、

我的要求是从现有的PySpark程序中调用一个"Spark Scala“函数。将PySpark程序中创建的sparkSession传递给Scala函数的最佳方式是什么？我将我的scala jar传递给Pyspark，如下所示。 spark-submit --jars ScalaExample-0.1.jar pyspark_call_scala_example.py iris.data Scalacode def getDf(spark: SparkSession, query:String, df: DataFrame, log: Logger): DataFrame = { i

浏览 59提问于2019-10-01得票数 4

1回答

向类添加功能的最佳方法- PySpark

、、、、

有一段时间，我在寻找如何将多个列一次重命名为一个PySpark DF，并遇到了如下情况： import pyspark def rename_sdf(df, mapper={}, **kwargs_mapper): # Do something # return something pyspark.sql.dataframe.DataFrame.rename = rename_sdf 我对最后一段感兴趣，其中通过赋值语句将方法添加到pyspark.DataFrame类中。问题是，我正在创建一个Github来存储我的所有函数和ETL，我认为如果我能够应用上面显示的逻辑，就可以非

浏览 6提问于2020-07-09得票数 1

1回答

如何使用PySpark处理来自Kafka的数据？

、、

我想处理从Kafka流到PySpark的日志数据并保存到拼图文件中，但我不知道如何将数据输入到Spark。请帮帮我谢谢。

浏览 68提问于2020-07-04得票数 0

1回答

列是uuid类型，但表达式的类型在Spark中是可变的。

、、、

日安。我正在部署一个流作业，以将数据从Spark (Scala)插入到Postgres。 df.select("col1","col2").write.mode(SaveMode.Append).jdbc(url, "tableName", connectionProperties) 这里，col2在dataframe中有uuid值，但它是一个字符串数据类型。当它试图插入到将col2列定义为uuid类型的表时，它在Column is of type uuid but expression is of type character varying中

浏览 3提问于2021-02-25得票数 0

回答已采纳

1回答

火花放电中添加UUID的有效方法

、、

我有一个DataFrame，我想要添加一个由不同的uuid4()行组成的列。我的代码： from pyspark.sql import SparkSession from pyspark.sql import functions as f from pyspark.sql.types import StringType from uuid import uuid4 spark_session = SparkSession.builder.getOrCreate() df = spark_session.createDataFrame([ [1, 1, 'teste

浏览 3提问于2020-03-11得票数 6

回答已采纳

1回答

将Dataframe激发到StringType

、、、

在PySpark中，如何将Dataframe转换为普通字符串？背景：我将PySpark与Kafka一起使用，而不是硬编码代理名称，而是在PySpark中参数化了Kafka broker名称。 Json文件保存了代理详细信息，Spark读取这个Json输入并将值赋值给变量。这些变量为带有字符串的Dataframe类型。当我将dataframe传递给Pyspark连接细节以替换值时，我将面临问题。错误：只能将字符串(不是Dataframe)连接到字符串。 Json参数文件： { "broker": "https://at.com:8082", "t

浏览 0提问于2021-03-05得票数 0

4回答

PySpark计算相关性

、、、、

我想使用pyspark.mllib.stat.Statistics.corr函数来计算pyspark.sql.dataframe.DataFrame对象的两列之间的相关性。corr函数期望接受rdd of Vectors对象。如何将df['some_name']列转换为rdd of Vectors.dense对象？

浏览 12提问于2016-06-03得票数 16

回答已采纳

1回答

Python:扩展类方法并使用类的替换实例

、、、、

我想扩展pyspark.sql.DataFrame的读写功能，以满足我自己的项目需要。为此，我创建了以下代码 import pyspark.sql class DataFrame(pyspark.sql.DataFrame): def __init__(self, *args, **kwargs): super().__init__(*args, **kwargs) def write(self, format="parquet", version=True): if format=="some_format"

浏览 1提问于2020-06-17得票数 0

1回答

使用检查点从胞表读取和更新同一个表

、、

我正在使用spark版本2.3，并试图将spark中的蜂巢表读取为： from pyspark.sql import SparkSession from pyspark.sql.functions import * df = spark.table("emp.emptable") 在这里，我添加了一个新列，其中包含了从system到现有的dataframe的当前日期 import pyspark.sql.functions as F newdf = df.withColumn('LOAD_DATE', F.current_date()) 现在面临一个问题，当我试

浏览 0提问于2018-12-06得票数 2

回答已采纳

1回答

pyspark.pandas.frame.DataFrame与pyspark.sql.dataframe.DataFrame的差异及其转换

、、

我找不到关于这一点的任何详细文档，那么pyspark.pandas.frame.DataFrame和pyspark.sql.dataframe.DataFrame之间有什么区别，在哪里可以找到它们的方法的文档呢？另外，如何将其中一个转换成另一个，反之亦然？转换它们总是无缝的还是某些数据类型不被识别？

浏览 6提问于2022-09-12得票数 1

回答已采纳

4回答

将火花数据存储到蜂巢中:表格不可读，因为“SequenceFile不是块”

、、、

我希望使用PySpark将数据保存到一个Hive表中。指出： "spark.sql.hive.convertMetastoreParquet:当设置为false时，Spark将使用Hive SerDe来处理拼花表，而不是支持内置的。“ 查看，似乎可以设置此属性： from pyspark.sql import HiveContext sqlContext = HiveContext(sc) sqlContext.sql("SET spark.sql.hive.convertMetastoreParquet=false") # code to create

浏览 2提问于2015-07-17得票数 9

回答已采纳

1回答

如何从PySpark中的向量列中提取浮点数？

、、、、

我的星火DataFrame有以下格式的数据： printSchema()显示每一列都是vector类型的。我尝试使用下面的代码从[和]中获取值(对于1列col1)： from pyspark.sql.functions import udf from pyspark.sql.types import FloatType firstelement=udf(lambda v:float(v[0]),FloatType()) df.select(firstelement('col1')).show() 但是，如何将其应用于df的所有列？

浏览 0提问于2020-02-18得票数 1

回答已采纳

1回答

如何在databricks notebook中将pyspark.sql.dataframe.DataFrame转换回SQL表

、、、、

我通过执行以下行创建了pyspark.sql.dataframe.DataFrame类型的数据帧：dataframe = sqlContext.sql("select * from my_data_table") 如何将其转换回可以运行sql查询的sparksql表？

浏览 0提问于2016-08-20得票数 10

回答已采纳

1回答

PySpark PCA:如何将数据行从多列转换为单列DenseVector？

、、、、

我想使用PySpark (Spark1.6.2)对存在于Hive表中的数值数据执行主成分分析(PCA)。我能够将Hive表导入到： >>> from pyspark.sql import HiveContext >>> hiveContext = HiveContext(sc) >>> dataframe = hiveContext.sql("SELECT * FROM my_table") >>> type(dataframe) <class 'pyspark.sql.dataframe.D

浏览 1提问于2016-10-06得票数 4

回答已采纳

2回答

熊猫数据转换为PySpark的问题？

、、、、

使用read_csv()函数，我读取了一个iso-8859-1文件，如下所示： df = pd.read_csv('path/file', \ sep = '|',names =['A','B'], encoding='iso-8859-1') 然后，我想使用MLLib的word2vect。但是，它只接受作为参数RDDs。所以我试着把熊猫的数据转换成一个RDD，如下所示： from pyspark.sql import SQLContext spDF = sqlContext.

浏览 4提问于2016-03-17得票数 1

回答已采纳

2回答

如何修改/转换数据框中的列？

、、、

我有一个使用以下命令创建的pyspark.sql.dataframe.DataFrame实例 dataframe = sqlContext.sql("select * from table"). 其中一列是“arrival_date”，其中包含一个字符串。如何修改此列，使其只取其中的前4个字符，并丢弃其余的字符？如何将此列的类型从字符串转换为日期？在graphlab.SFrame中，这将是： dataframe['column_name'] = dataframe['column_name'].apply(lambda x: x[:4] )

浏览 0提问于2016-08-20得票数 4

回答已采纳

2回答

SparkSQL JDBC (PySpark)到Postgres -创建表并使用CTEs

、、、、

我正在进行一个项目，将Python概念证明(POC)移植到PySpark。POC极大地利用了Postgres，特别是PostGIS地理空间库。大部分工作由Python在调用数据以进行最终处理之前向Postgres发出命令组成。传递给Postgres的一些查询包含CREATE TABLE、INSERT、CREATE TEMP TABLE和CTE WITH语句。我正试图确定是否可以通过JDBC从Spark将这些查询传递给Postgres。有人能确认这个功能在Spark中是否可以用于其他数据库吗？为了明确起见，我希望将纯英语的SQL查询传递给Postgres，而不是使用可用的SparkSQL A

浏览 5提问于2020-02-06得票数 1

回答已采纳

2回答

如何在PySpark中将df列[JSON_Format]转换为多个列？

、、、、

我从Kafka那里得到了JSON格式的数据，并在PySpark中以DataFrame的形式读取了这些数据。在我从Kafka获得数据后，它显示为DataFrame格式： DataFrame[value: string] 但是，该值包含JSON / DICT格式。打印语句和返回： def print_row(row): print(row) pass testing.writeStream.foreach(print_row).start() Row(value='{col_1 =80.0, timestamp=2020-01-13T08:58:58.164Z}&#

浏览 24提问于2020-01-13得票数 0

1回答

找不到保存到配置单元表的pyspark数据帧

、、、

我们已经通过cdh6.2安装了集群。使用pyspark创建一个dataFrame，然后将其保存到hive。已在仓库中正确创建该文件，但无法使用show tables在配置单元或impala中找到该文件。它可以通过spark sql使用sql.(“show tables”)找到。但它只显示了以前由spark代码创建的表，这意味着它不能看到通过hive或impala控制台创建的表。所以我认为可能spark代码没有收集到Hive Metastore服务器。但我不知道如何将其设置到Hive Metastore服务器。

浏览 12提问于2019-05-15得票数 0

2回答

我无法从dataframe保存到postgresql

、、、

import pandas as pd import requests as rq from sqlalchemy import create_engine engine = create_engine('postgresql+psycopg2://postgres:3434@127.0.0.1/postgres') temp = pd.DataFrame() df = pd.DataFrame() vehicleList = {"LX59ANR", "SN63NBK", "YY64GRU"} for ids in ve

浏览 11提问于2020-01-14得票数 1

回答已采纳

2回答

如何将数据帧转换为json格式

、、

我想知道如何将pyspark dataframe转换为json格式。 name ㅣ type 'james'ㅣ 'message'-> 4, 'text' ->3 'kane' ㅣ 'message'->2, 'text'->3 数据帧到json格式 data = [ {name : 'james', 'message' : 4, 'text; : 3}, {'name' : '

浏览 12提问于2020-08-14得票数 0

1回答

将向量列添加到吡咯DataFrame中

、、、

如何将Vectors.dense列添加到pyspark中？ import pandas as pd from pyspark import SparkContext from pyspark.sql import SQLContext from pyspark.ml.linalg import DenseVector py_df = pd.DataFrame.from_dict({"time": [59., 115., 156., 421.], "event": [1, 1, 1, 0]}) sc = SparkContext(master="loc

浏览 1提问于2018-04-14得票数 1

回答已采纳

1回答

将不带时区的Postgres时间戳转换为PHP日期时间

、、、

我从Postgres数据库中提取记录，然后将它们保存到MySQL数据库中。我是Postgres的新手，我在使用这些时间戳时遇到了困难。如何将这些没有时区值的时间戳转换为PHP日期时间(中部时间)？

浏览 2提问于2020-09-18得票数 2

1回答

如何从pyspark dataframe中更快地保存csv文件？

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。 Full_data.toPandas().to_csv("Level 1 - {} Hourly Avg Data.csv".format(yr), index=False) Full_data.repartition(1).write.format('com.databricks.spark.

浏览 126提问于2019-08-01得票数 5

3回答

如何在JDBC模板中使用UUID？

、、、、

我使用spring框架和JDBC模板，也使用postgres。我在postgres中有使用UUID作为主键的表，该列的类型是postgres的。如何将这些UUID存储在通过JDBC模板创建的准备语句中？我尝试将UUID转换为如下所示的字符串： int rowsAffected = this.jdbc.update(sql, new Object[] { baseMaterial.getId().toString().toLowerCase(), baseMaterial.getName(), baseMaterial.getDescription() }); 但这导

浏览 7提问于2017-10-31得票数 2

回答已采纳

1回答

如何将spark dataframe中的String类型列转换为Pandas dataframe中的String类型列

、、

我有一个从熊猫数据帧创建的样本spark数据帧- from pyspark.sql import SparkSession import pyspark.sql.functions as F from pyspark.sql.types import StringType from pyspark.sql.types import * import pandas as pd spark = SparkSession \ .builder \ .appName("Python Spark SQL basic example") \ .config(&

浏览 3提问于2020-09-09得票数 0

2回答

Pyspark:从AWS:S3桶读取数据并写入postgres表

、、、

我试图从S3存储桶中读取数据，并希望将其写入/加载到postgres表中。我的密码是- from pyspark.sql import SparkSession spark = SparkSession.builder.appName('Read Multiple CSV Files').getOrCreate() path = ['C://Projects/Sandbox/file2.csv'] files = spark.read.csv(path, sep=',',inferSchema=True, header=True) df1 = f

浏览 3提问于2022-03-21得票数 0

回答已采纳

1回答

如何将表达式iloc从pandas转换为Pyspark Dataframe？

、、

如何将pandas表达式转换为pyspark，这似乎不起作用，然后将dataframe转换为数组？ +---- +------+-----+ |idx |Type1 |Type2| +---- +------+-----+ |1 | D | C | |2 | 5.0 | null| |3 | 6.0 | 7.0 | +-----+------+-----+ N=2 df = df.iloc[-N:, :] #expression in pandas df = df.collect()[-N:][:] # expression in Pyspar

浏览 11提问于2021-02-14得票数 0

回答已采纳

2回答

PySpark如何迭代数据框列和更改数据类型？

、、、、

迭代Spark Dataframe的最好方法是什么(使用Pyspark)，一旦找到Decimal(38,10) ->的数据类型，将其更改为Bigint (并将所有内容重新保存到相同的dataframe)？我有一个改变数据类型的部分-例如： df = df.withColumn("COLUMN_X", df["COLUMN_X"].cast(IntegerType())) 但是试图找到并与迭代集成.. 谢谢。

浏览 21提问于2020-03-05得票数 0

回答已采纳

1回答

如何在spark中将sql游标输出转换为spark数据帧？

、

我使用cursor.fetchall()得到了输出。如何将输出转换为Spark dataframe并在Pyspark中创建拼图文件？

浏览 27提问于2021-09-22得票数 0

2回答

截断MD5的ECDF图

、、、

在这个l中，它说截断的MD5是均匀分布的。我想使用PySpark检查它，我首先在Python中创建了1,000,000个UUID，如下所示。然后截断MD5中的前三个字符。但我得到的图与均匀分布的累积分布函数不相似。我尝试了UUID1和UUID4，结果是相似的。协调截断MD5均匀分布的正确方法是什么？ import uuid import numpy as np import matplotlib.pyplot as plt from statsmodels.distributions.empirical_distribution import ECDF import pandas as pd

浏览 1提问于2018-10-22得票数 5

回答已采纳

1回答

pyspark错误：'DataFrame‘对象没有属性'map’

、、

我正在使用Pyspark2.0通过读取csv来创建一个DataFrame对象，使用： data = spark.read.csv('data.csv', header=True) 我使用以下命令找到数据的类型 type(data) 结果是 pyspark.sql.dataframe.DataFrame 我正在尝试将数据中的一些列转换为LabeledPoint，以便应用分类。 from pyspark.sql.types import * from pyspark.sql.functions import loc from pyspark.mllib.regression

浏览 4提问于2016-09-08得票数 6

2回答

AWS胶水IllegalArgumentException：‘无效的类型名称uuid’

、

我正在尝试将一个在一列中包含UUID的表ETL到postgres表中，但是我正在努力将UUID列作为UUID类型加载到目标postgres表中。使用以下代码行： applymapping1 = ApplyMapping.apply(frame = foo, mappings = [("id", "string", "id", "uuid")], transformation_ctx = "applymapping1") 当我运行glue作业时收到以下错误： IllegalArgumentException: &

浏览 57提问于2019-10-04得票数 0

回答已采纳

1回答

Jupyter Cassandra保存问题- java.lang.NoClassDefFoundError: com/twitter/jsr166e/LongAdder

、、、、

我正在使用Jupyter notebook，并希望将csv文件保存到cassandra数据库。在获取和显示数据时没有问题，但当我尝试将此csv数据保存到cassandra db时，它抛出以下异常。 : org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 1.0 failed 1 times, most recent failure: Lost task 0.0 in stage 1.0 (TID 1, localhost, executor driver): java.lang.

浏览 26提问于2019-03-21得票数 0

回答已采纳

1回答

处理内部的数据，或将其保存到Dataframe或外部文件中

、、、

我正在使用HashingTF和IDF计算TF和国防军，并且使用以下代码： from pyspark import SparkContext from pyspark.mllib.feature import HashingTF from pyspark.mllib.feature import IDF sc = SparkContext() # Load documents (one per line). documents = sc.textFile("random.txt").map(lambda line: line.split(" ")) hash

浏览 0提问于2016-02-23得票数 0

回答已采纳

1回答

列DataFrame中的JSON

、、、、

我正在尝试制作一个大容量插入的dataframe，我在Postgres中的表有一个字段类型 JSON ，我想在它上插入原始JSON，但是当我试图实现它时，python从双引号改为单引号'，在技术上它破坏了DataFrame中的JSON列，我只想找到一种方法来实现这个批量插入。首先以json格式获取数据，然后为数据操作和清理制作一个Dataframe，最后我想在Postgres中插入这个DF。 df = pd.DataFrame(response['data']) 这就是python如何将我的JSON从{ "age_max": 44, "age_

浏览 8提问于2021-02-17得票数 0

1回答

有没有办法从pyspark连接到postgresql (dbeaver )？

、、、、

你好，我现在安装了pyspark，我在DBeaver中有一个本地的postgres数据库:我如何从pyspark连接到postgres？我试过了 from pyspark.sql import DataFrameReader url = 'postgresql://localhost:5432/coucou' properties = {'user': 'postgres', 'password': 'admin'} df = DataFrameReader(sqlContext).jdbc( url

浏览 69提问于2021-08-24得票数 0

回答已采纳

2回答

星星之火SQL RDD加载在pyspark中，但没有在SQL中加载-提交："JDBCRDD:关闭连接“

、、

我有以下简单代码，用于将表从Postgres数据库加载到RDD中。 # this setup is just for spark-submit, will be ignored in pyspark from pyspark import SparkConf, SparkContext from pyspark.sql import SQLContext conf = SparkConf().setAppName("GA")#.setMaster("localhost") sc = SparkContext(conf=conf) sqlContext = SQL

浏览 4提问于2017-02-16得票数 0

1回答

将loc表达式从pandas转换为Pyspark？

、、、

如何将此表达式从pandas转换为Pyspark Dataframe？目标是为列date_stamp赋值cur #the data frame is: tag, 2020-06-25 ------------------- 3FMTK1RM 0 678jhgt 18 ####################### vin='3FMTK1RM'# is the first element of tag cur= 5 date_stamp='2020-06-25' df.loc[str(date_stamp),vin] = cur

浏览 7提问于2021-02-05得票数 0

回答已采纳

1回答

PySpark DataFrame写入空(零字节)文件

、、

我正在使用Spark3.1.1版本的PySpark DataFrame API进行本地设置。在读取数据、执行一些转换等之后，我将DataFrame保存到磁盘。输出目录与part-0000*文件一起创建，输出目录中也有_SUCCESS文件。但是，我的part-0000*总是空的，即零字节。我试着用parquet和csv格式编写它，结果是一样的。在编写之前，我调用了df.show()以确保DataFrame中有数据。 ### code.py ### from pyspark.sql import SparkSession from pyspark.sql import functions as

浏览 8提问于2022-05-11得票数 1