CSV文件中的任何" null“字符串都应替换为pyspark dataframe - Databricks中的SQL值null - 腾讯云开发者社区

文章/答案/技术大牛

发布

2回答

CSV文件中的任何" null“字符串都应替换为pyspark dataframe - Databricks中的SQL值null

、、

我有一个以" null“作为字符串的Dataframe，我想将其替换为数据库中PySpark Dataframe中的SQL值null。有没有人能帮个忙。我是Spark的新手。谢谢。

浏览 38提问于2021-09-02得票数 2

4回答

databricks:将spark数据帧直接写入excel

web上的大多数示例都显示了panda数据帧的示例。但是我想使用spark dataframe来处理我的数据。有什么想法吗？

浏览 0提问于2019-11-29得票数 5

1回答

火花:火花-csv花了太长时间

、、

我正试图使用Databricks DataFrame包和，从EMR集群上的S3上的CSV源创建一个sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.spark.csv').options(header='true').load(&

浏览 0提问于2015-08-28得票数 3

6回答

如何在Apache预构建版本中添加任何新的库(如Spark csv)

、、

我已经构建了，并能够使用下面的命令使用同样的pyspark错误获取Traceback (most recent call last): File "<st

浏览 13提问于2015-06-10得票数 26

回答已采纳

3回答

Pyspark:将PythonRDD转换为Dataframe

、

有人能引导我把PythonRDD转换成DataFrame吗。rdd1 = sparkCxt.textFile(setting.REFRESH_HDFS_DIR + "&#x

浏览 3提问于2016-07-12得票数 0

回答已采纳

1回答

将星星之火转换为熊猫的dataframe有例外:在使用基于文件的收集时不支持箭头。

、、、、

我正在尝试将星火数据转换为Azure数据库中的熊猫数据。但我得到了以下错误：首先，我使用以下行读取csv文件：df1 = spark.read.csv('/mnt/test/sample.csv', header = True但是，在执行此操作时，我得到了以下错误:异常:在使用基于<em

浏览 0提问于2019-08-26得票数 1

回答已采纳

3回答

在带约束的Apache Spark (Scala)数据框中将布尔列转换为数值列？

、

val inputfile = sqlContext.read .option("header"inferSchema", "true") .load("data") inputfile: org.apache.spark.sql<

浏览 2提问于2017-11-01得票数 3

回答已采纳

5回答

使用列名编写csv，并读取从Pyspark中的闪烁is数据names生成的csv文件

、、、

/spark-1.6.1-bin-hadoop2.6/bin/pyspark --packages com.databricks:spark-csv_2.11:1.3.0sqlContext = SQLContext(sc) df = sqlContext.read.format('com.databricks.

浏览 6提问于2016-07-27得票数 37

回答已采纳

1回答

Pyspark句柄从字符串转换为十进制

、

我是在Databricks中使用Pyspark的新手，所以这就是为什么我要与以下内容斗争的原因:我有一个dataframe，它有数据类型为string的列。要求将此列和其他与财务相关的列从字符串更改为小数。这是因为我要导出Azure SQL数据库中的架构和数据。我尝试了以下几种方法：从pyspark.sql.functions导入列从pyspark</e

浏览 23提问于2021-10-25得票数 0

回答已采纳

1回答

将嵌套的JSON列转换为Pyspark列

、、、

我已经使用S3数据格式在pyspark.pandas中读取和存储了拼花文件。现在，在第二阶段，我试图在databricks中读取pyspark dataframe中的parquet文件，并面临将嵌套的json列转换为适当列的问题。首先，我使用以下命令从S3读取拼图数据： adf = spark.read.parquet('s3://p

浏览 8提问于2022-06-07得票数 0

2回答

Pyspark问题将计数结果转换为数据帧

、、、

我有一个pyspark函数，看起来像这样。\spark.sql("select count(*) from student_table where student_scores is NULL") \ spark.sql("select count(*) from student_tabl

浏览 0提问于2021-11-07得票数 0

1回答

从BigQuery读取字符串空值时出现问题

、、、、

目前，我正在使用spark从大表中读取数据，并将其作为csv写入存储桶。我面临的一个问题是，spark不能正确地从bq读取空字符串值。它读取空字符串值，但在csv中，它将该值写为带有双引号的空字符串(如"")。.load() # Select required dat

浏览 3提问于2020-05-12得票数 0

1回答

如何从pyspark* dataframe中更快地保存csv文件？*

、、、

我目前在本地的windows10系统上使用pyspark。pyspark代码运行得相当快，但将pyspark数据帧保存为csv格式需要花费大量时间。我正在将pyspark数据帧转换为pandas，然后将其保存到csv文件中。我还尝试使用write方法来保存csv文件。(1).write.format('com.databricks.spark.c

浏览 126提问于2019-08-01得票数 5

2回答

数据砖.从文件夹中读取CSV文件

、

从dbfs:/FileStore/shared_uploads/prasanth/Company.csv中选择* 我试图在蔚蓝数据砖中从文件夹中选择记录，但我面临以下错误：SQL语句: AnalysisException

浏览 3提问于2022-10-21得票数 0

2回答

Pyspark发出将tsv文件加载为数据文件的问题。

、

下面的数据作为标签分隔格式的.txt文件存储在blob存储中。我使用pyspark.sql将数据作为pyspark.sql.df加载到databricks中。 (172, 'yyy'),['LU', 'Input'] # column labels首先，我在加载之前为数据

浏览 8提问于2020-04-11得票数 1

4回答

如何在磁盘上将spark DataFrame保存为csv？

、、

如何在磁盘上将spark DataFrame保存为csv文件？

浏览 1提问于2015-10-16得票数 30

2回答

使用Pyspark将XML转换为Dataframe

、、、

我正在尝试废弃一个XML文件，并从XML文件上的标签创建一个数据帧。我使用pyspark开发Databricks。<?shorttitle> <shorttitle>shorttitle_4</shorttitle>我的代码似乎从页面中

浏览 2提问于2018-09-12得票数 2

2回答

散列md5: Pyspark和submit在时间戳列上不提供相同的输出

、、

在PySpark中，我使用md5函数散列一些数据格式。df_hive = spark.sql("select * from db.table1 where day=1") df_hive

浏览 2提问于2021-04-26得票数 1

回答已采纳

1回答

将csv读入spark sql dataframe时，删除列的常用字符串

、、

我使用databricks spark-csv模块将csv文件作为sqlContext读入。我定制了我的模式，如下面的示例所示。然而，我注意到在我的数据中，第3列是汽车的型号，其中的字符串总是在它前面有一个公共的字符串" model：“。有没有一种方法可以裁剪掉公共字符串？from pyspark.sql import

浏览 0提问于2016-06-09得票数 1

1回答

当将数据文件导出到csv或txt文件时，Pyspark为什么需要类型file？

、、、

在社区版的Databricks中，我使用Python2.7和Spark2.2.1。我有一个Pyspark数据格式"top100m"：Out: pyspark.sql.dataframe.DataFrame 其中有3个数字类型列当试图使用以下代码(基于的Databricks文档)将此文件输出为csv

浏览 0提问于2018-03-27得票数 1

回答已采纳

点击加载更多