Databricks spark dataframe按列创建数据框_转换spark数据框列_如何在spark sql (databricks)中重用已创建的列？ - 腾讯云开发者社区

apache-spark、pyspark

np.random.randint(10) for x in range(1,10)],mypd = pd.DataFrame(data) mypd 然后给出这两列 ? 在pyspark中有没有类似的方法来创建spark数据帧？

浏览 1提问于2021-11-02得票数 0

4回答

使用Scala中的Dataframes在Spark1.30中以文本形式保存

sql、scala、apache-spark

我正在使用Spark1.3.0版本，并在Scala中使用带有SparkSQL的数据格式。在1.2.0版本中，有一个名为"saveAsText“的方法。// sc is an existing SparkContext.// this isused to implicitly convert an RDD to a DataFrame. import sqlCo

浏览 3提问于2015-03-27得票数 6

3回答

火花写入Avro文件

apache-spark、avro

在如下流中使用Spark (使用Scala )编写Avro文件的常见做法是： createRow(...)val dataFrame= sqlContext.createDataFrame(rowRDD, schema) dataFrame

浏览 7提问于2015-11-23得票数 6

2回答

有没有办法在pyspark中根据索引对数据帧进行切片？

apache-spark、pyspark、apache-spark-sql

在python或R中，可以使用索引对DataFrame进行切片。df.iloc[5:10,:] 在pyspark中有没有类似的方式来根据行的位置对数据进行切片？

浏览 3提问于2018-10-13得票数 4

回答已采纳

2回答

在spark中为dataframe中的特定列应用逻辑

scala、apache-spark、dataframe、apache-spark-sql

xml标记，我需要在一个单独的dataframe中的结构化数据中解析它。以前，我将xml文件单独放在一个文本文件中，并使用"com.databricks.spark.xml“加载到spark dataframe中。spark-shell --packages com.databricks:spark-xml_2.10:0.4.1, com.databricks:spark-csv_2.

浏览 2提问于2018-08-29得票数 0

1回答

星火SQL -别名-列名中带有逗号的列

pyspark-sql、databricks

我必须将数据存储在databricks中的临时视图中，使用spark将数据以逗号分隔格式存储到dataframe。因此，对于temp视图中的多个列，dataframe只需要存储一个列，并将所有数据列分开。下面是一个例子：roll name subject roll,name,su

浏览 3提问于2019-09-25得票数 1

回答已采纳

1回答

基于spark结构流的Xml解析

apache-spark、pyspark、xml-parsing、spark-structured-streaming

我正在尝试使用PySpark Structured Streaming on Databricks中的Kinesis source分析数据。我创建了一个Dataframe，如下所示。df = kinDF.withColumn("xml_data", expr("CAST(data as string)")) 现在，我需要使用xpath从df.xml_data列中提取几个字段。文件创建一个dataframe，就可以使用xpath

浏览 36提问于2019-08-15得票数 1

2回答

尝试使用Spark将CSV文件转换为Parquet文件

apache-spark、apache-spark-sql、spark-dataframe、parquet

下面是spark-shell脚本，我使用它将csv数据转换为parquet：val sqlContext = new org.apache.spark.sql.SQLContext(sc); val df = sqlContext.read.format("com.databricks.spark.csv").option("header","true"

浏览 2提问于2017-10-24得票数 0

1回答

写入Synapse更改创建的Synapse表列的数据类型的数据库

databricks、azure-synapse

我用列数据类型- [Comments] [varchar](2000) NULL创建了Synapse表df.write \ .format("com.databricks.spark.sqld

浏览 13提问于2022-07-18得票数 0

回答已采纳

2回答

使用两个不同目录中的头和数据创建DataFrame* / Dataset*

scala、apache-spark、apache-spark-sql

这里我得到两个目录，第一个目录有一个带有头记录的文件，第二个目录有数据文件。在这里，我想创建一个Dataframe/Dataset。我可以做的一种方法是创建case类，并通过分隔符拆分数据文件，并附加模式和创建dataFrame。我正在寻找的是读取头文件和数据文件，并创建dataFrame。我看到了一个使用databricks的解决方案，但是我的组织有使用databricks</

浏览 2提问于2018-06-06得票数 0

回答已采纳

1回答

如何将Avro中的字节列(逻辑类型为十进制)转换为十进制？

scala、apache-spark、apache-spark-sql、avro、spark-avro

在我的avro模式中，我的十进制列"TOT_AMT“定义为类型”字节“，逻辑类型为”十进制“。在使用databricks -avro在spark中创建数据框架之后，当我尝试使用sum函数对TOT_AMT列进行求和时，它抛出“函数和需要数值类型而不是Binarytype”错误。列的定义如下所示， name="TOT_AMT"，"type":"null"，{“type”：“字节”，“逻辑类型”：“十进制”

浏览 2提问于2017-03-06得票数 1

1回答

将Apache Spark* xml从2.11迁移到2.12给出了直接使用xmlReader的以下warning.How*

apache-spark、apache-spark-sql、databricks、azure-databricks、apache-spark-xml

代码： val xmlDf: DataFrame = spark.read .option("nullValue", "") .xml(df.select("

浏览 31提问于2021-10-07得票数 0

3回答

在将运行时7.3LTS(Spark3.0.1)升级到9.1LTS(Spark3.1.2)后创建PySpark数据库时json文件中的重复列抛出错误

json、apache-spark、pyspark、databricks、delta-lake

问题陈述:在升级Databricks运行时版本时，复制列在创建dataframe时抛出错误。在较低的运行时，会创建dataframe，并且由于下游不需要重复列，因此它只是在select中被排除在外。在阅读了dataframe之后，我们选择了所需的列。无论如何，我们不需要这个重复的tags。以前，我们在Databricks运行时7.3LTS(Spark3.0.1)上运行，在那里它创建了包含重复列的<e

浏览 1提问于2021-11-16得票数 2

回答已采纳

1回答

Spark createdataframe无法推断架构默认数据类型？

apache-spark-sql、schema、databricks

我使用createdataframe在databricks中创建了一个spark dataframe，并得到了错误：我知道我可以指定模式，但如果我每次都使用来自API的源数据创建数据帧，而他们决定对其进行重构，那么这并没有什么帮助。相反，我想告诉spark对任何无法推断数据类型的列使用

浏览 2提问于2021-10-20得票数 0

3回答

Pyspark:将PythonRDD转换为Dataframe

apache-spark、pyspark

有人能引导我把PythonRDD转换成DataFrame吗。另外，如果你认为有更好的方法，请提出建议。如果需要更多细节，请回复。谢谢。

浏览 3提问于2016-07-12得票数 0

回答已采纳

1回答

如何将XML声明添加到使用Spark数据块编写的XML文件中

xml、scala、apache-spark

我想使用spark中的Scala创建一个带有CSV/Dataframe的XML声明的XML文件。我正在使用Databricks spark库将DataFrame转换成XML格式。示例代码.format('com.databricks.spark.xml') \ .options(rowTag='row

浏览 0提问于2018-07-02得票数 1

1回答

将javaRDD保存为XML文件

java、xml、apache-spark、text-files

我有兴趣找到一种直接从RDD创建XML文件的方法。如有任何建议、建议或指导，我们将不胜感激。

浏览 0提问于2017-09-01得票数 0

回答已采纳

2回答

Databricks-将Python DataFrame转换为Scala DataFrame

dataframe、scala、apache-spark、databricks

我在python，df中有一个dataframe，我想传递它以便能够在% scala中使用。

浏览 0提问于2022-04-26得票数 0

回答已采纳

2回答

未正确写入csv文件

pyspark、apache-spark-sql、parquet

下面是代码：df=spark.read.parquet("/user/hive/warehouse/tmp.db/users/*.parq") df.coalesce(1).write.format('com.databricks.spark.csv').mode('overwrite').optio

浏览 4提问于2022-03-07得票数 1

2回答

如何使用spark表在数据库中使用select查询将数据插入表

sql-server、apache-spark、create-table、azure-databricks、azure-synapse

我希望使用Azure数据块中的SQL将Spark表的结果插入到新的SQL Synapse表中。我尝试了以下解释，https://learn.microsoft.com/en-us/azure/databricks/spark/latest/spark-sql/language-manual/sql-ref-syntax-ddl-create-table-datasource必须根据SELECT语句的结果<e

浏览 6提问于2020-10-31得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云