在databricks scala中，我可以根据模式过滤数据帧中的列吗_如何在Spark Scala中根据其他数据帧中的多个列匹配来过滤数据帧_根据other列的值在pandas数据帧的列中查找模式 - 腾讯云开发者社区

、、

我有一个包含7列的dataframe (A，B，C，D，E，F，G) df.schema // output StructField(A,StringType,true),StructField(E,StringType,true), StructField(G,true) ) 有没有什么方法可以通过使用另一个模式来过滤数据帧<e

浏览 10提问于2020-10-24得票数 0

回答已采纳

1回答

使用更改模式将数据插入到增量表中

、、

如何通过改变数据库中的模式将数据插入到增量表中。在Databricks Scala中，我分解了一个Map列并将其加载到增量表中。我有一个预定义的增量表模式。假设模式有4列A、B、C、D。因此，有一天，我使用下面的代码将包含4列的

浏览 18提问于2021-10-29得票数 0

1回答

如何在数据库PySpark中使用在Scala中创建的DataFrame

、、、

我的Databricks笔记本使用的是Python。notebook中的一些代码是用Scala编写的(使用%scala)，其中之一是用于创建数据帧。如果我再次使用Python/PySpark (默认模式)，我如何使用/访问这个在scala模式下创建的dat

浏览 14提问于2019-11-17得票数 1

回答已采纳

1回答

有没有一种在连接后只选择一个dataframe列的快捷方式？

、、

我在scala中使用一个数据帧，但该数据帧有大约60列。在Databricks管道中，我们拆分出几个列和一个标识列来验证一些数据，从而产生一个“参考”数据帧。我希望将它连接回主要的大型数据框架，并将经过验证的数据插入到原

浏览 23提问于2021-08-27得票数 1

回答已采纳

1回答

Avro schema ( .avsc )在Pyspark中的实施

、、

有人可以帮助我通过Pyspark读取avro schema (.avsc )，并在将数据帧写入目标存储时强制执行它吗？我所有的targetr表模式都是以.avsc文件的形式提供的，在Pyspark中保存我的数据框架时，我需要提供这个自定义模式。我知道有像databricks的spark-avr

浏览 19提问于2021-03-23得票数 1

2回答

如何在不使用databricks* CSV api的情况下将csv文件直接读入spark DataFrames？*

、、、

如何在不使用databricks CSV api的情况下将csv文件直接读入spark DataFrames？我知道有databricks csv api，但我不能使用那个api..我知道有case类可以使用，并根据cols(0)位置映射cols，但问题是我有超过22列，因此我不能使用case类，因为在case类中，我们只能使用22列。我知道有

浏览 2提问于2016-07-05得票数 1

1回答

创建一个新的列，方法是读取json字符串中的不一致模式。

、、、

我有一个pyspark dataframe，其中重要信息作为json字符串存储在列中，这些字符串具有类似但不一致的模式。我对这样做的最佳方法的理解是将字符串转换为数据帧中的struct，然后使用explode。这将创建5行(每个响应一行)，每个行都有列_oid, json_str, a_id, a_s, a_R, score。这个过程正确<em

浏览 6提问于2022-02-03得票数 0

2回答

将字符串从SCALA传递到Databricks中的Python

、、、、

我有以下问题。我希望将变量(字符串)的值从scala传递给databricks中的python。我知道我可以使用以下命令在两种语言的之间传输数据帧信息： %scalaspark.table("so

浏览 19提问于2021-01-26得票数 1

2回答

有没有办法在pyspark中根据索引对数据帧进行切片？

、、

在python或R中，可以使用索引对DataFrame进行切片。df.iloc[5:10,:] 在pyspark中有没有类似的方式来根据行的位置对数据进行切片？

浏览 3提问于2018-10-13得票数 4

回答已采纳

1回答

在PySpark中写入增量表时如何使用Zorder集群？

、、、

按照我在https://databricks.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-databricks-delta.html中看到的建议，我正在尝试编写一个非常大的PySpark数据帧然而，这个页面使用Scala显示建议，我不知道如何将

浏览 4提问于2019-01-08得票数 2

回答已采纳

1回答

从文件系统中填充Properties对象

、、、、

TL:DR或者，是否有一种方法可以将星火数据帧行转换为一组文本键/值对( Scala会理解)？全面问题：属性文件不是本地的，它位于Databricks集群上。尝试从"dbfs:/“或"/dbfs”读取文件时，在使用scala.io.Source库时找不到文件。<e

浏览 4提问于2020-12-29得票数 1

回答已采纳

1回答

数据库表/模式部署

、

问题问题是您通常如何部署Databrick

浏览 3提问于2020-05-11得票数 1

回答已采纳

1回答

Spark createdataframe无法推断架构默认数据类型？

、、

我使用createdataframe在databricks中创建了一个spark dataframe，并得到了错误：我知道我可以指定模式，但如果我每次都使用来自API的源数据创建数据帧，而他们决定对其进行重构，那么这并没有什么帮助。相反，<

浏览 2提问于2021-10-20得票数 0

1回答

如何使用databricks从AVRO文件写入创建Hive外部表？

、、、、

下面的代码是如何使用scala编写到HDFS中的。创建用于查询这些数据的Hive表的HQL语法是什么？import com.databricks.spark.avro._dataFrame.write.avro(path) 我发现的示例需要提供一个avro.schema.literal来描述模式，

浏览 2提问于2016-08-19得票数 1

1回答

PySpark:如何更新嵌套列？

、、、

关于如何更新数据帧中的嵌套列，StackOverflow有几个答案。然而，它们中的一些看起来有点复杂。在搜索过程中，我从DataBricks找到了处理相同场景的文档：https://docs.databricks.com/user-guide/faq/update-nested-column.html不幸的

浏览 11提问于2019-04-25得票数 0

回答已采纳

2回答

写到csv的火花性能差

、、、

上下文我试过什么Then..i

浏览 1提问于2020-07-01得票数 1

1回答

使用spark编写数据格式创建topLevelRecord -想要使用现有的模式

、、、

我使用Kryo编码器将GenericRecords编码成一个火花DataFrame，并将数据写入一个Avro文件。一旦我试图从Hive读取该文件，就会发现一个错误，即解析器找到toplevelrecord而不是预期的字段。此记录不在我现有的模式中，我认为它是在我使用spark编写时创建的。我想知道是否/如何从avro文件中删除它。看上去是这样的<

浏览 0提问于2018-07-10得票数 2

1回答

使用java.lang.OutOfMemoryError()和databricks连接时运行到‘toPandas:Java堆空间’

、、、、

我正在尝试将一个大小为2734984行x11列的pyspark转换为一个名为toPandas()的熊猫数据。使用时，它完全可以正常工作(11秒)，但当我使用databricks-connect运行完全相同的代码(db-connect版本和Databricks运行时版本匹配，两者都是7.1)时，我会遇到java.lang.OutOfMemoryError我已经增加了火花驱动程序内存(100克)和maxResultSiz

浏览 20提问于2020-12-09得票数 7

回答已采纳

3回答

检查Azure中数据库运行时的版本

、、

可以检查Azure中Databricks运行时的版本吗？

浏览 1提问于2018-12-12得票数 12

回答已采纳

2回答

我在使用spark sql选择名称中包含散列的数据库列时遇到问题

、、、

我正在尝试选择名称中包含散列的列。当我使用select * from时，它会返回数据，包括带有#的列。当我使用列名进行选择时，我收到一个错误。我正在使用数据库访问一些在临时视图中转换的.parquet文件。集群有3个节点，Spark版本是Apache Spark 2.4.3，Scala 2.11，我使用的是Py

浏览 14提问于2019-09-12得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云