腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
databricks
scala
中
,
我
可以
根据
模式
过滤
数据
帧
中
的
列
吗
scala
、
dataframe
、
databricks
我
有一个包含7
列
的
dataframe (A,B,C,D,E,F,G) df.schema // output StructField(A,StringType,true),StructField(E,StringType,true), StructField(G,true) ) 有没有什么方法
可以
通过使用另一个
模式
来
过滤
数据
帧
<e
浏览 10
提问于2020-10-24
得票数 0
回答已采纳
1
回答
使用更改
模式
将
数据
插入到增量表
中
scala
、
pyspark
、
databricks
如何通过改变
数据
库
中
的
模式
将
数据
插入到增量表
中
。
在
Databricks
Scala
中
,
我
分解了一个Map
列
并将其加载到增量表
中
。
我
有一个预定义
的
增量表
模式
。 假设
模式
有4
列
A、B、C、D。因此,有一天,
我
使用下面的代码将包含4
列
的
浏览 18
提问于2021-10-29
得票数 0
1
回答
如何在
数据
库PySpark中使用在
Scala
中
创建
的
DataFrame
python
、
scala
、
pyspark
、
databricks
我
的
Databricks
笔记本使用
的
是Python。notebook
中
的
一些代码是用
Scala
编写
的
(使用%
scala
),其中之一是用于创建
数据
帧
。如果
我
再次使用Python/PySpark (默认
模式
),
我
如何使用/访问这个
在
scala
模式
下创建
的
dat
浏览 14
提问于2019-11-17
得票数 1
回答已采纳
1
回答
有没有一种
在
连接后只选择一个dataframe
列
的
快捷方式?
scala
、
dataframe
、
azure-databricks
我
在
scala
中使用一个
数据
帧
,但该
数据
帧
有大约60
列
。
在
Databricks
管道
中
,我们拆分出几个
列
和一个标识
列
来验证一些
数据
,从而产生一个“参考”
数据
帧
。
我
希望将它连接回主要
的
大型
数据
框架,并将经过验证
的
数据
插入到原
浏览 23
提问于2021-08-27
得票数 1
回答已采纳
1
回答
Avro schema ( .avsc )
在
Pyspark
中
的
实施
pyspark
、
avro
、
spark-avro
有人
可以
帮助我通过Pyspark读取avro schema (.avsc ),并在将
数据
帧
写入目标存储时强制执行它
吗
?
我
所有的targetr表
模式
都是以.avsc文件
的
形式提供
的
,
在
Pyspark中保存
我
的
数据
框架时,
我
需要提供这个自定义
模式
。
我
知道有像
databricks
的
spark-avr
浏览 19
提问于2021-03-23
得票数 1
2
回答
如何在不使用
databricks
CSV api
的
情况下将csv文件直接读入spark DataFrames?
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
如何在不使用
databricks
CSV api
的
情况下将csv文件直接读入spark DataFrames?
我
知道有
databricks
csv api,但我不能使用那个api..
我
知道有case类
可以
使用,并
根据
cols(0)位置映射cols,但问题是
我
有超过22
列
,因此
我
不能使用case类,因为
在
case类
中
,我们只能使用22
列
。
我
知道有
浏览 2
提问于2016-07-05
得票数 1
1
回答
创建一个新
的
列
,方法是读取json字符串
中
的
不一致
模式
。
json
、
pyspark
、
apache-spark-sql
、
databricks
我
有一个pyspark dataframe,其中重要信息作为json字符串存储
在
列
中
,这些字符串具有类似但不一致
的
模式
。
我
对这样做
的
最佳方法
的
理解是将字符串转换为
数据
帧
中
的
struct,然后使用explode。这将创建5行(每个响应一行),每个行都有
列
_oid, json_str, a_id, a_s, a_R, score。 这个过程正确<em
浏览 6
提问于2022-02-03
得票数 0
2
回答
将字符串从
SCALA
传递到
Databricks
中
的
Python
python
、
scala
、
apache-spark
、
pyspark
、
databricks
我
有以下问题。
我
希望将变量(字符串)
的
值从
scala
传递给
databricks
中
的
python。
我
知道
我
可以
使用以下命令
在
两种语言
的
之间传输
数据
帧
信息: %
scala
spark.table("so
浏览 19
提问于2021-01-26
得票数 1
2
回答
有没有办法
在
pyspark
中
根据
索引对
数据
帧
进行切片?
apache-spark
、
pyspark
、
apache-spark-sql
在
python或R
中
,
可以
使用索引对DataFrame进行切片。df.iloc[5:10,:]
在
pyspark中有没有类似的方式来
根据
行
的
位置对
数据
进行切片?
浏览 3
提问于2018-10-13
得票数 4
回答已采纳
1
回答
在
PySpark
中
写入增量表时如何使用Zorder集群?
apache-spark
、
pyspark
、
apache-spark-sql
、
databricks
按照
我
在
https://
databricks
.com/blog/2018/07/31/processing-petabytes-of-data-in-seconds-with-
databricks
-delta.html中看到
的
建议,
我
正在尝试编写一个非常大
的
PySpark
数据
帧
然而,这个页面使用
Scala
显示建议,
我
不知道如何将
浏览 4
提问于2019-01-08
得票数 2
回答已采纳
1
回答
从文件系统
中
填充Properties对象
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
、
databricks
TL:DR或者,是否有一种方法
可以
将星火
数据
帧
行转换为一组文本键/值对(
Scala
会理解)?全面问题: 属性文件不是本地
的
,它位于
Databricks
集群上。尝试从"dbfs:/“或"/dbfs”读取文件时,
在
使用
scala
.io.Source库时找不到文件。<e
浏览 4
提问于2020-12-29
得票数 1
回答已采纳
1
回答
数据
库表/
模式
部署
apache-spark
、
databricks
问题问题是 您通常如何部署
Databrick
浏览 3
提问于2020-05-11
得票数 1
回答已采纳
1
回答
Spark createdataframe无法推断架构默认
数据
类型?
apache-spark-sql
、
schema
、
databricks
我
使用createdataframe
在
databricks
中
创建了一个spark dataframe,并得到了错误:
我
知道
我
可以
指定
模式
,但如果
我
每次都使用来自API
的
源
数据
创建
数据
帧
,而他们决定对其进行重构,那么这并没有什么帮助。相反,<
浏览 2
提问于2021-10-20
得票数 0
1
回答
如何使用
databricks
从AVRO文件写入创建Hive外部表?
scala
、
apache-spark
、
hive
、
avro
、
databricks
下面的代码是如何使用
scala
编写到HDFS
中
的
。创建用于查询这些
数据
的
Hive表
的
HQL语法是什么?import com.
databricks
.spark.avro._dataFrame.write.avro(path)
我
发现
的
示例需要提供一个avro.schema.literal来描述
模式
,
浏览 2
提问于2016-08-19
得票数 1
1
回答
PySpark:如何更新嵌套
列
?
scala
、
apache-spark
、
pyspark
、
apache-spark-sql
关于如何更新
数据
帧
中
的
嵌套
列
,StackOverflow有几个答案。然而,它们
中
的
一些看起来有点复杂。
在
搜索过程
中
,
我
从
DataBricks
找到了处理相同场景
的
文档:https://docs.
databricks
.com/user-guide/faq/update-nested-column.html不幸
的
浏览 11
提问于2019-04-25
得票数 0
回答已采纳
2
回答
写到csv
的
火花性能差
performance
、
apache-spark
、
pyspark
、
apache-spark-sql
上下文
我
试过什么Then..i
浏览 1
提问于2020-07-01
得票数 1
1
回答
使用spark编写
数据
格式创建topLevelRecord -想要使用现有的
模式
java
、
apache-spark
、
record
、
avro
我
使用Kryo编码器将GenericRecords编码成一个火花DataFrame,并将
数据
写入一个Avro文件。一旦
我
试图从Hive读取该文件,就会发现一个错误,即解析器找到toplevelrecord而不是预期
的
字段。此记录不在
我
现有的
模式
中
,
我
认为它是
在
我
使用spark编写时创建
的
。
我
想知道是否/如何从avro文件
中
删除它。看上去是这样
的<
浏览 0
提问于2018-07-10
得票数 2
1
回答
使用java.lang.OutOfMemoryError()和
databricks
连接时运行到‘toPandas:Java堆空间’
python
、
pandas
、
pyspark
、
databricks
、
databricks-connect
我
正在尝试将一个大小为2734984行x11
列
的
pyspark转换为一个名为toPandas()
的
熊猫
数据
。使用时,它完全
可以
正常工作(11秒),但当我使用
databricks
-connect运行完全相同
的
代码(db-connect版本和
Databricks
运行时版本匹配,两者都是7.1)时,我会遇到java.lang.OutOfMemoryError
我
已经增加了火花驱动程序内存(100克)和maxResultSiz
浏览 20
提问于2020-12-09
得票数 7
回答已采纳
3
回答
检查Azure
中
数据
库运行时
的
版本
azure
、
version
、
azure-databricks
可以
检查Azure
中
Databricks
运行时
的
版本
吗
?
浏览 1
提问于2018-12-12
得票数 12
回答已采纳
2
回答
我
在
使用spark sql选择名称
中
包含散
列
的
数据
库
列
时遇到问题
sql
、
apache-spark
、
apache-spark-sql
、
pyspark-sql
我
正在尝试选择名称
中
包含散
列
的
列
。当我使用select * from时,它会返回
数据
,包括带有#
的
列
。当我使用列名进行选择时,
我
收到一个错误。
我
正在使用
数据
库访问一些
在
临时视图中转换
的
.parquet文件。集群有3个节点,Spark版本是Apache Spark 2.4.3,
Scala
2.11,
我
使用
的
是Py
浏览 14
提问于2019-09-12
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Apache Spark 2.4 内置的 Avro 数据源实战
估值62亿美元,Databricks会成为企业AI平台的黑马吗?
一文读懂 PySpark 数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
即时通信 IM
活动推荐
运营活动
广告
关闭
领券