腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(2939)
视频
沙龙
2
回答
处理
Spark
Scala
API
交叉
连接
的
最佳
方法
,
这会
导致
左右
数据
帧
具有
相同
的
列名
、
、
在
Spark
Scala
API
中使用crossJoin时,输出
具有
相同
名称
的
列,
这会
由于歧义而
导致
错误。为了避免这些歧义错误,一种解决方案是能够重命名右侧或左侧
数据
帧
的
所有列。有没有办法用
Scala
API
做到这一点?现在,我找到了一个使用SQL
API
的
解决方案(见下文),但我想知道是否有更好
的
方法
浏览 23
提问于2020-06-28
得票数 2
回答已采纳
2
回答
从Dataframe - Pandas中所有列
的
列名
中删除最后两个字符
、
、
、
我使用用户ID键
连接
具有
相同
列/
列名
的
两个
数据
帧
(a,b),并且在
连接
时,我必须提供后缀字符,以便创建它。下面是我使用
的
命令:如果我不使用这个后缀,我会得到错误。但我不希望
列名
发生变化,因为
这会
在运行其他分析时
导致
问
浏览 3
提问于2016-05-06
得票数 5
回答已采纳
1
回答
Azure Synapse分析笔记本中数字
列名
的
PySpark缺少
列名
错误
、
在使用Azure Synapse SQL专用池作为
数据
源创建dataframe时,我遇到了这个问题。某些列
具有
数字
列名
,如"240“。我使用了
scala
中
的
synapsesql
连接
器,然后使用
spark
.sql抓取
数据
帧
到pyspark
数据
帧
。即使我能够毫无问题地打印出
数据
帧
的
模式,尝试选择任何
具有
数字名称
的<
浏览 25
提问于2021-09-06
得票数 1
1
回答
DataFrame na()填充
方法
和不明确引用
的
问题
、
我使用
的
是
Spark
1.3.1,其中
连接
两个
数据
帧
会重复
连接
的
列。我在外部
连接
两个
数据
帧
,希望将结果
数据
帧
发送到na().fill()
方法
,以便根据列
的
数据
类型将空值转换为已知值。我构建了一个"table.column“-> "value”
的
映射,并将其传递给fill
方法</
浏览 4
提问于2016-02-28
得票数 3
3
回答
在
Spark
DataFrame中将空值转换为空数组
、
、
、
我有一个
Spark
数据
帧
,其中一列是整数数组。该列可以为空,因为它来自左外部联接。我希望将所有null值转换为一个空数组,这样以后就不必
处理
null值了。myCol = df("myCol")但是,
这会
导致
以下异常$.apply(literals.
scala
:49) at org
浏览 5
提问于2016-01-08
得票数 24
回答已采纳
2
回答
Apache与dataset
的
交叉
连接
非常慢
、
、
、
我们有一个用例,在这个用例中,我们需要执行笛卡儿
连接
,由于某些原因,我们无法使它与Dataset
API
一起工作。 **项
浏览 0
提问于2019-02-15
得票数 3
1
回答
Pyspark中
的
完全阻塞
连接
、
我正在尝试使用pyspark对
数据
库进行重复
数据
删除,并且作为管道
的
一部分,我希望从两个完全
相同
的
左侧和右侧
数据
帧
创建一个
数据
帧
。它们有一个共享
的
索引。最初我很懒,只是使用了
交叉
连接
,但这
导致
了重复
的
连接
(因为从左到右与从右到左是一样
的
)。但是我现在需要对代码进行一些优化,我想知道实现这种
连接
浏览 10
提问于2019-07-09
得票数 0
1
回答
如何使用sql查询而不是
api
覆盖列
、
我希望将这两列
连接
起来,并用
连接
的
结果覆盖列name。在
Spark
sql
api
中,我们可以执行select *, concat(name, " ", last_name) AS name from customers 将
浏览 0
提问于2020-09-10
得票数 0
1
回答
转换后保留
Spark
数据
帧
的
分区数量
、
、
、
我在代码中发现了一个bug,其中一个
数据
帧
被分割成比预期更多
的
分区(超过700个),当我试图将它们重新分区到只有48个时,
这会
导致
太多
的
随机操作。我不能在这里使用coalesce(),因为在进行重新分区之前,我希望首先有更少
的
分区。 我正在寻找减少分区数量
的
方法
。假设我有一个
spark
数据
帧
(包含多个列)划分为10个分区。此操作完成后,生成
的
数据
浏览 2
提问于2017-09-13
得票数 1
2
回答
Spark
从多个列表/数组创建
数据
帧
、
、
因此,我在
Spark
(
scala
)中有两个列表。它们都包含
相同
数量
的
值。第一个列表a包含所有字符串,第二个列表b包含所有长字符串。String] = List("a", "b", "c", "d") b: List[Long] = List(17625182, 17625182, 1059731078, 100) 我还有一个定义如下
的
模式StructField("check_name", StringTyp
浏览 11
提问于2021-03-15
得票数 0
回答已采纳
1
回答
PySpark -当值为"t“和"f”时,如何使用模式读取BooleanType
、
、
、
我使用StructType定义了一个模式,用于读取Redsfhit中
的
数据
帧
。该表
具有
350+列,其中许多列被配置为布尔值。at
scala
.collection.immutable.StringOps.toBo
浏览 1
提问于2017-11-22
得票数 3
1
回答
尝试将"org.apache.
spark
.sql.DataFrame“对象转换为pandas dataframe会
导致
在
数据
库中出现错误"name 'dataframe‘is not defined
、
、
、
、
我正在尝试通过databricks中
的
jdbc
连接
来查询SQL
数据
库,并将查询结果存储为pandas dataframe。我在网上找到
的
所有
方法
都涉及到将其存储为
Spark
对象
的
一种类型,首先使用
Scala
代码,然后将其转换为pandas。password" -> "password123"), ("driver" -> "com.microsoft.sqlserver.j
浏览 239
提问于2020-05-29
得票数 0
1
回答
Spark
Scala
dataframe使用列列表和joinExprs动态
连接
、
、
、
我正在创建一个函数,它以
连接
键和条件作为参数,动态地
连接
两个
数据
帧
。我理解
Spark
Scala
Dataframe join done the following ways 1) join(right: Dataset[_]): DataFrame 2) join(rightcondition/joinExprs -不确定如何传递它,但它可以是像"df2(colname) == 'xyz'"这样
的
字符串 Based o
浏览 93
提问于2021-08-18
得票数 0
回答已采纳
2
回答
在PySpark中使用列对象而不是字符串有什么优点
、
、
、
、
这两种
方法
返回
相同
的
结果。有什么不同吗?什么时候应该使用列对象而不是字符串?col_name')))df.select(F.lower(df['col_name']))df.select(F.lower(df.col_name)) 或者我可以使用字符串来代替,并得到
相同
的
结果
浏览 0
提问于2020-11-09
得票数 0
2
回答
使用h2o mojo模型对
spark
集群并行化问题进行预测
、
、
由于我预测
的
数据
帧
具有
超过100个特征,因此我使用以下函数将
数据
帧
行转换为h2o
的
RowData格式(来自):val easyModel = new EasyPredictModelWrapper(mojo) 现在,如果我首先收集<em
浏览 1
提问于2018-01-03
得票数 0
3
回答
如何
连接
具有
相同
列
的
数据
集并选择一个?
、
、
、
我有两个
Spark
数据
帧
,之后我会加入并选择它们。我想选择其中一个
数据
帧
的
特定列。但是在另一个中存在
相同
的
列名
。因此,我得到了一个二义列
的
异常。
浏览 0
提问于2017-12-28
得票数 5
回答已采纳
3
回答
在
Spark
之后使用
scala
对象
、
、
、
用例 我
的
数据
被写成dataframes,我想检查两个
具有
完全
相同
模式
的
数据
文件,以确保相等。具体来说,要检查每个id值,来自第一和第二
数据
value
的
记录是否是
相同
的
。我
的
假设是,我需要实现一个新
的
dataframe (即通过一个
连接
操作),以便在
Spark
中执行这个操作。到目前为止,这个假设是正确
的
吗?因为其中一些值本身就是
浏览 2
提问于2019-12-23
得票数 1
回答已采纳
1
回答
AWS胶-不知道如何将NullType保存为红移
、
、
、
下面是AWS Glue
的
简单脚本。我有一个带有空单元格
的
文本文件和一个接受空值
的
表。当我运行胶水作业时,它会失败,例外情况是“不知道如何将NullType保存为REDSHIFT”。如何
处理
此问题,或者通过Glue在RedShift中不支持空插入?我没有任何空字符就重新生成了我
的
文件,我也有同样
的
问题。 我添加了这行代码。推断了一些不存在
的
NullType字段。我
的
字段中只有大约1/2有值。
浏览 4
提问于2017-11-28
得票数 5
4
回答
Spark
SQL会完全取代Apache Impala或Apache Hive吗?
、
、
、
、
我需要在我们
的
服务器上部署大
数据
集群。但我只知道关于Apache
Spark
的
知识。现在我需要知道
Spark
SQL是否能完全取代Apache Impala或Apache Hive。 我需要你
的
帮助。
浏览 3
提问于2016-10-25
得票数 7
1
回答
Neo4j作为火花放电
的
数据
源
、
、
、
、
我有一个要求,我必须从Neo4j中提取
数据
,并从这些
数据
中创建
Spark
。我在我
的
项目中使用Python。
连接
器
具有
相同
的
用途,但它是用
Scala
编写
的
。所以我现在可以想出解决办法- 以小块/批
的
形式从neo4j查询
数据
,使用parallize()
方法
将每个块转换为
Spark
。最后,使用union()
方法
合并
浏览 7
提问于2018-01-09
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
Apache Spark框架下,Python与Scala谁更胜一筹?
2018年数据科学前15名的Scala库
什么是 Apache Spark?大数据分析平台详解
一文读懂Apache Spark
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券