腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
将1
列
中
的
空值
替换
为另一
列
中
的
数据
scala
、
apache-spark
我正在尝试用可能在count_2
列
中
的
数据
替换
count_1
列
中
的
所有
空
数据
。下面是给定输入
的
预期输出。我
如何
在
Spark
Scala
中
做到这一点?输入
数据
帧
name count_1 count_2Python null 20000 <em
浏览 23
提问于2021-09-05
得票数 1
回答已采纳
2
回答
如何
替换
所有
数字
和
“。
数据
帧
spark
scala
中
列
的
"“
scala
、
dataframe
、
apache-spark
如何
替换
所有
数字
和
“。即
所有
十进制数都应
替换
为Dataframes
spark
scala
中
某一
列
的
例如:+56.5或-64.83应
替换
为空字符"“ 我正在关注 regexp_replace(col("col1"),"\\+|\\-|\\.|0|1|2|3|4|5|6|7|8|9", "")
浏览 11
提问于2020-01-31
得票数 1
1
回答
如何
通过匹配Python中长度不同
的
字典
中
的
值来
替换
列
值?
python
、
scala
、
pandas
、
dictionary
、
apache-spark
我有一张这样
的
数据
A redC red我通过创建字典将颜色枚举为
数字
:colors = dict(enumerate(color_list))ID Color A
浏览 1
提问于2017-07-17
得票数 0
回答已采纳
1
回答
在
spark
/
scala
中
寻找计算
数据
帧频率分布
的
方法
scala
、
apache-spark
我想使用
spark
和
scala
计算
数据
帧
的
频率分布(返回每
列
中最常见
的
元素以及它出现
的
次数)。我尝试过使用DataFrameStatFunctions库,但在我只过滤了
数字
类型
列
的
数据
帧
之后,我无法应用该库
中
的
任何函数。创建UDF
的
最佳方式是什么?
浏览 0
提问于2016-07-02
得票数 2
1
回答
AWS胶-不知道
如何
将NullType保存为红移
python-3.x
、
amazon-redshift
、
etl
、
aws-glue
下面是AWS Glue
的
简单脚本。我有一个带有空单元格
的
文本文件
和
一个接受空值
的
表。当我运行胶水作业时,它会失败,例外情况是“不知道
如何
将NullType保存为REDSHIFT”。
如何
处理此问题,或者通过Glue在RedShift
中
不支持空插入?我没有任何空字符就重新生成了我
的
文件,我也有同样
的
问题。 我添加了这行代码。推断了一些不存在
的
NullType字段。我
的
字段
中
只有大约1&
浏览 4
提问于2017-11-28
得票数 5
2
回答
使用
scala
统计
spark
数据
帧
中
列
组合
的
实例
scala
、
apache-spark
、
dataframe
我在
scala
中有一个名为df
的
spark
数据
帧
,它有两
列
,即a
和
b,a
列
包含字母,b
列
包含
数字
,如下所示。).distinct a b g 0 f 1a
浏览 2
提问于2015-10-28
得票数 9
回答已采纳
3
回答
删除
spark
数据
帧
中
重复
的
所有
记录
scala
、
apache-spark
、
duplicates
、
apache-spark-sql
、
spark-dataframe
我有一个包含多个
列
的
spark
数据
帧
。我想找出并删除
列
中有重复值
的
行(其他
列
可以是不同
的
)。我尝试使用dropDuplicates(col_name),但它只删除重复
的
条目,但仍然在
数据
帧
中保留一条记录。我需要
的
是删除
所有
最初包含重复条目的条目。我使用
的
是
Spark
1.6
和
Scala
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
1
回答
spark
vs pandas dataframe (具有大
列
) jupyter笔记本
中
的
head(n)
scala
、
pandas
、
apache-spark
、
apache-spark-sql
、
jupyter-notebook
几天后,
数据
带来了大量
的
功能。为了获得简短
的
数据
摘要,人们将
数据
加载到
数据
框
中
,并使用head()方法显示
数据
。使用Jupyter Notebook( Toree for
scala
)进行实验是很常见
的
。
Spark
(
scala
)很适合处理大量
数据
,但是它
的
head()方法不能在水平滚动
的
notebook
中
显示
浏览 3
提问于2018-06-13
得票数 2
3
回答
字符串列包含通过
spark
scala
进行精确匹配
的
单词
scala
、
apache-spark
、
apache-spark-sql
我有两个
数据
帧
,第一个
数据
帧
包含实际
数据
(从CSV文件读取),第二个
数据
帧
包含一个具有多个关键字
的
列
。即下面的Dataframe-1外观相似(我们必须搜索
的
地方):
数据
帧
-2:我想要
的
输出:我在这里使用
spark
scala
。我想要一个与dataframe-1
中
的</
浏览 1
提问于2021-02-12
得票数 0
1
回答
如何
删除星火(
SCALA
)
中
的
整个
数据
帧
?
scala
有一些函数可以删除
Spark
(
SCALA
)
中
的
列
和
行,但是却找不到任何函数来删除整个
数据
frame.Is,有一种方法可以删除
Spark
(
SCALA
)
中
的
数据
帧
吗?
浏览 0
提问于2016-10-15
得票数 3
1
回答
在
spark
/
scala
中
的
另一个
数据
框
中
查找多个
列
值
scala
、
dataframe
、
apache-spark
、
lookup
我有两个
数据
帧
A
和
B。A有30
列
- reason1,reason2.......reason30现在,我需要在B
中
查找
所有
以reason*开头
的
列
,并在
数据
帧
A
的
一
列
中
获取相应
的
值。因此,最终
的
数据
帧
将具有reason1,reason
浏览 9
提问于2021-05-17
得票数 0
1
回答
N
列
m行
的
动态
数据
帧
scala
、
apache-spark
从json(动态模式)读取
数据
,并将其加载到dataframe。示例
数据
帧
:import
spark
.implicits._ (1, "ABC")ABC|| 3| GHIJ|要求:
列
数
和
名称可以是任何值。我想在循环
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
2
回答
当表已经存在时,使用
spark
dataframe覆盖表失败
python
、
postgresql
、
apache-spark
、
pyspark
为什么我
的
代码不能像预期
的
那样覆盖
数据
库
中
的
数据
?我已经使用客户端检查了该表,并且它确实存在(这应该无关紧要)。而且里面也有
数据
。怎么了?这会不会是内存问题?(commands.
scala
:68) at org.apache.
spark
.sql.execution.command.ExecutedCommandExec.doExecute(commands.
scala
(RDDOperationScope.<e
浏览 2
提问于2019-12-13
得票数 1
2
回答
Spark
-
scala
聚合列表
中
的
多个
列
scala
、
apache-spark
、
aggregate
我有一个
数据
帧
,其中有几个数值
列
是不固定
的
(它们在每次执行过程中都会发生变化)。假设我有一个带有
数字
列名称
的
Seq对象。我想对这些
列
中
的
每一
列
应用一个聚合函数。(c).as(c) 但它给出了以下错误:
scala
> var avgTktsPerPeriodo =,exprs:
浏览 2
提问于2018-09-04
得票数 0
1
回答
将RDD转换为Dataframe
Spark
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
如何
在
scala
中将具有以下结构
的
RDD转换为dataframe这里,RDD
的
每一行都包含一个索引Long
和
一个向量org.apache.
spark
.mllib.linalg.Vector。我希望将org.apache.
spark
.mllib.li
浏览 2
提问于2017-02-26
得票数 2
2
回答
将csv文件作为
spark
数据
帧
读取
csv
、
apache-spark
、
dataframe
我有一个CSV文件
和
一个头文件,它必须作为
数据
帧
通过
Spark
(2.0.0
和
Scala
2.11.8)读取。当我尝试将
spark
中
的
csv
数据
作为
数据
帧
读取时,我遇到了问题,因为标题包含
列
(No.指项目)具有特殊字符“。我尝试用来读取csv
数据
的
代码是: val
spark
= SparkSession.bui
浏览 0
提问于2017-09-06
得票数 3
1
回答
Spark
- Naive贝叶斯分类器值错误
apache-spark
、
apache-spark-mllib
我得到了这个错误:model = NaiveBayes.train(dataframe, 1.0) 但是,如果我使用一个
数字
而不是使用映射
浏览 0
提问于2015-04-22
得票数 1
2
回答
如何
在
Spark
(2.4) SQL -
Scala
2.11
中
避免ArrayType
的
自动转换
scala
、
apache-spark
、
casting
、
apache-spark-sql
给定
Spark
2.4
和
scala
2.11
中
的
代码 val df =
spark
.sql("""select array(45, "something", 45)""") 如果我使用df.printSchema()打印模式,我会看到
spark
自动转换为字符串CAST(45 AS STRING)。array (nullable = false) | |-- element: stri
浏览 30
提问于2020-01-21
得票数 3
3
回答
如何
使用createDataFrame创建pyspark
数据
帧
?
pyspark
我知道这可能是一个愚蠢
的
问题。
浏览 1
提问于2018-03-12
得票数 2
回答已采纳
14
回答
如何
在
Spark
Dataframe
中
显示完整
的
列
内容?
apache-spark
、
dataframe
、
spark-csv
、
output-formatting
我正在使用
spark
-csv将
数据
加载到DataFrame
中
。我想做一个简单
的
查询并显示内容:df.registerTempTable("tasks") results = sqlContext.sql("select c
浏览 2594
提问于2015-11-17
得票数 267
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Spark将本地文件读取并封装为DataFrame的完整指南
2018年数据科学前15名的Scala库
年薪50万+的大数据工程师需要具备哪些技能?
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
Apache Spark强势崛起
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券