腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
使用
Scala
删除
列
中
包含
特定
值
的
Spark
DataFrame
行
scala
、
dataframe
、
apache-spark
我正在
使用
tryping来
删除
spark
dataframe
中
包含
特定
行
中
的
特定
值
的
行
。例如,如果我有下面的
DataFrame
,我想
删除
列
"A“中有"two”
的
所有
行
。所以我想
删除
索引为1和2
的
浏览 188
提问于2020-11-03
得票数 0
回答已采纳
1
回答
将StringType
列
添加到现有的
DataFrame
中
,然后应用默认
值
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
Scala
2.10在这里
使用
Spark
1.6.2。我有一个与类似的(但不是相同
的
)问题,然而,被接受
的
答案不是,它假定了关于火花
的
某种“预先知识”;因此我无法复制它或理解它。(更重要
的
是,),这个问题也仅限于向现有的
dataframe
中
添加一个新
列
,而我需要添加一个
列
以及数据中所有现有
行
的
值
。因此,我希望向现有的
DataFrame</em
浏览 4
提问于2016-10-10
得票数 7
回答已采纳
4
回答
Spark
scala
删除
仅
包含
空
值
的
列
scala
、
null
、
spark-dataframe
有没有一种方法可以
删除
spark
dataFrame
中
只
包含
空
值
的
列
?(我
使用
的
是
scala
和
Spark
1.6.2)var validCols: List[String] = List() .count if (c
浏览 6
提问于2016-09-11
得票数 7
1
回答
N
列
m
行
的
动态数据帧
scala
、
apache-spark
示例数据帧:import
spark
.implicits._ (1, "ABC"), (3, "GHIJ")someDF: org.apache.
spark
.sql.
Dat
浏览 6
提问于2020-06-04
得票数 0
回答已采纳
1
回答
Spark
在添加随机双列时,在所有
行
中都有重复
值
。
scala
、
apache-spark
、
dataframe
我试图在
dataframe
中
添加一个新
列
。新
列
包含
随机双
值
。该问题是
DataFrame
中所有
行
的
新
列
中
的
值
重复。我
使用
scala
.util.Random类来生成。我试图简单地向
dataframe
添加一个新
列
,就像在类似的帖子
中
建议
的
那样。我试图将
Da
浏览 2
提问于2019-04-26
得票数 2
回答已采纳
1
回答
如何将arrays[String]
列
转换为字符串列
arrays
、
scala
、
apache-spark
、
apache-spark-sql
在
scala
+
spark
中
,我有一个
包含
两
列
Array[String]
的
数据 |-- v2: array (nullable = true)我想根据v1
中
相应索引<
浏览 0
提问于2019-08-10
得票数 1
回答已采纳
1
回答
我是如何过滤项目中列上
的
噪声数据
的
?
java
、
apache-spark
、
apache-spark-sql
我正在从事关于java maven项目的Apache
的
工作,我在这个图中有一个类似的subreddit注释;我解析数据,只显示body
列
,我想在body
列
中
清除(筛选)已
删除
的
注释和非拉丁字母注释。
浏览 1
提问于2018-12-24
得票数 0
回答已采纳
1
回答
转换数据
列
值
并应用SHA2掩蔽逻辑
scala
、
apache-spark
、
apache-spark-sql
、
scala-collections
我有一个
dataframe
,它
包含
来自Hive
的
属性表和主表。我想
删除
列
,然后应用掩蔽逻辑(SHA2)。将postgre
中
的
属性配置读取为
Spark
/
scala
作业
中
的
Dataframe
。主蜂箱表输出应该是
浏览 0
提问于2021-03-26
得票数 0
回答已采纳
1
回答
如何创建countVectorizer模型
的
一个
列
中
包含
值
数组
的
火花数据
apache-spark
、
spark-dataframe
、
countvectorizer
中
创建第4
列
,其中
包含
所有这3
列
的
值
数组,如| indiana|需要这个数组,因为countVectorizer模型
的
输入应该是
包含
值
数组
的
列
。它不应该像下面的错误消息中提到
的
那样是字符串数
浏览 1
提问于2017-09-05
得票数 0
回答已采纳
1
回答
星火
DataFrame
筛选:保留属于列表
的
元素
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
、
apache-zeppelin
我正在
使用
Spark
1.5.1和
Scala
在齐柏林飞艇笔记本上。
删除
所有属于要排除
的
用户
的
行
的
最佳方
浏览 1
提问于2015-11-20
得票数 5
回答已采纳
3
回答
删除
spark
数据帧
中
重复
的
所有记录
scala
、
apache-spark
、
duplicates
、
apache-spark-sql
、
spark-dataframe
我有一个
包含
多个
列
的
spark
数据帧。我想找出并
删除
列
中有重复
值
的
行
(其他
列
可以是不同
的
)。我尝试
使用
dropDuplicates(col_name),但它只
删除
重复
的
条目,但仍然在数据帧中保留一条记录。我需要
的
是
删除
所有最初
包含
重复条目的条目。我
使用
的
是<
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
3
回答
使用
Scala
/
Spark
在
列
中
复制
值
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
我有一个
特定
的
问题,需要
使用
Scala
/
SPARK
来解决。我在
Dataframe
中有一
列
,如下所示Tag2 Tag1 Tag3 Tag2 现在,我想在
dataframe
中
包含
一个新
列
,如下所示,格式如下所示。/
Spark
中
完成吗?我是
浏览 0
提问于2017-11-04
得票数 0
回答已采纳
7
回答
如何在
spark
的
数据
中
“负选择”
列
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
这个df有"A“、"B”和"C“
列
。现在假设我有一个Array,它
包含
这个df
列
的
名称:我想以这样
的
方式来做一个df.select(),这样我就可以指定哪些
列
不能选择。例如:假设我不想选择
列
"B“。我试过了 df.select(column_names.filter(_!="B"))
浏览 21
提问于2015-07-15
得票数 22
回答已采纳
3
回答
将不符合模式
的
行
放入
spark
中
scala
、
apache-spark
、
filter
、
rows
、
drop
当前,我
的
表
的
架构是: |-- product_id: integer (nullable = true) |-- department_id: string (nullable = true) 我想在上面的表上应用下面的模式,并
删除
不遵循以下模式
的
所有
行
浏览 6
提问于2020-05-13
得票数 2
回答已采纳
1
回答
Spark
To Cassandra:将没有空
值
的
稀疏
行
写到Cassandra
scala
、
apache-spark
、
cassandra
、
apache-spark-sql
、
spark-cassandra-connector
问:如何高效地将
Spark
DataFrame
中
包含
值
的
列
写入Cassanrda?(在最小
的
Scala
代码
行
中高效,而不是在Cassandra
中
创建一堆tombstones,让它快速运行,等等) 我有一个
包含
两个键
列
和300个潜在描述符
值
的
Cassandra表。数据帧,但数据帧
中
的
每一
浏览 0
提问于2018-11-06
得票数 2
2
回答
星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“
hadoop
、
apache-spark
、
hive
、
apache-spark-sql
当创建一个
列
值
默认
值
为NULL
的
表时,我在
Spark
(1.6) SQL
中
获得了下面的错误。示例:将表测试创建为select column_a,NULL作为column_b从test_temp创建;是否有更好
的
方法
使用<
浏览 3
提问于2017-12-27
得票数 0
回答已采纳
1
回答
如何在不
使用
javaRDD
的
情况下通过
dataframe
从hbase获取数据
java
如何在不
使用
javaRDD
的
情况下
使用
dataframe
(
spark
sql)从Hbase获取数据。”
行
中
的
异常: hbase.columns.mapping
的
行
字符串
的
值
无效:java.lang.IllegalArgumentException,城市字符串r: city‘at org.apache.hadoop.hbase.
spark
.DefaultSource
浏览 4
提问于2017-05-12
得票数 0
4
回答
如何最有效地将
Scala
DataFrame
的
行
转换为case类?
scala
、
apache-spark
、
apache-spark-sql
一旦我在
Spark
中
获得了一些Row类,无论是
Dataframe
还是催化剂,我都想在代码中将其转换为case类。这可以通过匹配完成。someRow match {case Row(a:Long,b:String,c:Double) => myCaseClass(a,b,c)} 但是,当一
行
中有大量
的
列
时,比如十几个双打,一些布尔人,甚至偶尔
的
空
列
,情况就变得很糟糕了。我只想能-抱歉-把排到myCaseClass.这是可能
的
,还是
浏览 9
提问于2015-01-27
得票数 55
回答已采纳
1
回答
基于
行
值
的
Spark
选择
列
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
我有一个全字符串
spark
dataframe
,我需要返回其中所有行都满足
特定
条件
的
列
。
scala
> val df =
spark
.read.format("csv").option("delimiter",",").option("header", "true").option("inferSchema| mammal|(mam)-mal| anim
浏览 22
提问于2020-08-28
得票数 0
1
回答
如何从列表
中
创建
spark
数据帧
scala
、
apache-spark
我有一个
scala
List List[Any] = List("a", "b",...),我需要获取一个
Spark
dataframe
,它只
包含
列表中所有
列
的
一
行
。我正在尝试用返回org.apache.
spark
.rdd.RDD[Any] = ParallelCollectionRDD[5834] at parallelize at <console>:81
的
sc.parallel
浏览 2
提问于2018-09-26
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
肝了3天,整理了90个Pandas案例
年薪50万+的大数据工程师需要具备哪些技能?
教程:Apache Spark SQL入门及实践指南!
pandas系列学习(三):DataFrame
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券