腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
scala
替换
spark
dataframe
列
中
多次
出现
的
字符串
的
正则表达式
scala
、
apache-spark
、
apache-spark-sql
我有一个
列
,其中一个特定
的
字符串
出现
了
多次
。
出现
的
次数是不固定
的
。我可以
多次
得到这样
的
字符串
。示例:
列
描述包含以下数据 The account account has been cancelled for the account account account and with the account在这里,基本上我想用一个帐户
替换
多个并发发生
的
浏览 20
提问于2021-04-08
得票数 0
回答已采纳
7
回答
如何在
spark
的
数据
中
“负选择”
列
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
这个df有"A“、"B”和"C“
列
。现在假设我有一个Array,它包含这个df
列
的
名称:我想以这样
的
方式来做一个df.select(),这样我就可以指定哪些
列
不能选择。例如:假设我不想选择
列
"B“。我试过了但这不起作用,因
浏览 21
提问于2015-07-15
得票数 22
回答已采纳
2
回答
星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“
hadoop
、
apache-spark
、
hive
、
apache-spark-sql
当创建一个
列
值默认值为NULL
的
表时,我在
Spark
(1.6) SQL
中
获得了下面的错误。示例:将表测试创建为select column_a,NULL作为column_b从test_temp创建;是否有更好
的
方法
使用<
浏览 3
提问于2017-12-27
得票数 0
回答已采纳
1
回答
在java
中
激发
Dataframe
sql -如何转义单引号
apache-spark-sql
我
使用
的
是火花-核心,火花-sql,
Spark
2.10(1.6.1),
scala
-反射2.11.2。"));commentValueToFilterOut= commentValueToFilterOut.replaceAll("'&quo
浏览 0
提问于2018-07-17
得票数 2
2
回答
为什么$不能处理String类型
的
值(并且只直接处理
字符串
文本)?
scala
、
apache-spark
、
apache-spark-sql
" val Date = "Date"} 然后,我想按
列
对
浏览 2
提问于2018-01-11
得票数 2
回答已采纳
1
回答
向
dataframe
星火/
scala
添加新
列
时遇到
的
问题
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
、
user-defined-functions
,后者是DF
中
的
列
。我试图通过
使用
DF和when向dateDiff添加一个新
列
,后者
使用
dateDiff来获取日期之间
的
差异。
的
值没有被转换成
字符串
来解析为日期。这就是发生
的
事吗?如果是,如何将
列
值转换为
字符串
?下面是我从DF中
使用
的
列
的
架构: |-- item_due_date: string (nulla
浏览 1
提问于2017-11-27
得票数 0
回答已采纳
1
回答
Spark
1.4.0 org.apache.
spark
.sql.AnalysisException:无法解决给定输入列
的
“概率”
java
、
apache-spark
我目前正在
使用
Spark
1.4.0,并开始
使用
ML pipeline framework。
使用
'probability'方法对模型进行了适当
的
训练,但是当
使用
上面示例
中
的
print语句测试模型时,我得到了以下错误:不存在fit
列
。 本专栏仅提供给LogisticRegression吗?如果是这样的话,我可以看到在DecisionTreeClassifier预测输出之后可能
出现
的
浏览 4
提问于2015-07-17
得票数 1
1
回答
在
Spark
Scala
中将变换应用于
列
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
在
Spark
2.40
Scala
中
,将以下转换应用于
dataframe
中
的
列
的
最佳方式是什么?我正在尝试udf或
正则表达式
替换
,但无法达到预期结果。 下例
中
的
column_1是一个
字符串
。数据帧输入: column_1#;#;#; 期望
的
结果 column_1 null#;null#;Runner#;null
浏览 38
提问于2021-08-06
得票数 0
回答已采纳
1
回答
如何在不
使用
javaRDD
的
情况下通过
dataframe
从hbase获取数据
java
如何在不
使用
javaRDD
的
情况下
使用
dataframe
(
spark
sql)从Hbase获取数据。”行
中
的
异常: hbase.columns.mapping
的
行
字符串
的
值无效:java.lang.IllegalArgumentException,城市
字符串
r: city‘at org.apache.hadoop.hbase.
spark
.DefaultSource.generate
浏览 4
提问于2017-05-12
得票数 0
4
回答
如何
使用
Java
中
的
spark
将数据数据
中
的
特定值
替换
为空值?
java
、
apache-spark
我正在努力提高Logistic回归算法在
Spark
中
使用
Java实现
的
准确性。为此,我试图用该
列
最常见
的
值
替换
列
中
的
空值或无效值。例如:-a |a1a |a2b |a2c |d |c1 在本例
中
,我将将
列
"Name“
中
的
所有空值
替换</
浏览 0
提问于2017-06-21
得票数 27
回答已采纳
2
回答
希望
使用
scala
生成值更改后
的
唯一Ids。
scala
、
apache-spark
当值从给定
列
中
的
上一行发生变化时,我希望生成唯一
的
in。我有
Scala
中
的
dataframe
,并希望将Unique_ID
列
添加到现有的
dataframe
中
。我不能
使用
分区或groupBy上
的
行号作为相同
的
Product_IDs
多次
出现
,每次到
列
时都要
使用
Unique_ID。P
浏览 4
提问于2016-04-02
得票数 1
回答已采纳
1
回答
将StringType
列
添加到现有的
DataFrame
中
,然后应用默认值
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
Scala
2.10在这里
使用
Spark
1.6.2。我有一个与类似的(但不是相同
的
)问题,然而,被接受
的
答案不是,它假定了关于火花
的
某种“预先知识”;因此我无法复制它或理解它。(更重要
的
是,),这个问题也仅限于向现有的
dataframe
中
添加一个新
列
,而我需要添加一个
列
以及数据中所有现有行
的
值。因此,我希望向现有的
DataFrame
添加一
列
,然后将
浏览 4
提问于2016-10-10
得票数 7
回答已采纳
2
回答
Spark
列
rlike将int转换为boolean
regex
、
scala
、
apache-spark
、
spark-dataframe
所以我
使用
regex和
Spark
的
列
rlike从
字符串
中提取最后一个数字。问题是,在它提取数字后,它会自动转换为布尔值。有没有办法阻止它自动转换为布尔值?$")) 输入:2015 Q 12015 Q 2truetrue预期:1 1 2 2 我尝试将其转换为整数,但它所做
的
只是返回
浏览 20
提问于2017-07-26
得票数 1
回答已采纳
1
回答
如果regex不能匹配,如何返回null?
scala
、
apache-spark
我在
Scala
中
使用
了
spark
2.4。我
使用
regexp_extract()从数据中提取相关字段:我有一个样本数据:我
使用
以下
正则表达式
提取字段\;\&]+)regexp_extract("foo/e/b24449378.277938302;dc_trk_ai
浏览 6
提问于2022-07-27
得票数 0
1
回答
Spark
Scala
拆分
字符串
语法问题
apache-spark
、
apache-spark-sql
我尝试
使用
SparkSQL和
Scala
拆分
DataFrame
列
中
的
字符串
,这两种拆分条件
的
工作方式似乎有所不同
使用
Scala
, 这是可行
的
- val seq = Seq("12.1")val df =
浏览 18
提问于2019-01-08
得票数 0
回答已采纳
3
回答
为什么
Spark
会将
字符串
" null“转换为对象null(浮点/双类型)?
scala
、
apache-spark
、
apache-spark-sql
、
spark-dataframe
我有一个包含float和double值
的
dataframe
。
scala
> val df = List((Float.NaN, Double.NaN), (1f, 0d)).toDF("x", "y")| 1.0| 0.0| +
浏览 2
提问于2017-05-12
得票数 3
回答已采纳
2
回答
使用
SQL表达式删除
Spark
中
的
重复列
scala
、
apache-spark
、
apache-spark-sql
在
Spark
中
,我们如何在删除重复列
的
情况下运行SQL查询?例如,在
spark
上运行
的
SQL查询left outer joinon a.id = b.id 在这种情况下,如何删除重复
的
列
我知道我们可以在
Spark
中
使用
其他步骤,比如提供遗憾或重命名列,但是有没有一种更快
的
方法来简单地通过编写SQL查询来删除重复
的
<
浏览 8
提问于2017-09-10
得票数 1
1
回答
为什么udf调用
dataframe
不起作用?
scala
、
apache-spark
,它将df
中
的
"color“
列
替换
为
字符串
长度:我将udf引用保存为性能> x.show|UDF(color)|| 8|+----------+ 但是,当我想与udf处理
的
列
一起选择其他
列
时,我会得到以下
浏览 0
提问于2018-11-06
得票数 2
回答已采纳
2
回答
如何在不从
DataFrame
转换和访问数据集
的
情况下向Dataset添加
列
?
scala
、
apache-spark
我知道
使用
.withColumn()向星火.withColumn()添加新
列
的
方法,以及返回
DataFrame
的
UDF。我还知道,我们可以将结果
DataFrame
转换为DataSet。我
的
问题是: 如果我们仍然遵循传统
的
DF方法(即将列名作为UDF输入
的
字符串
传递),DataSet
的
类型安全性是如何发挥作用
的
?是否有一种“面向对象
的
方式”来访问
列</e
浏览 1
提问于2016-11-15
得票数 11
回答已采纳
1
回答
spark
sql类似于区分大小写吗?
sql
、
apache-spark
、
apache-spark-sql
看起来
spark
sql对" like“查询是区分大小写
的
,对吧?
spark
.sql("select distinct status, length(status) from table")Active|6 不返回值
spark
.sql("select distin
浏览 8
提问于2018-11-28
得票数 4
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
教程:Apache Spark SQL入门及实践指南!
Spark SQL DataFrame与RDD交互
年薪50万+的大数据工程师需要具备哪些技能?
第四范式OpenMLDB: 拓展Spark源码实现高性能Join
Spark SQL,DataFrames 以及 Datasets 编程指南
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券