腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
单个
列
创建
多个
列
-
Scala
spark
dataframe
、
apache-spark
、
apache-spark-sql
我正在处理一个数据框,其中的
列
如下所示 | col_a | col_b || First | name=x, address=Y| | Second | name=x, address=Y| 我想将它转换成一个数据框,并将col_b转换成如下所示的两
列
| col_a | name | address
浏览 9
提问于2021-09-28
得票数 1
回答已采纳
2
回答
如何在Apache
Spark
中根据分隔符将单字符串列转换为多
列
apache-spark
、
pyspark
、
apache-spark-sql
我有一个包含字符串列的数据框,我想在其中
创建
多个
列
。 我想从它
创建
多个
列
。在输出中,我需要
多个
列
- col1 to colN,值作为每
列
的行。以下是输出-我如何在
spark
中做到这一点?
Scala
或Python都适合我。下面的代码
创建
输入数据帧-
scala
> val df =
浏览 23
提问于2021-06-02
得票数 0
回答已采纳
1
回答
为什么LogisticRegression在"IllegalArgumentException: IllegalArgumentException“中失败?
java
、
apache-spark
、
apache-spark-sql
、
apache-spark-mllib
java.lang.IllegalArgumentException:需求失败:
列
pmi必须是org.apache.
spark
.ml.linalg.VectorUDT@3bfc3ba7类型,但实际上是DoubleTypegetFile());} 按照您的建议,更新
从
datasetat org.apache.
spark
.sql.t
浏览 7
提问于2017-06-30
得票数 2
2
回答
如何在多列上使用火花量化器
scala
、
dictionary
、
apache-spark
、
pipeline
、
quantile
全,import org.apache.
spark
.ml.feature.QuantileDiscretizerimport org.apache.
spark
.ml.Pipelineimport
浏览 2
提问于2017-04-26
得票数 6
回答已采纳
2
回答
Scala
Spark
创建
多个
列
scala
、
dataframe
、
apache-spark
我有一个pyspark函数,但需要将其转换为
Scala
PySpark for i in [c for c in r.columns if c.startswith("_")]:r = r.withColumn(i, F.col(i)["id"]) 由于
scala
数据类型是不可变的,因此
Scala
有没有更好的方法让我
创建
多个
新
列
,而不像我在pyspark中所做的那样,val df1
浏览 26
提问于2021-07-14
得票数 0
回答已采纳
1
回答
如何将选定的专栏写到卡夫卡主题?
java
、
apache-spark
、
apache-kafka
、
apache-spark-sql
、
spark-structured-streaming
.start(); 提供错误: at org.apache.
spark
.sql.kafka010.KafkaWriter$$anonfun$6.apply(KafkaWriter.
scala
:71) at org.apache.<e
浏览 6
提问于2019-11-25
得票数 1
回答已采纳
2
回答
为什么$不能处理String类型的值(并且只直接处理字符串文本)?
scala
、
apache-spark
、
apache-spark-sql
" val Date = "Date"} 然后,我想按
列
对
浏览 2
提问于2018-01-11
得票数 2
回答已采纳
2
回答
将Array[string]类型的两
列
合并为新的Array[string]
列
scala
、
apache-spark
、
apache-spark-sql
、
user-defined-functions
我在
Spark
DataFrame中有两
列
,每一
列
中的每个条目都是字符串数组。bought", "20"), Seq("iwa", "was", "asj"))我希望合并每一行中的数组,以便在新
列
中生成
单个
数组:79) at org.apache.
spark
.scheduler
浏览 1
提问于2018-03-07
得票数 9
回答已采纳
1
回答
从
星火中的
多个
文件夹加载
多个
文件
scala
、
apache-spark
我有一个数据集,在主文件夹中包含
多个
文件夹,每个文件夹包含
多个
CSV文件。每个CSV文件都有三
列
,名为X、Y和Z。我想
创建
一个dataframe,以便前三
列
是三
列
X,Y,Z。我还想要另外两
列
,例如第四
列
包含读取CSV文件的文件夹的名称。第五
列
包含CSV文件的名称。如何在
Scala
和
Spark
中
创建
此数据?
浏览 5
提问于2020-04-15
得票数 5
回答已采纳
1
回答
向现有DataFrame添加mapType
列
scala
、
dataframe
、
apache-spark
关于
Spark
中的
Scala
中的DataFrames,我有一个简单而快速的问题。我有一个现有的
Spark
DataFrame (在
Scala
2.10.5和
Spark
1.6.3上运行),我想用ArrayType或MapType添加一个新
列
,但不知道如何实现。但不知道该怎么处理。我不想用“单一”值
创建
多个
列
,而是将它们存储在一个
列
中。这将缩短我的代码,并使其更容易更改。import org.apache.
spa
浏览 9
提问于2019-11-20
得票数 0
1
回答
如何将字符串数组改为双精度数组?
scala
、
apache-spark
、
apache-spark-sql
我这样做如下所示: rdd. r.getDouble(4), r.getAs(_).toDouble(70).toArray,我收到以下错误: <console>:22: error: missing parameter type f
浏览 0
提问于2017-06-28
得票数 1
1
回答
使用大量
列
保存数据的Pyspark故障
apache-spark
、
pyspark
、
apache-spark-sql
、
pivot
、
stack-overflow
当我们在Hortonworks集群上通过木星笔记本处理以下步骤时,我们遇到了一个奇怪的情况: 但是,对于pi
浏览 2
提问于2018-08-06
得票数 1
1
回答
PySpark -当值为"t“和"f”时,如何使用模式读取BooleanType
pyspark
、
boolean
、
spark-dataframe
、
amazon-redshift
该表具有350+
列
,其中许多
列
被配置为布尔值。at
scala
.collection.immutable.StringOps.toBoolean(StringOps.
scala
:30) at org.apache.
spark
.sql.execution.dataso
浏览 1
提问于2017-11-22
得票数 3
1
回答
获取Apache
Spark
Dataframe (
Scala
)中
列
的最大值
apache-spark
、
apache-spark-sql
我正在尝试获取
列
中的最大值,并编写了以下代码。
浏览 24
提问于2020-03-03
得票数 0
回答已采纳
2
回答
Spark
scala
-在df中查找非零行
scala
、
apache-spark
我在一个数据帧中有超过100
列
。在100
列
中,有90
列
是公制
列
。我需要找到至少有一个指标不为0的行。我正在过滤像metric1 <> 0或metric2 <> 0之类的东西。
浏览 0
提问于2020-06-15
得票数 3
2
回答
星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“
hadoop
、
apache-spark
、
hive
、
apache-spark-sql
当
创建
一个
列
值默认值为NULL的表时,我在
Spark
(1.6) SQL中获得了下面的错误。示例:将表测试
创建
为select column_a,NULL作为column_b
从
test_temp
创建
;是否有更好的方法使用
spark
在hive表中插入空值?<init>(Da
浏览 3
提问于2017-12-27
得票数 0
回答已采纳
1
回答
随着数据集和
列
数的增加,
Spark
作业的执行时间呈指数级增长
scala
、
apache-spark
、
bigdata
我已经在
spark
中
创建
了一个固定宽度的文件导入解析器,并在各种数据集上执行了一些执行测试。它可以很好地工作到1000
列
,但随着
列
数和固定宽度长度的增加,
Spark
作业性能会迅速下降。对于20k
列
和固定宽度长度超过10万的
列
,执行时间很长。我发现的类似问题之一:
浏览 1
提问于2018-09-15
得票数 1
1
回答
spark
scala
:将Struct
列
的数组转换为字符串列
arrays
、
json
、
scala
、
apache-spark
我有一个
列
,它的类型是
从
json文件推导出的array < Struct >。我希望将数组< Struct >转换为字符串,这样我就可以在配置单元中保持该数组
列
的原样,并将其作为
单个
列
导出到RDBMS。job_id":{"value":"312002"}}],"user_id":"66
浏览 0
提问于2017-06-02
得票数 4
回答已采纳
2
回答
如何在
Spark
/
Scala
中查找
多个
空
列
scala
、
apache-spark
、
spark-dataframe
我在
Spark
/
Scala
中有一个数据文件,它有100的
列
。许多oth
列
都有许多空值。我希望找到有超过90%空值的
列
,然后将它们
从
我的数据中删除。我怎样才能在
Spark
/
Scala
中做到这一点?
浏览 2
提问于2017-08-04
得票数 0
回答已采纳
1
回答
除了火种之外,左撇子有什么区别吗?
scala
、
apache-spark
、
apache-spark-sql
scala
> val someDF5 = Seq( | ("202003101800("202003101810", "22222222", 222)someDF5: org.apache.
spark
.
浏览 1
提问于2020-04-29
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
Spark SQL DataFrame与RDD交互
Apache Spark 2.4 内置的 Avro 数据源实战
年薪50万+的大数据工程师需要具备哪些技能?
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券