腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7405)
视频
沙龙
2
回答
使用
Spark
Scala
Dataframe
中
现
有的
integer
列
创建
整数
范围
的
新
列
scala
、
apache-spark
、
apache-spark-sql
假设我有一个
Spark
Scala
DataFrame
对象,比如: +--------++--------+|3 ||col1 |col2 ||1 |[0,1] | |
浏览 16
提问于2019-10-12
得票数 0
回答已采纳
1
回答
将StringType
列
添加到现
有的
DataFrame
中
,然后应用默认值
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
Scala
2.10在这里
使用
Spark
1.6.2。我有一个与类似的(但不是相同
的
)问题,然而,被接受
的
答案不是,它假定了关于火花
的
某种“预先知识”;因此我无法复制它或理解它。(更重要
的
是,),这个问题也仅限于向现
有的
dataframe
中
添加一个
新
列
,而我需要添加一个
列
以及数据中所有现有行
的
值。因此,我希望向现
有的
Data
浏览 4
提问于2016-10-10
得票数 7
回答已采纳
3
回答
如何在不同大小
的
数组
列
中
随机选择元素?
scala
、
apache-spark
、
apache-spark-sql
给定具有不同大小
的
整数
数组
列
的
数据文件:+------------++------------+root | |-- element:
integer
(containsNull = true) 我希望在每个数组中生成一个具有随机选择项
的
新
列</e
浏览 0
提问于2018-05-22
得票数 3
回答已采纳
1
回答
向现有
DataFrame
添加mapType
列
scala
、
dataframe
、
apache-spark
关于
Spark
中
的
Scala
中
的
DataFrames,我有一个简单而快速
的
问题。我有一个现
有的
Spark
DataFrame
(在
Scala
2.10.5和
Spark
1.6.3上运行),我想用ArrayType或MapType添加一个
新
列
,但不知道如何实现。但不知道该怎么处理。我不想用“单一”值
创建
多个
列
,而是
浏览 9
提问于2019-11-20
得票数 0
1
回答
在
scala
中将Map Datatype
的
新
列
添加到
Spark
Dataframe
scala
、
apache-spark
、
apache-spark-sql
我可以用一个数据类型为Map
的
列
创建
一个
新
的
Dataframe
。card_type_details类型相同
的
新
列
。我正在尝试
使用
spark
withColumn方法来添加这个
新
列
。(valueContainsNull = true)如何添加应与card_type_details<em
浏览 1
提问于2020-10-22
得票数 0
2
回答
在
dataframe
中
铸造
列
的
类型
scala
、
apache-spark
我
的
星火程序需要读取一个包含
整数
矩阵
的
文件。
列
用",“分隔。每次运行程序时,
列
数都不一样。我将该文件作为数据文件读取:但是,当我打印模式时,它会将所有列作为String提供给我。我将所有
列
转换为
整数
,如下所示,但在此之后,当再次打印df模式时,
列
仍然是String。
浏览 2
提问于2018-01-10
得票数 1
回答已采纳
2
回答
星火SQL抛出错误"java.lang.UnsupportedOperationException:未知字段类型:空“
hadoop
、
apache-spark
、
hive
、
apache-spark-sql
当
创建
一个
列
值默认值为NULL
的
表时,我在
Spark
(1.6) SQL
中
获得了下面的错误。示例:将表测试
创建
为select column_a,NULL作为column_b从test_temp
创建
; 同样
的
东西在Hive
中
工作,并
创建
数据类型为"void“
的
列
。我
使用
空字符串而不是NULL来避免异常和
新
列
获取字符串数据类
浏览 3
提问于2017-12-27
得票数 0
回答已采纳
1
回答
在本地
使用
spark
/
scala
查询数据时,如何更改
列
中值
的
输出?
json
、
scala
、
dataframe
、
apache-spark
、
apache-spark-sql
我
使用
spark
/
scala
本地将json文件转换为
dataframe
。 我当前
的
dataframe
有一个
列
‘男性’和‘女性’值,如下所示。我想将
dataframe
中
的
‘男性’更改为'M',以及
使用
Spark
-sql<code>E 215</code>将‘where’更改为'F'
的
浏览 5
提问于2021-07-19
得票数 1
7
回答
如何在
spark
的
数据
中
“负选择”
列
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
这个df有"A“、"B”和"C“
列
。现在假设我有一个Array,它包含这个df
列
的
名称:我想以这样
的
方式来做一个df.select(),这样我就可以指定哪些
列
不能选择。例如:假设我不想选择
列
"B“。我试过了但这不起作用,因
浏览 21
提问于2015-07-15
得票数 22
回答已采纳
1
回答
如果我显式地传递模式,我是否需要
使用
"mergeSchema“选项?
apache-spark
、
parquet
来自
spark
文件:我从文档中了解到,如果我有多个具有不同模式
的
parquet分区,如果我
使用
spark
.read.option("mergeSchema", "true").parquet(path),schemas如果我在查询时不知道这些分区
中
存在哪些模式,这似乎是一个很好
的
选择。 但是,考虑一下这样
浏览 1
提问于2021-03-10
得票数 2
1
回答
在该行
的
任何
列
中选择至少一个空或空
的
行。
scala
、
apache-spark
从一个
dataframe
中
,我想
创建
一个
新
的
dataframe
,其中任何
列
中
至少有一个值为null或空,在
Spark
1.5/
scala
中
。我正在尝试编写一个通用函数来
创建
这个
新
的
dataframe
。在这里,我传递数据文件和
列
列表,并
创建
记录。 谢谢
浏览 4
提问于2017-07-25
得票数 4
回答已采纳
2
回答
有没有一种方法可以从
Scala
中
的
dataframe
现有
列
创建
多个
列
?
scala
、
apache-spark
、
hadoop
我正在尝试将RDBMS表摄取到Hive
中
。, qtd_balance, ytd_balance是双重数据类型,它们是精确
的
列
。我们
的
项目希望通过
创建
具有相同数据
的
新
列
:ptd_balance_text, qtd_balance_text, ytd_balance_text,将它们
的
数据类型从Double转换为String,以避免任何数据截断withColumn将在
dataframe
中
创建</
浏览 1
提问于2018-08-07
得票数 0
回答已采纳
3
回答
Spark
DataFrames:组合连续两行
apache-spark
、
dataframe
、
apache-spark-sql
我有一个具有以下结构
的
DataFrame
:-----------------------------| 3 | 8 | 4 | 7 || 4 | 2 | 9 | 0 | 我试图实现
的
是,对于每条记录,都会
创建
另外三个
列
,其中包含下一个记录
的
time, x, y (基于tim
浏览 0
提问于2018-12-22
得票数 1
回答已采纳
2
回答
如何在Apache
Spark
中
根据分隔符将单字符串列转换为多
列
apache-spark
、
pyspark
、
apache-spark-sql
我有一个包含字符串列
的
数据框,我想在其中
创建
多个
列
。 我想从它
创建
多个
列
。字符串
的
格式是相同
的
- col1:value1 col2:value2 col3:value3 ... colN:valueN。在输出
中
,我需要多个
列
- col1 to colN,值作为每
列
的
行。以下是输出-我如何在<e
浏览 23
提问于2021-06-02
得票数 0
回答已采纳
1
回答
向
dataframe
星火/
scala
添加
新
列
时遇到
的
问题
scala
、
apache-spark
、
dataframe
、
apache-spark-sql
、
user-defined-functions
我是新来
的
火花/斯卡拉。我正在尝试读取一些数据从一个蜂窝表到一个火花数据,然后添加一个
列
的
基础上
的
一些条件。,后者是DF
中
的
列
。我试图通过
使用
DF和when向dateDiff添加一个
新
列
,后者
使用
dateDiff来获取日期之间
的
差异。下面是我从DF中
使用
的
列
的
架构: |-- item_due_dat
浏览 1
提问于2017-11-27
得票数 0
回答已采纳
1
回答
在现有
列
的
基础上在
DataFrame
中
添加
新
列
scala
、
apache-spark
、
apache-spark-sql
我有一个包含日期时间
列
的
csv文件:"2011-05-02T04:52:09+00:00“。我
使用
scala
,文件被加载到
spark
DataFrame
中
,我可以
使用
jodas时间来解析日期:import sqlContext.implicits._ val df = new SQLContext(sc).load("com.databricks.
sp
浏览 0
提问于2015-04-28
得票数 3
回答已采纳
2
回答
在Java
的
Apache
Spark
1.4
中
向数据框追加一
列
java
、
apache-spark
我正在尝试向我
的
DataFrame
添加一个
列
,作为该
列
的
唯一ROW_ID。所以,它应该是这样
的
1,user1 2,user2 3,user3 ...我可以
使用
一个带
整数
迭代
的
hashMap很容易做到这一点,但是我不能在
spark
中
使用
DataFrame
上
的
map函数来做这件事,因为我不能在map函数中有一个
整数
递增。有没有什么方法可以通过将一<e
浏览 4
提问于2015-09-16
得票数 2
2
回答
为什么在
中
列
更改为可空?
apache-spark
、
apache-spark-sql
、
apache-spark-dataset
为什么在执行某些函数之后
使用
nullable = true,即使
DataFrame
中
没有NaN值。2", when($"foo" === 2 , 1).otherwise(0)).select("foo", "foo_2").show .select(
浏览 3
提问于2016-11-15
得票数 11
回答已采纳
1
回答
创建
具有嵌套结构
的
DataFrame
并从输入表填充数据
scala
、
apache-spark
、
apache-spark-sql
我正在
使用
Scala
中
的
Spark
,希望将现
有的
数据集(
dataframe
)转换为包含嵌套结构
的
新
表。示例输入: columnA columnB columnC columnD columnE 示例输出: columnA columnB columnC columnF:{columnD,columnE} (
创建
一个同时包含D和E作为嵌套结构
的
新
列
) 转换colum
浏览 25
提问于2021-08-12
得票数 0
2
回答
如何传递模式以从现
有的
Dataframe
创建
新
的
Dataframe
?
python
、
python-3.x
、
apache-spark
、
pyspark
True), StructField('name', StringType(), True)]df =
spark
.read.json但是,现在,我在表中有数据,我通过以下方式显示:但是,如果我试图通过
使用
下面的命令将一个新模式传递给它df2 =
spark
.sql("S
浏览 2
提问于2018-02-12
得票数 12
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
年薪50万+的大数据工程师需要具备哪些技能?
Spark SQL DataFrame与RDD交互
教程:Apache Spark SQL入门及实践指南!
遇见YI算法之初识Pyspark(二)
Spark之SparkSQL
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券