腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
向
Scala
/
Spark
中
的
dataframe
添加
列表
,
以便
将
每个
元素
添加到
单独
的
行
中
、
、
例如,我有一个如下格式
的
数据帧(实际上是更多
的
文档): df.show() +-----+-----+-----+println(ngramShingles) List("the", "he ", "e l") 其中ngramShingles长度等于数据帧列
的
大小"he "| +-----+--
浏览 71
提问于2021-07-29
得票数 2
回答已采纳
1
回答
Spark
在
添加
随机双列时,在所有
行
中都有重复值。
、
、
我试图在
dataframe
中
添加
一个新列。新列包含随机双值。该问题是
DataFrame
中所有
行
的
新列
中
的
值重复。我使用
scala
.util.Random类来生成。我试图简单地
向
dataframe
添加
一个新列,就像在类似的帖子
中
建议
的
那样。我试图
将
DataFrame
更改为Dataset并
添加
列。
浏览 2
提问于2019-04-26
得票数 2
回答已采纳
1
回答
列表
与数据
我发现很难处理
列表
,例如5个
列表
,
每个
列表
都有多个
元素
。有条件地删除
元素
(对于
dataframe
,我可以使用子集函数)
向
现有
列表
中
添加
新
元素
(对于
dataframe
,我可以使用rbind
将
新
行
添加到
dataframe
中
)。我读到从内存效率到重新定义
列表
和不断
浏览 4
提问于2020-02-12
得票数 0
回答已采纳
2
回答
[
Scala
][
Spark
]:转换数据帧
中
的
列,保留其他列,使用withColumn和map [错误:缺少参数类型]
、
、
、
、
, C++]| CA||Robert,,Williams| [CSharp,|CA ||Michael,Rose, |
Spark
|NJ |
浏览 11
提问于2021-10-11
得票数 2
1
回答
如何
将
Spark
dataframe
添加到
另一个数据帧
的
底部?
、
、
我可以使用withcolumn
向
数据帧
中
添加
新列。但是在
scala
中
,我如何
向
DataFrame
添加
新
行
呢? 我正在尝试
将
一个数据帧
添加到
另一个数据帧
的
底部。因此,无论是如何在
scala
中
添加
行,或者如何
将
DataFrame
添加到
另一个
行
的
浏览 0
提问于2015-11-06
得票数 23
回答已采纳
2
回答
将
星火数据转换为可变地图
、
、
、
、
我是新来
的
火花和斯卡拉。我正在尝试在hive
中
查询一个表(从表中选择2列),并将结果转换为Map。我在
Scala
2.10.6
中
使用
Spark
1.6。$.ArrowAssoc(Ljava/lang/Object;)Ljava/lang/Object; 它将这个错误抛到我试图
将
键值对
添加到
Map
的
行
中
。然而,我正在使用
Spark
1.6,我不认为这个功能是可用<em
浏览 3
提问于2017-10-19
得票数 1
回答已采纳
1
回答
将
RDD转换为
Dataframe
Spark
、
、
、
如何在
scala
中将具有以下结构
的
RDD转换为
dataframe
这里,RDD
的
每一
行
都包含一个索引Long和一个向量org.apache.
spark
.mllib.linalg.Vector。我希望
将
org.apache.
spark
浏览 2
提问于2017-02-26
得票数 2
1
回答
将
StringType列
添加到
现有的
DataFrame
中
,然后应用默认值
、
、
、
Scala
2.10在这里使用
Spark
1.6.2。我有一个与类似的(但不是相同
的
)问题,然而,被接受
的
答案不是,它假定了关于火花
的
某种“预先知识”;因此我无法复制它或理解它。(更重要
的
是,),这个问题也仅限于
向
现有的
dataframe
中
添加
一个新列,而我需要
添加
一个列以及数据中所有现有
行
的
值。因此,我希望向现有的
DataFrame
添加</
浏览 4
提问于2016-10-10
得票数 7
回答已采纳
1
回答
从以csv分隔
的
制表符创建数据,其中有些列是json类型,而有些列不是
、
、
、
我试图从csv
中
创建一个(使用
scala
),其中包含如下条目:这是由5列组成
的
单个
行
条目: {“用户名”:“john_doe,”id:“123411”}{“国家”:“IN”,“城市”:“BOM”}所以,有些列是JSON格式
的
,而有些则不是。我确实编写了一些代码,
将
JSON列作为字符串处理,并将它们按
行
顺序直接
添加到
dataframe
中
,但剩下
的
其他列,我不得不手动将它们
添加到
<e
浏览 0
提问于2018-01-29
得票数 0
2
回答
如何
将
List[String]值
添加到
数据帧
中
的
单个列
、
我有一个
dataframe
,我有一个值
列表
(可能是
列表
字符串),我想在我
的
dataframe
中
创建一个新列,并将这些
列表
值作为列值
添加到
这个新列。c_df)((df, column) => df.withColumn("newcolumnname" , lit(column))) 但它抛出了StackOverflow异常,我也尝试过迭代字符串值
列表
并
添加到
数据帧
中
,但结果值
浏览 0
提问于2019-01-03
得票数 0
2
回答
在
列表
列表
中
为
每个
列表
创建一个df
、
、
、
],[[1,2,3],[11,12,13],[21,22,23],[1,2,3],[11,12,13],[21,22,23]]] 我希望创建"lslsls“
中
每个
列表
列表
的
熊猫数据,当我这样做时,
将
"ls”
的
每个
元素
添加到
每一
行
的
dataframe</
浏览 4
提问于2020-07-01
得票数 1
回答已采纳
2
回答
如何在火花作业中使用HiveContext
添加
jar
、
、
、
我试图
将
json文件
添加到
JSON文件
中
,
以便
访问JSONSerDe数据,
将
JSON从
spark
作业加载到hive表
中
。at org.apache.
spark
.sql.
DataFrame
.<init>(
DataFrame
.
scala
:145) at org.apache.
spark
.sql.
DataFrame
.<init>(
浏览 4
提问于2016-06-14
得票数 2
1
回答
为什么我不应该在Python转换中使用collect()?
、
TL;DR:我听说某些PySpark函数在转换
中
是不可取
的
,但是我不知道哪些函数是错误
的
,它们为什么是错误
的
? 为什么我不能只在某些情况下
将
数据collect()到一个
列表
中
,并对行进行迭代呢?
浏览 6
提问于2020-09-25
得票数 1
1
回答
在普通
的
Scala
中有等效
的
爆炸函数吗?
我试图寻找爆炸功能或它
的
等价物在普通
的
scala
,而不是火花。使用
Spark
中
的
below函数,我能够
将
一个具有多个
元素
的
行
平平成多个
行
,如下所示。
scala
> import org.apache.
spark
.sql.functions.explode import org.apache.
spark
.sql.functions.explod
浏览 2
提问于2020-02-24
得票数 1
回答已采纳
1
回答
向
现有json文件
中
添加
新
的
嵌套数组
、
、
、
、
我是星火新来
的
,有一个大问题,我无法处理,即使经过几个小时
的
搜索……我有一个jsonFile,它看起来像这样: |-- dialogueData: struct (nullable = true| |-- transcription: string (nullable = true)我
的
程序进行情感分析,并返回带有预测(1.0、0.0、-1.0等)
的
dataframe
列,并返回一些值(如平
浏览 2
提问于2017-07-20
得票数 1
2
回答
如何
向
DataFrame
动态
添加
列?
、
、
我正在尝试从字符串
的
Seq
中
动态地
向
DataFrame
添加
列。下面是一个示例:源
dataframe
如下:|id | A | B | C | D ||1 || ||3 |b | c | a | d |我还有一个字符串Seq,它包含我想要
添加
<em
浏览 4
提问于2020-01-20
得票数 2
回答已采纳
2
回答
如何
将
列表
中
的
元素
传递给concat函数?
、
、
、
、
我目前正在使用以下方法来连接
dataframe
中
的
列: val Finalraw = raw.withColumn("primarykey", concat($"prod_id",$"frequency我有一个由列名组成
的
列表
: columnNames: List[String] = List("prod_id", "frequency", "fee_type_code") 因此,问题是如何<em
浏览 31
提问于2019-01-23
得票数 0
回答已采纳
2
回答
星星之火:写入数据时“请求
的
数组大小超过VM限制”
、
、
、
、
=2000 --conf
spark
.dynamicAllocation.enabled=trueval x = Seq(df.collect.toList)在创建此
列表<
浏览 0
提问于2018-03-30
得票数 0
1
回答
如何在Pandas数据转换过程
中
处理时间戳类型?
、
、
、
、
我看了一下“createDataFrame”()
中
的
pyspark源代码,它们似乎
将
数据转换为numpy记录数组,并将其转换为
列表
:但是,时间戳类型在此过程中转换为一个longs
列表
: > df = pd.
DataFrame
(pd.date_range(start=datetime.datetime.now1500983800614193000L,), (15009
浏览 2
提问于2017-07-25
得票数 5
1
回答
我
的
本地火星雨少了什么?
、
我刚刚开始学习pyspark,这里似乎是一个展示器:我试图
将
一个本地文本文件加载到
spark
中
: base_df = sqlContext.read.text("/root/Downloads/SogouQ1估计大小为61.8 KB,空闲78.0 KB) 16/12/29 11:55:36 INFO storage.MemoryStore:块broadcast_2_piece0存储为内存
中
的
字节(估计大小为AccessorImpl.java:-2
浏览 5
提问于2016-12-29
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券