腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何截断
spark
dataframe
列
的
值?
、
、
、
我想为
spark
数据
帧
的
单个
列
中
的
每个
字符串
删除
字符串
的
最后两个值。我想在
spark
数据
帧
中
实现这一点,而不是将其移动到pandas,然后再移回来。下面是一个
数据
帧
示例,# | age| name|# | 350|Mi
浏览 1
提问于2019-06-04
得票数 1
1
回答
将
字符串
(
或
字符串
列表
)拆
分为
spark
数据
帧
中
的
单个
列
、
、
、
、
给定一个
数据
帧
"df“和一个
列
列表
"colStr",在
Spark
dataframe
中
是否有一种方法可以从
数据
帧
中提取
或
引用这些
列
。names delimited by ',' import org.apache.
s
浏览 2
提问于2017-01-28
得票数 1
回答已采纳
2
回答
Spark
从多个
列表
/数组创建
数据
帧
、
、
因此,我在
Spark
(scala)中有两个
列表
。它们都包含相同数量
的
值。第一个
列表
a包含所有
字符串
,第二个
列表
b包含所有长
字符串
。String] = List("a", "b", "c", "d") b: List[Long] = List(17625182, 17625182, 1059731078, 100) 我还有一个定义如下
的
模式StructField("
浏览 11
提问于2021-03-15
得票数 0
回答已采纳
1
回答
在apache
spark
中
,如何在groupBy()之后
将
mllib Vector
列
收集到一个
列表
中
?
、
、
、
我在Java8
中
使用
Spark
。我有一个
数据
帧
,其中一
列
包含一个mllib.linalg.Vector。我希望
将
数据
帧
中
的
另一
列
(例如ID
列
) groupBy,并将特征向量"collect_list“到
列表
中
。我得到了下面的错误。我不明白为什么。这是一个泛型操作,为什么它关心
列
中
数据
浏览 13
提问于2017-01-12
得票数 2
回答已采纳
2
回答
带有二进制
列
的
spark
写入csv文件
、
、
、
我们有包含二进制
列
的
数据
帧
,当我们
将
数据
帧
保存为csv时,二进制
列
将
导致csv解析器出现问题。 有没有办法强制
spark
csv write写出hex
或
base64编码
字符串
中
的
任何二进制
列
?
浏览 24
提问于2021-02-10
得票数 0
回答已采纳
1
回答
SparklyR/
Spark
SQL根据字节数/字符数
将
字符串
拆分成多
列
、
、
、
我有一个
spark
dataframe TABLE1,它有一
列
,每列有100000行,每行包含一个相同长度
的
字符串
AA105L
浏览 18
提问于2017-03-08
得票数 0
回答已采纳
2
回答
如何
将
rdd /
数据
帧
/
数据
集转换为
字符串
、
、
、
如何在
spark
scala
中
不使用collect
将
rdd /
数据
帧
/
数据
集转换为
字符串
/
列表
浏览 0
提问于2019-09-24
得票数 0
1
回答
如何从PySpark中一个DataFrames
的
每一行生成大量
的
DataFrame集合,然后将其缩减?
、
、
、
不幸
的
是,我不能分享我
的
实际代码
或
数据
,因为它是专有的,但如果问题对读者来说不是很清楚,我可以生成一个MWE。 我正在处理一个包含大约5000万行
的
数据
帧
,每行都包含一个大型XML文档。从每个XML文档
中
,我提取了一个与出现次数和标记之间
的
层次关系相关
的
统计
数据
列表
(没有什么比无文档记录
的
XML格式更让人愉快
的
了)。我可以在
数据
浏览 21
提问于2021-10-26
得票数 0
1
回答
如何更改
数据
框
列
列表
的
列
类型
、
、
、
、
我正在尝试更改
Spark
1.6.0
中
Dataframe
的
列
列表
的
类型。然而,到目前为止发现
的
所有示例都只允许对
数据
帧
中
的
单个
列
(df.withColumn)
或
所有
列
进行转换: val castedDF = filteredDf.columns.foldLeft(filteredDf)((filteredDf, c) =>
浏览 12
提问于2017-12-14
得票数 0
2
回答
获取数组
列
的
大小/长度
、
、
我是Scala编程
的
新手,这是我
的
问题:如何计算每行
的
字符串
数?我
的
数据
帧
由ArrayString类型
的
单个
列
组成。friendsDF: org.apache.
spark
.sql.DataFrame = [friends: array<string>]
浏览 2
提问于2017-09-07
得票数 45
回答已采纳
1
回答
分区上
的
星火
数据
格式withColumn
、
、
、
dataframe
中
的
列
"colA“包含整数值:| colA|| 1|| 1|+-----+我需要创建一个新
列
"colB“,它将包含"colA”到
字符串
值
的
映射:| colA| colB|| 1| a|| 1| a| |
浏览 0
提问于2018-02-05
得票数 1
回答已采纳
1
回答
PySpark:详尽
的
数据
类型
列表
、
、
我正在尝试在Python
Spark
中
定义一个函数,它可以告诉我哪些
列
应该被视为数字(连续),哪些
列
应该被视为分类
列
。在执行此操作时,我
将
访问
数据
帧
的
dtypes,并遍历每个变量,以检查它是否是continuous_types
或
categorical_types(定义如下)
的
成员。= ('string') 我认为有更多
的
字符串
/dty
浏览 1
提问于2018-05-23
得票数 0
2
回答
如何根据
Spark
Scala
中
的
列
数据
类型返回DataFrame
的
列子集
、
、
、
我需要根据
数据
类型将我
的
数据
集划
分为
不同
的
子集。 在Pandas
中
我们可以通过df.select_dtypes来实现,我想在
Spark
Scala
中
实现它。有谁能帮帮忙。例如,下面是我
的
数据
集:Dataset 我想根据
数据
类型
将
数据
集划
分为
浮点型和
字符串
。 我
的
最终输出应该是这样
的
,其中包含两
浏览 24
提问于2019-09-25
得票数 2
回答已采纳
1
回答
Spark
-Sql
中
字符串
的
转义字符
、
、
、
、
在发布这个问题之前,我做了两个小时
的
spark
文档阅读。val cleanedDF = joinedDF .filter(joinedDF("A") !== (&q
浏览 4
提问于2015-12-03
得票数 0
回答已采纳
1
回答
映射函数在DataFrame上
的
应用
、
、
我正在使用python/
spark
2.1。我已将
数据
上载到表
中
。该表是一个充满
字符串
的
单列。我希望对
列
中
的
每个元素应用一个映射函数。我
将
表加载到
数据
帧
中
:我能看到
的
唯一方法是别人说
的
是将其转换为RDD以应用映射函数,然后返回到data
浏览 1
提问于2017-07-31
得票数 18
回答已采纳
1
回答
如何合并
或
连接
spark
中
列
号不相等
的
数据
帧
、
、
、
、
我正在做一个使用
spark
的
项目。在某些阶段,我需要在
单个
数据
帧
中
合并
或
连接3个
数据
帧
。这些
数据
帧
来自
spark
sql表,我使用了联合函数,它已经合并了两个表
中
具有相同编号
的
列
,但我也需要合并不相等
的
列
值。我现在很困惑,有没有办法在pyspark
中
合并
或
连
浏览 13
提问于2016-09-22
得票数 0
2
回答
Spark
dataframe
将
行
中
特定
列
的
值替换为空值
、
、
、
、
在尝试用空值替换
Spark
dataframe
的
特定
列
的
值时,我遇到了一个问题。我有一个超过50
列
的
数据
帧
,其中两
列
是键
列
。我想创建一个具有相同模式
的
新
数据
帧
,并且新
数据
帧
应该具有来自键
列
的
值和非键
列
中
的
空值。但是我有一些double类型和
浏览 18
提问于2018-08-29
得票数 1
回答已采纳
1
回答
将
格式(YYYY-MM-DD)
中
的
日期拆
分为
数据
帧
中
的
年、月和日期3个新
列
、
、
如何
将
下面示例
中
的
字符串
拆
分为
数据
帧
中
的
年、月和日期等新
列
。示例:
数据
框
中
的
列
A2017-10-15Column A Year Month Date 2017-10-15 2017 10 15
浏览 1
提问于2019-09-03
得票数 1
1
回答
将
字典从
spark
数据
帧
中
的
StringType
列
中分离出来
、
、
我有一个
spark
表,我想在python
中
读取(我在databricks中使用
的
是python3),实际上结构如下。日志
数据
存储在
单个
字符串
列
中
,但它是一个字典。我如何拆分字典
中
的
条目来阅读它们。
spark
表读取到
数据
帧
中
,找到最大事件时间戳,找到具有该时间戳
的
行,然后计数并仅
将
这些行读取到具有
数据
列<
浏览 39
提问于2020-07-01
得票数 1
回答已采纳
1
回答
如何
将
spark
dataframe
中
的
String类型
列
转换为Pandas dataframe
中
的
String类型
列
、
、
我有一个从熊猫
数据
帧
创建
的
样本
spark
数据
帧
-from(pdf) # this is
spark
dfdf.printSchema() |-- input1: long (nullable = true) |--input2: string (nullable =
浏览 3
提问于2020-09-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
25个超有用的Python代码段
数据加载、存储与文件格式
Python中enumerate函数的解释和可视化
python将一列数据转成字符串并提取前几位
安卓逆向所需的java基础:数据包装类、Math、字符串类、字符串操作类、数组
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券