腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
基于
列
值
高效
地
从宽
Spark
数据
帧
中
删除
列
、
、
如果我有一个只包含IP地址的宽
数据
帧
(200m cols),并且我想
删除
包含空
值
或格式不佳的IP地址的
列
,那么在
Spark
中
执行此操作的最有效方法是什么?我的理解是
Spark
并行
地
执行
基于
行的处理,而不是
基于
列
的处理。因此,如果我尝试在列上应用转换,将会有大量的混洗。首先转置
数据
帧
,然后应用筛选器
删除
行,然后重新转置是利用<em
浏览 11
提问于2019-10-31
得票数 1
2
回答
火花镶嵌地板隔断移除了隔断柱
、
、
数据
将
删除
数据
上的分区
列
。 如何避免呢?
浏览 2
提问于2021-03-16
得票数 0
1
回答
Spark
To Cassandra:将没有空
值
的稀疏行写到Cassandra
、
、
、
、
问:如何
高效
地
将
Spark
DataFrame
中
包含
值
的
列
写入Cassanrda?(在最小的Scala代码行中
高效
,而不是在Cassandra
中
创建一堆tombstones,让它快速运行,等等) 我有一个包含两个键
列
和300个潜在描述符
值
的Cassandra表。
数据
帧
,但
数据
帧
中
的每一行都非常稀疏-除了两个键值之外,特定行可能只
浏览 0
提问于2018-11-06
得票数 2
3
回答
使用在R
中
重新出现的列名
从宽
到长重塑
数据
框
、
、
、
我正在尝试使用melt公式将
数据
帧
从宽
格式转换为长格式。挑战在于我有多个标记相同的列名。当我使用melt函数时,它会
删除
重复列
中
的
值
。我读过类似的问题,有人建议我使用重塑功能,但我不能让它工作。要重现我的起始
数据
帧
,请执行以下操作:interaction.num<-c("1","1&qu
浏览 1
提问于2014-05-27
得票数 3
1
回答
如何合并或连接
spark
中
列
号不相等的
数据
帧
、
、
、
、
我正在做一个使用
spark
的项目。在某些阶段,我需要在单个
数据
帧
中
合并或连接3个
数据
帧
。这些
数据
帧
来自
spark
sql表,我使用了联合函数,它已经合并了两个表
中
具有相同编号的
列
,但我也需要合并不相等的
列
值
。我现在很困惑,有没有办法在pyspark
中
合并或连接不相等的
基于
列
的
数据
帧</
浏览 13
提问于2016-09-22
得票数 0
1
回答
R
高效
地
查找DataFrame
列
中
的
值
、
、
、
我有一个很大的R
数据
帧
,我需要多次
高效
地
查找
基于
两
列
$start和$end的行。我假设典型的解决方案是O(N):我更喜欢对至少一
列
进行排序,并执行更
高效
的O(log(N))查找。有哪些内置的R方法可以利用
数据
帧
中
的排序进行查找?
浏览 0
提问于2011-12-06
得票数 2
1
回答
在不使用collect的情况下
高效
地
迭代
spark
数据
帧
、
、
我有一个有2000万条记录的巨大
数据
帧
,我需要迭代
数据
帧
df1,逐行读取,并根据df3的
列
值
构造另外两个
数据
帧
df2和df3作为输出。 Input - df1有20
列
和2000万条记录。Output -df2有4
列
,将根据df1
中
的
列
值
创建2000万条记录。Output - df3有20
列
,将根据df1
中
的
列
<
浏览 0
提问于2020-04-09
得票数 0
3
回答
删除
spark
数据
帧
中
重复的所有记录
、
、
、
、
我有一个包含多个
列
的
spark
数据
帧
。我想找出并
删除
列
中有重复
值
的行(其他
列
可以是不同的)。我尝试使用dropDuplicates(col_name),但它只
删除
重复的条目,但仍然在
数据
帧
中保留一条记录。我需要的是
删除
所有最初包含重复条目的条目。我使用的是
Spark
1.6和Scala 2.10。
浏览 4
提问于2018-04-10
得票数 5
回答已采纳
1
回答
如何截断
spark
dataframe
列
的
值
?
、
、
、
我想为
spark
数据
帧
的单个
列
中
的每个字符串
删除
字符串的最后两个
值
。我想在
spark
数据
帧
中
实现这一点,而不是将其移动到pandas,然后再移回来。下面是一个
数据
帧
示例,# | age| name|# | 350|Michael|# |123| Just
浏览 1
提问于2019-06-04
得票数 1
1
回答
正在将pyspark
数据
帧
写入文本文件
、
我有一个从sql server
中
的一个表创建的pyspark
数据
框架,我对它做了一些转换,现在我要将它转换为动态
数据
框架,以便能够将其保存为s3存储桶
中
的文本文件。当我将
数据
帧
写入文本文件时,我将向该文件添加另一个头文件。这是我的动态
数据
框,将保存为文件: 2021_02_12| MT.1002
浏览 0
提问于2021-04-23
得票数 0
7
回答
如何从包含特定
列
中
特定字符串的熊猫
数据
框架
中
删除
行?
、
我在python中有一个非常大的
数据
框架,我希望
删除
特定
列
中
具有特定字符串的所有行。 例如,我希望
删除
数据
帧
的C
列
中将字符串"XYZ“作为子字符串的所有行。能否使用.drop()方法
高效
地
实现这一点?
浏览 7
提问于2015-02-23
得票数 169
回答已采纳
1
回答
如何
基于
列
值
高效
地
迭代pandas
数据
帧
、
、
、
我有一个包含3
列
的df,其中最后一
列
保存一个组的code_name。15 0.518057 4332_1_24 2015-05-17 0.291904 4332_1_2 我想
基于
name
列
迭代这个df,这意味着在每次迭代
中
,只包含具有相同名称的行。
浏览 4
提问于2020-06-12
得票数 0
回答已采纳
1
回答
使用SparkR向
Spark
dataframes添加包含函数值的
列
、
、
、
我正在使用SparkR来处理一些在其技术堆栈
中
包含R和
spark
的项目。sdf1$result <- sdf1$value == sdf2$value 问题是当我必须比较两个不同长度的
数据
帧
时。使用函数操作sdf1和sdf2
数据
帧
并将
值
赋给sdf1的新<e
浏览 3
提问于2017-05-18
得票数 0
1
回答
如何更新
Spark
中
的
数据
框
列
、
、
、
我有一个
数据
帧
,其中有2个json
列
。我需要更新
基于
j1
列
的j2
列
。如果j2
列
的元素为空,则从j1
列
中选取元素
值
。j1为JSON字符串,j2为JSON数组。输入
数据
帧
, +---------------------------+---------------------------------------+ | j150"}, {"A": "2
浏览 22
提问于2021-08-04
得票数 1
回答已采纳
1
回答
定义一个函数,该函数将一组R代码作为单个程序
我有示例代码,从
数据
帧
中
过滤
数据
,并
删除
数据
帧
中
的一些
列
,并执行连接。示例代码如下所示;其中,SB是
基于
snum
列
值
为1创建SBR的
数据
帧
,且SB具有6
列
在上面的代码
中
,我尝试
删除
1,2,4
浏览 0
提问于2015-12-10
得票数 0
1
回答
AWS胶-不知道如何将NullType保存为红移
、
、
、
我有一个带有空单元格的文本文件和一个接受空
值
的表。当我运行胶水作业时,它会失败,例外情况是“不知道如何将NullType保存为REDSHIFT”。如何处理此问题,或者通过Glue在RedShift
中
不支持空插入?getResolvedOptions(sys.argv, ['TempDir','JOB_NAME']) glueContext = GlueContext(sc)j
浏览 4
提问于2017-11-28
得票数 5
4
回答
Python Pandas条件
值
消除
、
我试图在一个
基于
值
的
数据
帧
中
删除
值
--
基于
另一个
数据
帧
。我很感谢你在这方面的专业知识。
数据
帧
1- df1:| -------- | -------------- || h | 35 | | e | 40
浏览 6
提问于2021-02-16
得票数 0
回答已采纳
1
回答
Pandas:在
数据
帧
中
从长格式到宽格式
、
、
、
在熊猫
中
,我在从长格式到宽格式的转换
中
遇到了困难。有很多
从宽
到长的例子,但我没有找到一个从长到宽的例子。我正在尝试重新格式化我的
数据
帧
,pivot,groupby,unstack对于我的用例来说有点混乱。 这就是我想要的样子。这些数字实际上是第二张图像
中
的强度
列
。 ? 我试图建立一个
基于
肽,电荷和蛋白质的MultiIndex。然后,我尝试
基于
多个索引进行旋转,并保持所有样本及其强度为
值
: df.set_index(
浏览 17
提问于2021-02-09
得票数 0
3
回答
查看
Spark
Dataframe
列
的内容
、
、
、
我使用的是
Spark
1.3.1。 我正在尝试查看Python
中
Spark
dataframe
列
的
值
。有了
Spark
dataframe,我可以使用df.collect()来查看
数据
帧
的内容,但在我看来,
Spark
dataframe
列
还没有这样的方法。例如,
数据
帧
df包含一个名为'zip_code'的
列
。所以我可以做df['zip_
浏览 1
提问于2015-06-30
得票数 43
回答已采纳
1
回答
将csv读入包含时间
列
的hdfs将不起作用
、
我想将一个带有时间
列
的csv读入hadoop,在hadoop
中
,时间
列
将作为字符串读入。java.lan
浏览 0
提问于2019-07-25
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券