腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
PySpark
数据
框
中
的
重复
行
中
提取
和
替换
值
pyspark
、
apache-spark-sql
、
jupyter-notebook
、
rdd
我有
重复
的
行
,可能包含相同
的
数据
或在
PySpark
数据
框
中有缺失
值
。我写
的
代码非常慢,并且不能作为分布式系统工作。有谁知道如何
从
PySpark
数据
帧
中
的
重复
行
中保留单个唯一
值
,该
数据
帧可以作为分布式系统运行,并且具有快速
的
处理时间? 我已经
浏览 25
提问于2019-06-21
得票数 0
1
回答
Apache v2.3.0
中
的
动态
数据
架构构建
python
、
python-3.x
、
apache-spark
、
pyspark
、
apache-spark-sql
一个玩具示例工作得很好,它
的
模式是使用静态定义定义
的
。动态定义
的
模式会引发错误,但是为什么,以及如何修复?他们看起来是一样
的
。StructField("nfl",IntegerType(),True)])df = sess.createDataFrame(XXX, schema)好
的
产出username_field + int_fields)df = sess.createDataFrame(XXX,
浏览 0
提问于2018-06-15
得票数 0
2
回答
为什么groupBy()比
pyspark
中
的
distinct()快得多?
pyspark
当我用groupBy()
替换
spark
数据
帧上
的
distinct()时,我在我
的
pyspark
代码中看到了很大
的
性能改进。但是我不能理解背后
的
原因。整个意图是
从
数据
帧
中
删除
行
级
重复
项。我尝试在谷歌上搜索groupBy()
和
distinct()在
pyspark
中
的
实现,但没有找到。 有没有人能给我解释一下或者给我
浏览 0
提问于2018-09-11
得票数 6
1
回答
如何选择
Pyspark
列并将其作为新
行
添加到
数据
框
中
?
apache-spark
、
pyspark
、
pyspark-sql
、
pyspark-dataframes
我想
提取
一列,并将其
值
作为新
行
附加到
数据
框
中
。例如,如果我有一个这样
的
数据
框
: ---------------------------------------------------------------------------------------------------------------------
浏览 18
提问于2019-12-29
得票数 0
回答已采纳
1
回答
运行spark.read.json时在json中找到
重复
列,即使没有
重复
列
azure
、
pyspark
、
apache-spark-sql
、
azure-synapse
在
PySpark
和
Synapse
数据
流
中
,我遇到了非常奇怪
的
错误。文件"/opt/spark/python/lib
浏览 3
提问于2021-11-25
得票数 0
1
回答
从
pandas dataFrame中去掉NaT
和
重复
项,以获得一系列日期时间
值
python
、
pandas
、
dataframe
、
datetime
我有一个
数据
框
,看起来如图所示 ?
数据
帧形状为(1944900)。
数据
帧
的
每一
行
都有一个
值
(根据
行
索引,可能会
重复
多次)。我需要
提取
一个包含1944个数字
的
列表,每个数字代表每行
中
的
有效
值
(不包括NaT
和
重复
的
值
)。 对此有什么想法吗?
浏览 159
提问于2021-10-25
得票数 0
1
回答
MS报告,
重复
值
的
麻烦
reporting-services
、
row
、
reporting
、
rows
MS Reporting提供了两种类型
的
表(对不起,我不记得是什么属性造成
的
)╔══════╦══════╦══════╗╠════║║ 8 ║ ghi ║ 529 ║╚══════╩══════╩══════╝║ 8 ║ ║ ║ ║ 9 ║ ║
浏览 1
提问于2013-08-20
得票数 0
1
回答
从
字符串列中
提取
每个不同
的
单词,并将它们放入新
的
dataframe
中
。
python
、
dataframe
、
apache-spark
、
pyspark
我正试图在中找到列
中
的
所有字符串。输入df: 1 "book bike car"我需要输出df,比如:( word_index
值
是自动增量索引,"val_new“
中
的
值
顺序是随机
的
car TV bike')], ['id', 'val']) df = df.withColumn('val_new
浏览 6
提问于2020-11-09
得票数 1
回答已采纳
1
回答
使用python或
pyspark
中
的
regex
从
字符串中
提取
所需
的
字符之间
的
数据
。
python
、
dataframe
、
pyspark
、
apache-spark-sql
我想从dataframe列
的
行
中
的
字符串
数据
中
提取
几个字符之间
的
数据
。例如,列
中
的
数据
如下所示:|subscription |因此,我应该
浏览 3
提问于2022-03-30
得票数 -3
回答已采纳
4
回答
合并来自不同
数据
框
的
列
r
、
join
、
merge
、
dataframe
我有两个
数据
帧 name from to result 1169025 69289 0 11 70172 70560 0 11 69025 69289 12 11 70172
浏览 0
提问于2012-01-06
得票数 2
回答已采纳
1
回答
在Intellij Idea中
提取
未打开
的
方法对话
框
java
、
intellij-idea
每当我试图通过
提取
一个方法来重构任何代码,无论是
从
“重构”菜单中
提取
一个方法,还是使用快捷方式“ctrl+ alt +M”,该方法都会直接被命名为“
提取
”,并且对话
框
不会打开,在该对话
框
中
,我可以更改方法
的
名称
和
隐私而且,它不会用新创建
的
方法
替换
任何
重复
的
代码块。对话
框
没有打开
的
原因吗?谢谢
浏览 6
提问于2021-12-05
得票数 0
回答已采纳
1
回答
从
XML
提取
文本时保留
行
提要和回车返回
xml
、
vb.net
我需要从包含文本
中
的
行
提要
的
XML文件中
提取
数据
。
行
提要位置被标记为“使用XmlTextReader
和
XmlDocument,我可以成功地
提取
所需
的
数据
,并将其显示在消息
框
和文本
框
中
。消息
框
输出
中
显示
的
文本显示了相关
的
行
提要,但是文本
框</e
浏览 1
提问于2014-05-05
得票数 0
回答已采纳
1
回答
根据其他列
替换
pyspark
列
pandas
、
pyspark
、
apache-spark-sql
在我
的
"data“
数据
框
中
,我有两列,”time_stamp“
和
”hour“。我想在缺少'time_stamp‘
值
的
地方插入'hour’列
值
。我不想创建新列,而是在'time_stamp‘
中
填充缺少
的
值
我想要做
的
是将这个pandas代码
替换
为
pyspark
代码: data['time_stamp
浏览 8
提问于2019-03-21
得票数 0
回答已采纳
3
回答
如何在
Pyspark
中
替换
dataframe
的
所有空
值
dataframe
、
null
、
pyspark
我在
pyspark
中有一个超过300列
的
数据
框架。在这些列
中
,有一些列
的
值
为null。_2null null125 124and so on 当我想对column_1求和时,我得到
的
结果是一个空
值
现在,我想用空格
替换
数据
框
所有列
中
的
null。所以当我尝试对这些
浏览 1
提问于2017-02-18
得票数 56
回答已采纳
2
回答
使用datatable
中
的
值
填充网格视图中
的
文本
框
c#
、
asp.net
、
gridview
、
datatable
、
sqldataadapter
我有一个显示学生
的
网格视图,每行都有一个文本
框
,可以在其中输入他们
的
分数。我试图
从
数据
库表中
提取
当前
的
'Mark‘
值
,并将其放入特定学生
的
文本
框
中
,但是
数据
表
中
的
最后一个
值
对每个学生都是
重复
的
。如何让datatable
值
分别填充网格视图
的
每一<em
浏览 1
提问于2018-04-13
得票数 0
1
回答
如何处理不同类型
的
PySpark
自定义项返回
值
?
list
、
dataframe
、
pyspark
、
typeerror
、
user-defined-functions
我有一个只有一列
的
数据
框
。在此
数据
框
的
每一
行
中
,都有一个列表。1,并将列表
中
的
第二个数字加1.5。def calculate(mylist) : y = mylist[1] + 1.5 return x,y 问题是,当我对我
的
数据
框
应用这个函数时,它会返回x: calculate(x), ArrayType(Inte
浏览 25
提问于2020-01-23
得票数 0
回答已采纳
1
回答
将3级嵌套字典键值转换为
pyspark
dataframe
dataframe
、
apache-spark
、
pyspark
、
partition
我有一个
Pyspark
数据
框架,看起来像这样: ? 我想
提取
"dic“列
中
的
那些嵌套字典,并将它们转换为
PySpark
数据
帧。如下所示: ? 另外,每一
行
中
的
键也会有一些变化,例如,一些
行
可能有其他
行
没有的字段。我希望包括所有字段,如果一条记录没有某些字段/keys,则该
值
可以显示为"null“。 请告诉我如何才能做到这
浏览 22
提问于2020-07-22
得票数 0
1
回答
如何
提取
pandas
数据
框
列
中
的
数据
框
python
、
pandas
、
dataframe
、
data-analysis
、
exploratory-data-analysis
从
pandas
数据
框
(3* 5)
中
,如何将一列(包含
数据
框
对象
的
行
作为
值
(每行
数据
框
2* 10) )
提取
到单独
的
数据
框
(6* 10
行
) log_df['df_inside'] = log_df['input'].apply(lambda x :parser(x)) par
浏览 22
提问于2021-06-22
得票数 0
2
回答
从
pandas
数据
框
中
提取
数据
python-3.x
、
pandas
、
pandas-groupby
我想根据列
值
从一个更大
的
数据
框
中
创建一个
数据
框
列表。例如1,2,3,1,2,3,4,5,1,2,列"ID"可以
重复
。这可以在不使用for循环
的</em
浏览 0
提问于2018-10-20
得票数 2
1
回答
具有给定术语
的
文档
的
PySpark
HashingTF计数
dataframe
、
pyspark
、
tf-idf
我有一个spark
数据
框
,其中
的
" text“列有一些文本。我想要计算出现各种单词
的
行数-本质上是出现“术语”
的
“文档”
的
数量-以及相关
的
计数,如最频繁
的
单词,具有最频繁单词
的
行
(或称为文档)。我正在使用来自
pyspark
.ml.feature
的
HashingTF。但是似乎找不到一种有效
的
方法来
从
输出中
提取
这些信息。H
浏览 25
提问于2021-08-31
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
掌握这16个Excel快捷操作,工作效率立马翻三倍
Excel–将离职人员从多列中同时删除,怎样最快?
5种Excel技巧,快、准、狠,好用得不得了!
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券