腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
Pyspark
转换
和
重命名
1,000
+
列
的
最
有效
方法
是什么
?
、
、
我正在寻找最
有效
的
方法
来
转换
大
的
变量列表(100+),这些变量可能存在于我
的
原始数据框中,也可能不存在。
列
值为1字节。如果值不是NULL,则
使用
值1重新编码。如果为NUll,则
使用
值0重新编码。然后
重命名
该
列
以'U_‘开头。 我
的
代码可以工作,但它
的
效率非常低。我是用
Pyspark
编程
的
新手,可以
使用
浏览 5
提问于2020-10-28
得票数 0
2
回答
DynamicFrames上
的
AWS Glue多
列
重命名
= "COL1")我尝试了几个变体,并基于其他
的
Glue
转换
,认为下面的
方法
应该可以工作。
浏览 2
提问于2018-08-01
得票数 0
1
回答
如何将Hive表
转换
为MLlib LabeledPoint?
、
、
、
、
我
使用
Impala构建了一个包含目标和数百个功能
的
表。我想用星火MLlib训练一个模特。我理解,为了通过星火运行分布式监督模型,数据需要以几种格式之一。在我看来,LabeledPoint是
最
直观
的
。
使用
PySpark
将Hive表
转换
为标记点
的
最
有效
方法
是什么
?
浏览 1
提问于2016-02-23
得票数 0
回答已采纳
1
回答
如何在
pyspark
dataframe中进行聚合时
重命名
列名
和
转换
类型
我有一个
pyspark
dataframe,我希望得到所有
列
的
均值
和
标准差,并
重命名
列
的
名称
和
类型,
最
简单
的
实现方式
是什么
,目前我
的
代码如下: test_mean=test.groupby('id
浏览 0
提问于2018-09-18
得票数 0
2
回答
在
PySpark
中将多个
列
转换
为字符串
的
有效
方法
、
、
、
在SO上有很好
的
记录(,,,.)如何通过类推将单个变量
转换
为string类型
的
PySpark
:spark_df类型
的
列
时,有几种
方法
可以实现它:微不足道
的
例子: to_str = ['age', '
浏览 3
提问于2018-05-16
得票数 3
回答已采纳
1
回答
PySpark
将
列
拆分到具有应用架构
的
新数据帧
、
、
、
如何通过逗号将字符串列拆分为具有应用模式
的
新数据帧?作为示例,下面是一个包含两
列
(id
和
value)
的
pyspark
DataFrame df = sc.parallelize([(1, "200,201,hello"), (2, "23,24,hi")]).toDF(["id", "value"]) 我希望获取value
列
并将其拆分到一个新
的
DataFrame中,并应用以下模式: from
浏览 18
提问于2021-11-10
得票数 1
1
回答
如何在不将
列
列表临时存储到变量中
的
情况下
重命名
df
列
?
、
、
、
我正在提取Snowflake表并将其加载到
PySpark
DataFrame中,并且我想
重命名
它
的
列
。现在,正在将加载
的
数据帧存储到一个变量中,然后访问
列
列表: spark.read.format("snowflake")我想到
的
第二种
方法
是预先
浏览 1
提问于2021-04-21
得票数 0
1
回答
从PowerShell vs System.IO.File.Move执行用于
重命名
的
C#脚本
在C#中
重命名
文件
的
最
有效
、
最
稳定
和
最
首选
的
方法
是什么
?我指的是相当复杂
的
regex操作,而不仅仅是一个简单
的
替换,甚至可能是几十到数百个文件。我应该让C#与powershell通信并让它用一些脚本为我
重命名
,还是应该以不同
的
方式进行
重命名
,如下面所示: System.IO.File.Move("oldfilename", &
浏览 5
提问于2016-06-19
得票数 0
回答已采纳
1
回答
如何克隆Plone门户?
、
我想知道克隆Plone门户(在同一台服务器上)最
有效
、
最
实用
的
方法
是什么
。ZMI中
的
复制
和
粘贴以及导出、
重命名
和
导入
方法
都不起作用。
浏览 0
提问于2012-09-10
得票数 0
回答已采纳
1
回答
Pyspark
SQL:将表与结构数组
转换
为
列
、
、
我有一个包含2
列
(string、array<struct<type=string、cnt=int>>)
的
HIVE-table,如下所示:| id1 || {type=A,cnt},{type=B,cnt=2}| id3 || {type=E,cnt=1} 我需要将它
转换
为包含分隔
的
int
列
的
表,其中列名是‘type’,值等于c
浏览 0
提问于2020-10-16
得票数 0
1
回答
Rails:将序列化
的
散
列
转换
为json
列
的
最
简单
方法
是什么
?
、
、
postgresql中有一个旧
的
列
,它是一个序列化
的
散
列
,我想将它
转换
为json数据类型。我非常肯定,我不能只进行迁移并将其
转换
为json。请告诉我创建新
列
、将数据从一
列
复制到另一
列
、删除旧
列
和
重命名
新
列
的
最
简单
方法
。
浏览 1
提问于2016-03-28
得票数 1
回答已采纳
1
回答
将
PySpark
groupby collect_set迁移到Dask
、
、
我正在将一个
pySpark
实现迁移到Pandas。为了
转换
大型数据集,我
使用
了dask包。
pySpark
实现: df.groupBy('Key').agg(collect_set('ColumnA').alias('Items'), collect_set('ColumnB').alias('DocumentId')) 到Pandas df.groupby("Key")[['ColumnA
浏览 31
提问于2021-08-16
得票数 0
3
回答
我可以将pandas数据帧
转换
为spark rdd吗?
c)需要
使用
spark将PD_DF写到HDFS。我该怎么做呢?
浏览 0
提问于2015-04-15
得票数 4
2
回答
将带有int标志
的
列
转换
为
pyspark
中
的
字符串数组
、
、
我有一个dataframe,它有一个名为“特征”
的
列
,它是一个由多个标志组成
的
整数。 我需要将此列
转换
为字符串列表(用于弹性搜索索引)。
转换
看起来像这样。TRAIT_1") trait_list.append("TRAIT_2") return trait_list 在
pyspark
中进行这种
转换
最
有效
的<
浏览 23
提问于2020-04-28
得票数 0
回答已采纳
1
回答
未设置Apache检查点目录
、
、
在
使用
apache-时,我试图对一些流数据应用"reduceByKeyAndWindow()“
转换
,并得到以下错误:
pyspark
.sql.utils.IllegalArgumentException如果是的话,
最
简单
的
设置
方法
是什么
?
浏览 4
提问于2015-11-17
得票数 4
回答已采纳
1
回答
具有给定术语
的
文档
的
PySpark
HashingTF计数
、
、
我有一个spark数据框,其中
的
" text“列有一些文本。我想要计算出现各种单词
的
行数-本质上是出现“术语”
的
“文档”
的
数量-以及相关
的
计数,如
最
频繁
的
单词,具有
最
频繁单词
的
行(或称为文档)。我正在
使用
来自
pyspark
.ml.feature
的
HashingTF。但是似乎找不到一种
有效
的
方法
来从输出中提取这些信息。,
浏览 25
提问于2021-08-31
得票数 0
回答已采纳
2
回答
在
Pyspark
中创建JSON
、
、
我在
PySpark
中有一个DF|-- |------ |--- ||2 |Sam |34 ||{'v':3} | {'v':'Chris'} | {'v':28} |d
浏览 2
提问于2021-03-02
得票数 0
回答已采纳
1
回答
如何在
PySpark
中读取大型JSON文件
、
、
、
、
HDInsight
PySpark
似乎不支持JSON文件格式
的
数组输入,所以我被困住了。而且,我有“许多”这样
的
文件,每个文件中都包含不同
的
模式,每个
列
都包含100
列
,因此现在不能为这些
列
创建模式。问题 如何在
PySpark
2中
使用
HDInsight上
的
开箱即用功能来使这些文件被读取为JSON?我试图加载到RDD
和
其他开放
方法
,但是
PySpark
似乎只支持JSO
浏览 1
提问于2018-02-10
得票数 0
回答已采纳
2
回答
如何从
PySpark
中
的
2
列
中获得一行序列字符串?
、
、
、
、
我有以下数据结构:
列
"s“
和
"d”表示"x“
列
中对象
的
转换
。我想要做
的
是获取"x“
列
中
的
每个对象
的
转换
字符串。例如,“新”栏如下:有
使用
PySpark
的
好
方法
吗?我
使用
PySpark
尝试了以下udf代码,但它不起作用: from
pyspa
浏览 13
提问于2022-10-19
得票数 1
回答已采纳
1
回答
在
使用
Python中
的
Polars读写Parquet文件时,我可以指定模式吗?
、
、
、
、
当
使用
Python中
的
Polars读取CSV文件时,我们可以
使用
参数dtypes来指定要
使用
的
模式(对于某些
列
)。我想知道我们在读或写Parquet文件时能做同样
的
事情吗?我有一些从
PySpark
生成
的
Parquet文件,并希望将这些Parquet文件加载到Rust中。锈蚀需要无符号整数,而火花/
PySpark
没有无符号整数,并将带符号整数输出到Parquet文件中。为了使事情更简单,我想在将Parquet
浏览 13
提问于2022-05-20
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
一文读懂PySpark数据框
一文读懂 PySpark 数据框
在也不用996!如何用Python轻松取代Excel
pyspark 安装
10个Excel实用操作技巧分享,使用率超高,让你一学就会
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券