腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
DataFrame
-
附加
单个
列
的
随机
排列
、
、
我正在使用
PySpark
(对我来说是个新东西)。| | val21 | val22 | q2 | | val31 | val32 | q3 | +-------+-------+----------+,我想添加一个新
的
列
,random_qustion,它实际上是Question
列
中
的
值
的
排列
,所以结果可能看起来像这样:+-------+-------+----------+-----------------+ | Col1df.orderBy(
浏览 2
提问于2019-07-29
得票数 1
回答已采纳
1
回答
spark是否提供了一种生成64位
随机
盐
的
方法?
、
我正在使用
Pyspark
,并希望生成
随机
加密盐作为我
的
数据帧中
的
一个
附加
列
。我想用它来为我
的
数据生成Hash或一种保留加密密码值
的
格式。Spark
dataframe
API中是否有生成加密盐
的
最佳实践?
浏览 2
提问于2018-05-30
得票数 0
6
回答
如何在
Pyspark
中定义一个空
的
dataframe
并将其
附加
到相应
的
dataframe
?
、
所以我想从一个目录中读取csv文件,作为
pyspark
dataframe
,然后将它们
附加
到
单个
dataframe
中。而不是像我们在熊猫身上做
的
那样,在
pyspark
中得到替代方案。例如,在熊猫中,我们这样做: dff=pd.read_csv(f,delimiter=','
浏览 5
提问于2017-04-10
得票数 11
2
回答
添加带有
随机
数据
的
新
列
、
、
、
我想要在
dataframe
中添加一个包含0或1
的
值
的
新
列
。from random import randint 但我得到了以下错误 / withColumn /python/
pyspark
/sql/
dataframe
.py“,第1313行,在withColumn AssertionError( col,
列
)中,”c
浏览 4
提问于2017-01-04
得票数 13
回答已采纳
1
回答
如何对
PySpark
DataFrame
的
每一
列
中
的
数据进行混洗?
、
、
、
、
我是一个用
PySpark
编程
的
初学者。我在CSV文件中有以下数据,该文件正在被读取到Spark
Dataframe
中,并且我想从一个小数据集开始生成一个大型数据集。df = (spark.read .csv(file
浏览 16
提问于2020-05-11
得票数 0
2
回答
Pyspark
-如何从
DataFrame
列
中获取
随机
值
、
、
我在一个
DataFrame
中有一
列
,我需要在
Pyspark
中选择3个
随机
值。有没有人能帮帮我-我,好吗?+---++---+|245| |234|愿望:**output**: [123, 12, 234]
浏览 0
提问于2017-10-04
得票数 5
回答已采纳
1
回答
火花
DataFrame
--如何在没有联接
的
情况下改变一
列
的
排列
、
我试图使用
Pyspark
在
dataframe
中更改一个
列
,也就是跨行对
单个
列
的
所有值进行洗牌。我试图避免这样
的
解决方案,即在将
列
拆分并分配索引
列
之前,将其重新连接到原始
的
dataframe
,而原始
dataframe
也有一个添加
的
索引
列
。主要是因为我
的
理解(这可能是非常错误
的
),在大型数据集(数百万行)
的
浏览 0
提问于2019-06-06
得票数 0
1
回答
Pyspark
数据框架操作
的
单元测试用例
、
、
、
我已经用python写了一些带有sql上下文
的
代码,即
pyspark
,通过将csv转换为
pyspark
dataframe
来对csv执行一些操作(df操作,如预处理、重命名列名、创建新
列
并将其
附加
到相同
的
dataframe
中等)。我没有在数据帧上编写单元测试用例
的
想法。有谁能帮我在
pyspark
的
dataframe
上写单元测试用例吗?或者给我一些数据帧上
的
测试用例
浏览 1
提问于2016-04-14
得票数 3
1
回答
两个数据帧
的
相同
随机
排列
序列
、
我正在尝试对
dataframe
中
的
列
进行
随机
排列
,但我需要这种
排列
对于两个
dataframe
是相同
的
。现在我就有了这个 X_train = X_train.sample(frac=1, axis=1) X_test = X_test.sample(frac=1, axis=1) 这会创建两个不同
的
排列
,但我需要对X_train和X_test使用相同
的
列
排列
,
浏览 20
提问于2019-06-03
得票数 0
回答已采纳
1
回答
PySpark
PCA:如何将数据行从多
列
转换为单列DenseVector?
、
、
、
、
我想使用
PySpark
(Spark1.6.2)对存在于Hive表中
的
数值数据执行主成分分析(PCA)。= hiveContext.sql("SELECT * FROM my_table")<class '
pyspark
.sql.
dataframe
.
DataFrame
有一篇优秀
的
StackOverflow文章展示了如何在
PySpark
:中执行PCA 在pos
浏览 1
提问于2016-10-06
得票数 4
回答已采纳
1
回答
在不同
列
序
的
蜂箱表中添加火花数据
、
、
我在HiveWarehouseConnector集群中使用了
pyspark
和HDP3。模式中发生了更改,因此我使用"alter“命令更新目标表,默认情况下将新
列
添加到目标表
的
最后位置。现在,我尝试使用下面的代码将spark保存到它,但是
dataframe
中
的
列
按字母顺序
排列
,并且我得到了下面的错误消息hive.setDatabaseappend').option('tab
浏览 4
提问于2021-02-17
得票数 0
回答已采纳
1
回答
如何将所有的日期格式转换为日期
列
的
时间戳?
、
、
、
我使用
的
是
PySpark
版本3.0.1。我正在将csv文件读取为具有2个日期
列
的
PySpark
数据帧。但是,当我尝试打印模式时,两
列
都被填充为字符串类型。 ? ? 上面
附加
的
屏幕截图是
Dataframe
和
Dataframe
模式。 如何使用
pyspark
将date
列
中
的
行值转换为时间戳格式?我已经尝试了很多东西,但所有的代码都需要当前
的</em
浏览 16
提问于2020-12-30
得票数 2
1
回答
Pyspark
使用.filter()过滤掉空列表
、
、
、
我有一个
pyspark
dataframe
,其中一
列
填充了列表,要么包含条目,要么只包含空列表。我想高效地过滤掉所有包含空列表
的
行。import
pyspark
.sql.functions as sf: java.lang.RuntimeException: Unsupported literal type class 也许我可以检查列表
的
长度,并强制它应该大于0(参见)。但是,如果我
浏览 17
提问于2017-02-24
得票数 7
回答已采纳
1
回答
用于显示不带小数点
的
整数
、
、
在下面的代码中,数据文件
的
所有
列
都是字符串。其中一
列
用一个小数位存储整数或小数(6.1,4.8,3,9.4,6,...etc.)。但是,一旦将数据加载到
pyspark
dataframe
中,它也会显示带有
单个
小数位(例如3.0)
的
整数。from <
浏览 7
提问于2022-05-21
得票数 0
7
回答
如何更改火花数据中
的
列位置?
、
、
、
我想知道是否可以更改
列
在
dataframe
中
的
位置,实际上是否可以更改架构?准确地说,如果我有一个像[field1, field2, field3]那样
的
数据文件,并且我想得到[field1, field3, field2]。如何移动一个或多个
列<
浏览 4
提问于2016-06-29
得票数 47
回答已采纳
1
回答
将后缀
附加
到
PySpark
行
、
、
我有一个
PySpark
数据格式,它有A和B两
列
。这些
列
中
的
每一
列
都是字符串数据类型。以下是
dataframe
的
示例| A | B || "a1" | "b1" || "a3" | "b3" | | "a4
浏览 4
提问于2020-12-01
得票数 3
回答已采纳
5
回答
Spark RDD或
dataframe
中
的
随机
洗牌
列
、
有没有什么办法可以让RDD或
dataframe
中
的
一
列
随机
排列
,使该
列
中
的
条目以
随机
顺序出现?我不确定我可以使用哪些API来完成这样
的
任务。
浏览 3
提问于2016-05-18
得票数 9
2
回答
从
PySpark
DataFrame
列
中删除元素
我知道
PySpark
DataFrames是不可变
的
,所以我想创建一个新
列
,该
列
是根据应用到
PySpark
DataFrame
的
现有
列
的
转换生成
的
。我
的
数据太大了,无法使用collect()。该
列
是唯一int列表(在给定列表中不重复int),例如:[1,2][2,3] 上面是一个玩具例子,因为我
的
实际
DataFrame
浏览 9
提问于2017-01-12
得票数 1
回答已采纳
2
回答
从列表中添加
列
的
pySpark
、
、
、
、
我有一个数据文件名,并希望根据列表中
的
值向它添加
列
。 我
的
值列表将从3-50个值变化。我是
pySpark
新手,我试图将这些值作为新
列
(空)
附加
到我
的
df中。我看到了关于如何将一
列
添加到
dataframe
中
的
推荐代码,而不是从列表中添加多
列
的
代码。ConformedLeaseTypeId', 'ConformedLeaseRecoveryTypeName'
浏览 2
提问于2020-05-12
得票数 1
回答已采纳
1
回答
分组依据列表中
的
元素
、
、
我是
PySpark
的
新手。我创建了spark
dataframe
,并且我有一个" countries“
列
,其中包含国家列表。如何通过存在于国家/地区列表中
的
单个
国家/地区来groupBy我
的
数据帧 +-----------------++-----------------+ | [
浏览 4
提问于2019-10-09
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySaprk之DataFrame
一文读懂PySpark数据框
Python开源数据分析工具TOP 3!
一文读懂 PySpark 数据框
PySpark,大数据处理的Python加速器!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券