腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何
根据
行号
列表
拆分
pyspark
数据
帧
的
行
?
、
、
、
我已经创建了一个
pyspark
数据
帧
,形象化地看起来像这样: >>> df ------------------------------30 | 50 | ... |300 | 350 | 50 | ... |500 | 5 然后我还创建了随机
的
行号
列表
,如下所示: my_list = [[2, 5],[4, 1,
浏览 16
提问于2019-04-18
得票数 0
回答已采纳
1
回答
如何
在
PySpark
的
Pandas中使用iloc获得相同
的
结果?
、
、
在Pandas dataframe中,我可以使用data.iloc[1:1000,:]获取前1000
行
。
如何
在
PySpark
中做到这一点?
浏览 24
提问于2021-01-11
得票数 1
回答已采纳
1
回答
如何
在
Pyspark
Dataframe中训练和测试
拆分
的
时间序列
数据
、
、
、
我想对排序后
的
Pyspark
数据
帧
进行基于时间
的
训练测试
拆分
。假设前300
行
将在训练集中,下200
行
将在测试
拆分
中。我可以用以下命令选择前300
行
: train = df.show(300) 但是
如何
从
Pyspark
dataframe中选择最后200
行
呢?
浏览 14
提问于2019-03-13
得票数 1
1
回答
拆分
数据
帧
并有新
的
行号
、
当我将
数据
分割成两个新
的
数据
帧
时,两个新
数据
帧
的
行号
将索引原始
数据
帧
。 例如,如果dfA有
行号
1、2、3、4;我想创建两个基于交替
行
的
新
数据
帧
(因此,
行
1和3转到dfB,
行
2和4转到dfC)。但是我希望
行号
在dfB和dfC中有新
的
索引,这样实际上dfB和df
浏览 5
提问于2016-03-16
得票数 0
回答已采纳
2
回答
在火花中放置
行
如何
根据
行号
/
行
索引值
的
值删除
Pyspark
中
的
行
值? 我对
Pyspark
(和编码)很陌生--我尝试过编码一些东西,但是它不起作用。
浏览 1
提问于2019-04-08
得票数 3
回答已采纳
1
回答
Pyspark
将数组列分解为带滑动窗口
的
子
列表
、
、
、
我在
PySpark
中有一个
行
,我想在给定一个列中
的
一个值
的
情况下将其分成几个较小
的
行
。+------------++---+------------++---+------------+ 我想用一个固定大小
的
滑动窗口将每一
行
分解成多个存留物生成
的
df将如下所示: output_df = spark.createDataFrame([ (2, [0,
浏览 44
提问于2021-08-16
得票数 1
回答已采纳
2
回答
如何
用按
行号
范围对
列表
中
的
数据
帧
进行子集?
、
、
我有一个
数据
帧
的
列表
。我想提取每个
数据
帧
的
前248
行
,然后将它们绑定到一个
数据
框架中。 allData是
数据
帧
的
列表
。我尝试过在lapply中使用subset,但是我不知道
如何
引用其中
的
行号
。subset函数
的
“子集”参数似乎只接受逻辑向量。- lapply(allData, subset,
浏览 0
提问于2019-06-25
得票数 3
回答已采纳
0
回答
行号
的
配置单元查询
、
、
、
我在
pyspark
上工作,需要编写一个从hive表中读取
数据
并返回包含所有列和
行号
的
pyspark
数据
帧
的
查询。这是我尝试过
的
:这个查询在hive中运行得很好,但是当我从
pyspark
注意:我不希望以任何特定
的
顺序对行进行排序,我只需要表中所有
行</e
浏览 2
提问于2017-12-06
得票数 0
1
回答
如何
获取row_number is
pyspark
数据
帧
、
、
、
为了排名,我需要让row_number是一个
pyspark
数据
帧
。我看到在
pyspark
的
窗口函数中有row_number函数,但这是使用HiveContext所必需
的
。我尝试用HiveContext替换sqlContext self.sc =
pyspark
.SparkContext()但是它现在抛出了异常TypeError:'JavaPackage‘对象
浏览 0
提问于2016-10-30
得票数 2
2
回答
在R中将一个大型
数据
帧
逐行
拆分
为多个
数据
帧
、
、
、
我有一个包含超过1m条记录和超过40个变量
的
大型
数据
帧
,我希望通过一个循环来更新这些记录,以防止出现故障,并且文件
的
大小每次都不同。我想将这100多万
行
拆分
成n个较小
的
集合,每个集合都有一个新
的
数据
帧
名称,例如以1,2,...,n,newdf1,newdf2,newdf3,...结尾。R中
拆分
函数只
拆分
向量,但它仍然在
数据
帧
中,而不是创建
浏览 1
提问于2020-08-26
得票数 0
2
回答
在r中,
如何
从单个
数据
帧
中分割随机替换
的
数据
帧
?
我在r中有一个有1000
行
的
数据
帧
,我想把它分成10个
数据
帧
,每个
数据
帧
都有100
行
采样替换为False,这样我就可以得到所有的1000
行
数据
,
如何
在循环中这样做,并将所有的10个
数据
帧
作为
列表
存储,或者
根据
索引逐一使用
的
任何有效方法- read.csv("data.csv"
浏览 2
提问于2019-05-23
得票数 0
回答已采纳
1
回答
PySpark
中连字符分隔符上
的
分割
数据
帧
列
我很难
根据
连字符分隔符将
数据
帧
列
拆分
为两
行
。from
pyspark
.mllib.linalg.distributed import IndexedRow +----------+| 12-cheese||11-almonds|所以我想要两个列,一个是数字
的</
浏览 0
提问于2019-05-10
得票数 0
回答已采纳
2
回答
优化
PySpark
与pandas DataFrames之间
的
转换
、
、
、
、
我有一个13M
行
的
pyspark
数据
帧
,我想把它转换成pandas
数据
帧
。然后,将
根据
其他参数以不同
的
频率(例如1秒、1分钟、10分钟)对
数据
帧
进行重新采样以进行进一步分析。从文献[,]中,我发现使用以下任何一
行
都可以加快
pyspark
到pandas
数据
帧
之间
的
转换: spark.conf.set("
浏览 11
提问于2021-11-19
得票数 0
1
回答
根据
条件将
pyspark
数据
帧
拆分
成多个
数据
帧
、
、
、
、
(价格)来
拆分
数据
。如果关于' class‘
的
sum(价格)大于’0‘,那么这个
数据
应该进入一个
数据
帧
。如果关于' class‘
的
sum(价格)小于’0‘,那么这个
数据
应该进入一个
数据
帧
。-30 CANADA6 C -5 US 使用
pyspark
将
数据
进一步写入为两个不同
的
csv文件。
浏览 18
提问于2021-01-13
得票数 0
回答已采纳
3
回答
Pyspark
:将多个数组列
拆分
为
行
、
、
、
、
我有一个
数据
帧
,它有一
行
和几列。其中一些列是单个值,其他列是
列表
。所有
列表
列
的
长度都相同。我希望将每个
列表
列
拆分
为单独
的
行
,同时保持任何非
列表
列
的
原样。示例DF:from
pyspark
.sql import SQLContext from
pyspark
.sql.functio
浏览 2
提问于2016-12-08
得票数 78
回答已采纳
2
回答
删除R中行时
如何
自动缩小R
数据
帧
中
的
行号
、
、
我很难正确地缩小
数据
帧
中
的
行号
。mydata <- mydata[-c(3, 7, 9, 199),] 当我运行这个命令时,3,7,9,199
行
从
列表
中消失,但是
行号
不会自动缩小到1
浏览 4
提问于2012-09-11
得票数 7
回答已采纳
2
回答
如何
从列中指定
的
列表
创建子列
、
、
如何
在嵌套在dataframe列中
的
列表
之外创建列我希望将消息列中
的
数据
拆分
为子列,例如到目前为止,我已经
根据
逗号
拆分
了
数据
因为
数据
不是json格式
的
,所以我不能对它使用json.loads。我使用下面的代码
拆分
它for i in df['t
浏览 1
提问于2019-03-28
得票数 0
1
回答
如何
根据
行
的
内容
拆分
pyspark
数据
、
、
、
、
我想
根据
DataFrame中一
行
的
第一个字符来分割文件。原始
数据
有一列,
数据
包括输入样例文件(
Pyspark
):我想要一个DataFrame文件名作为
数据
的
分割。预期输出(
Pyspark
)
浏览 3
提问于2019-10-10
得票数 1
回答已采纳
2
回答
如何
从R中
的
数据
帧
列表
中选择
行
、
、
、
我有10个
数据
帧
的
列表
,我想按名称选择每个
数据
帧
的
一
行
。该列
的
名称为name。我想要选择name=Ready所在
的
每一
行
。 我尝试了一些方法。如果我声明了确切
的
行号
(这里是2),这就行了: lapply(list, `[` ,c(2),) 但由于
数据
帧
中
的
行号
不同,我将应用类似于name=Re
浏览 6
提问于2021-07-26
得票数 0
回答已采纳
1
回答
pyspark
自动增量列
、
我有一个下面格式
的
pyspark
数据
帧
。I | descI |+----+--------+------+-------------+ 你能告诉我
如何
使用
Pyspark
做到这一点吗?
浏览 0
提问于2020-11-14
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券