腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
PySpark
从
多
列
中
选择
前
N
个
、
Pyspark
数据框架ADM | $25.5 | $12.2CITI | $-12 | $9.1 我需要从“多头头寸”和“空头头寸”中
选择
前
3名。
浏览 8
提问于2019-07-09
得票数 0
回答已采纳
2
回答
将文件读取并附加到spark数据文件
中
我已经创建了一
个
空的dataframe,并开始添加它,通过读取每个文件。但其中一
个
文件的
列
数比
前
一
个
文件
多
。如何仅为所有其他文件
选择
第一
个
文件
中
的
列
?from
pyspark
.sql import SparkSession from
pyspark
.sql.types import
浏览 1
提问于2019-09-06
得票数 3
回答已采纳
2
回答
从
pyspark
中
的dataframe ArrayType
列
中
获取
前
N
个
元素
、
、
我有一
个
spark数据帧,行是这样的-2 | [d, e, f]现在我只想保留数组
列
中
的
前
两
个
元素。
浏览 1
提问于2018-10-25
得票数 12
回答已采纳
1
回答
PySpark
特征
选择
与可解释性
、
、
、
、
在
PySpark
中
是否有一种方法来执行特性
选择
,但保留或获得一
个
映射回到原始的特性索引/描述?例如: 我有一
个
原始特性字符串的StringArray
列
(col = "rawFeatures")。然后我运行ChiSqSelector来
选择
前
1000
个
特性(col = "selectedFeatures)。如何获得与
前
1000
个
特性对应的原始特性字符串(甚至是
浏览 1
提问于2017-12-14
得票数 4
1
回答
如何在
Pyspark
Dataframe
中
训练和测试拆分的时间序列数据
、
、
、
我想对排序后的
Pyspark
数据帧进行基于时间的训练测试拆分。假设
前
300行将在训练集中,下200行将在测试拆分
中
。我可以用以下命令
选择
前
300行: train = df.show(300) 但是如何
从
Pyspark
dataframe中
选择
最后200行呢?
浏览 14
提问于2019-03-13
得票数 1
3
回答
用特殊字符串开始
选择
列
值
、
我使用来自
PySpark
的火花2。数据文件看起来就像a = spark.createDataFrame(a, ['des', 'id'])我想
选择
用‘des_col
浏览 9
提问于2017-12-12
得票数 0
回答已采纳
3
回答
为
前
n
个
不同元素(两
列
或
多
列
)
选择
行
、
给定以下数据集,我希望
选择
在col1和col2上
选择
'
n
‘distinct结果的第一
个
和最后一
个
结果之间的行(所有
列
)。| 5 | 2 |9 | c | 7 | 2 |对于
n
=| 我正在尝试使用SELECT DISTINCT col1, col2 FROM
浏览 3
提问于2016-05-16
得票数 1
5
回答
火花放电中柱的比较
、
、
我正在开发一
个
包含
n
列
的
PySpark
DataFrame。我有一组m
列
(m <
n
),我的任务是
选择
其中包含最大值的
列
。例如:col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,在
PySpark
中
是否存在这样的方法,或者我是否应该将
PySpa
浏览 7
提问于2016-06-07
得票数 29
回答已采纳
1
回答
使用CQL
从
Cassandra
列
中
选择
前
N
个
、
如何在Cassandra
中
获取给定行键的
前
N
列
?
浏览 0
提问于2011-11-11
得票数 2
回答已采纳
1
回答
top_
n
函数返回比预期更多的行
、
row.names = c(NA, -66L), .Names = c("calls_in_range", top_
n
(
浏览 3
提问于2017-05-31
得票数 3
回答已采纳
6
回答
从
文件内容计算的MD5哈希的
前
4
个
字节发生冲突的概率是多少?
、
、
、
这是一
个
组合学问题,需要散
列
算法
中
的一些理论。假设输入可以是任意大小为30 kB到5MB的随机字节序列(我猜这使得输入值有相当
多
的组合:)
从
字节序列计算出的MD5散
列
的
前
4
个
字节(或
前
n
个字节)对于不同的文件来说相同的概率是多少?如果不能专门为MD5散列计算这一点,那么生成均匀分布的m字节散
列
的任何散
列
函数在给定输入范围的
前
n
个字节上计算冲突的
浏览 0
提问于2009-11-13
得票数 9
回答已采纳
1
回答
使用
PySpark
的数据帧
中
的
前
N
列
、
、
、
如何
选择
数据框
中
的
前
N
列
并使其成为另一
个
数据框? 有一
个
包含180
列
的DF,我想创建另一
个
包含
前
105
列
的DF,不在脚本
中
隐式提及列名。
浏览 42
提问于2021-02-20
得票数 0
回答已采纳
3
回答
选择
列
和平均值的
前
n
个
值
、
、
我有一
个
包含13 columns的表,其中一
个
表的类型为varchar(25),其余的表类型为` `int (保存一年
中
每个月的值)。我知道如何
从
给定
列
中
选择
前
n
个
列
,但是如何跨多个
列
选择
前
n
个
呢?
浏览 2
提问于2013-08-20
得票数 2
1
回答
将元组的RDD转换为Dataframe
、
、
、
、
我有一
个
元组的rdd,
前
两行如下所示:[('t', 3.6243409329763652),('vn', 3.6243409329763652),('
n
', 52.743253562212828),('v', 11.644347760553064)]] 在每个元组
中
,第一
浏览 3
提问于2017-06-01
得票数 0
回答已采纳
1
回答
不使用
多
列
索引(btree_gin)的Postgresql
、
、
、
、
我在让postgres使用我的
多
列
索引来使用btree_gin扩展进行全面搜索时遇到了问题。这是一
个
文章的搜索页面。rows=2248 width=384) (actual time=9.781..9.784 rows=36 loops=1) Sort Method: top-
N
11413Execution time: 9.860 ms 然后,我发现更难理解的是,它也拒绝在文章列表页面上使用这个简单的btree索引,在这些索引<e
浏览 3
提问于2016-02-02
得票数 2
1
回答
在熊猫数据中
选择
具有间隔的多个
列
、
假设我有一只熊猫数据集,
列
如下:我希望
选择
具有特定间隔的所有
列
,例如
n
.For示例,如果
n
=2和我
从
A开始,我将
选择
:H,G,D,C 我甚至可以
从
between.What
中
的任意随机
列
开始,这是一种有
浏览 0
提问于2018-01-03
得票数 0
回答已采纳
1
回答
根据得分
pyspark
筛选其他
列
中
每个值的
列
前
N
个
值
、
、
、
、
因此,我在Spark中有一
个
数据帧,其中包含以下数据: user_id item category scoreuser_1 item1item9 categoryA 4user_2 item11 categoryE 1 我想对它进行过滤,以便根据分数为每个用户只保留两
个
相同类别的项目,并且具有较低的分数(或者如果得分相等,则随机丢弃,直到只有两
个
该类别的项目为止)。我试着在窗口上设置一
个
浏览 29
提问于2021-01-11
得票数 1
回答已采纳
1
回答
如何
从
每组MySql中
选择
前
N
条记录
、
我有一
个
表,我想要在
列
sub_category_id的基础上
从
每个组
中
获得
前
N
个
项目。如果我设置
N
=10,它将从每个组中
选择
第一
个
10行,或者如果我设置了
N
=5,那么它将从每个组中
选择
前
5行。
浏览 11
提问于2018-02-03
得票数 1
回答已采纳
1
回答
Spark和Python
中
决策树算法在分析
中
的应用
、
、
、
、
在dataset
中
,我有多个
列
,我正在
选择
我的feature集所需的
列
。在我的数据集中,有一
个
用于customerid的
列
(第4
列
),到目前为止,我还没有
选择
它不是要在模型中考虑的特性。对于详细信息位于customerid
中
的客户,我很难将这个testdata
列
与testdata相关联。如果我
从
我在feature
中
形成的LabeledPoint向量
中
的datase
浏览 0
提问于2015-08-12
得票数 2
回答已采纳
3
回答
选择
MySQL表的
前
N
列
既然可以
从
表中
选择
前
N
行,那么有没有办法
从
MySQL数据库表中
选择
前
N
列
呢? 感谢你的回复,也许还有一些PHP代码。
浏览 0
提问于2013-06-23
得票数 14
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Excel–将离职人员从多列中同时删除,怎样最快?
Excel定位求和方法:如何对一列数据中前N个数据汇总
从任正非的创业故事中得出N个忠告
Excel分隔线操作技巧:365中Shift键选择多行多列单击分割线卡死的处理方法
一个Python大数据处理利器:PySpark入门指南
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券