腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
有没有
类
似的
方法
在
pyspark
中
复制
熊猫
的
"
qcut
“
功能
?
、
、
、
、
我想在
pyspark
中
做KS测试,以获得预测
的
概率和真实
的
标签。链接
中
的
熊猫
也做了类
似的
工作:
浏览 38
提问于2020-05-19
得票数 0
1
回答
在
pyspark
的
现有dataframe
中
添加新列
的
方法
是什么?
、
、
、
我已经
在
现有的数据框
中
添加了一个新列,但它没有反映在数据帧
中
。我们就可以看到结果test.show()
有没有
办法向现有的dataframe添加一个新
的
列(不
复制
dataframe)?我们只有一个选择(
熊猫
中
的
inp
浏览 4
提问于2021-01-26
得票数 0
1
回答
星星之火与
熊猫
对战
、
我对
pySpark
非常陌生,但我对火花数据采集(例如,由RDD创建)和一只
在
星火中
的
熊猫
之间
的
区别感到困惑。 核心
的
区别是什么,如果有的话?(我知道,与
熊猫
在
星星之火中工作,你可以
在
分布式
的
Dataframe上使用Pandas
的
几乎相同
的
语法,但我想知道是否只有这一个才是不同
的<
浏览 2
提问于2022-02-04
得票数 6
1
回答
Databricks spark dataframe按列创建数据框
、
在
熊猫
中
,我可以做这样
的
事情。
在
pyspark
中
有没有
类
似的
方法
来创建spark数据帧?
浏览 1
提问于2021-11-02
得票数 0
1
回答
在
groupby中使用pandas.
qcut
,每个键具有不同数量
的
类
、
我
在
groupby.transform()例程中使用pd.
qcut
面对着一堵墙。 我想根据groupby中年龄变量
的
分位数(按某个键)分配一个
类
号。所以我想用像这样
的
东西 df['class'] = df.groupby('key')['AGE'].transform(pd.
qcut
, number_of_classes) 我
的
问题是,根据变量‘number_of_classes’
的
不同,“键
浏览 24
提问于2021-04-09
得票数 1
回答已采纳
2
回答
有没有
办法
在
pyspark
中
根据索引对数据帧进行切片?
、
、
在
python或R
中
,可以使用索引对DataFrame进行切片。df.iloc[5:10,:]
在
pyspark
中
有没有
类
似的
方式来根据行
的
位置对数据进行切片?
浏览 3
提问于2018-10-13
得票数 4
回答已采纳
2
回答
如何在
Pyspark
中使用Scala
类
、
、
、
、
我已经搜索了一段时间了,如果有任何
方法
在
Pyspark
中使用一个
Pyspark
类
,我还没有找到任何关于这个主题
的
文档或指南。假设我
在
Scala
中
创建了一个简单
的
类
,它使用了一些apache-spark库,如下所示: def exe(): DataFrame = { import sqlCont
浏览 3
提问于2016-03-15
得票数 29
回答已采纳
1
回答
熊猫
如何决定垃圾桶边?
、
我有
熊猫
的
数据,我想保存连续
的
值。25.00000075% 53.000000Name: abc, dtype: float64print(a["abc
浏览 0
提问于2021-11-05
得票数 1
回答已采纳
1
回答
如何使用
qcut
通过训练数据
的
值来标记所有数据?
、
qcut
在
pandas
中
是一个很棒
的
功能
。 但在正常
的
机器学习情况下,我们通常需要将数据拆分成训练数据和测试数据。 让我举一个例子: 我有一个包含7个数据
的
数据集。In [5]: pd.
qcut
([1,4,3,2,5,3,4], 3, labels=False) Out[5]: array([0, 1, 0, 0, 2, 0, 1]) 但是我想要
的
只是基于前5个元素
的
qcut
。因此,前5个标签应该是
浏览 15
提问于2021-01-31
得票数 0
回答已采纳
5
回答
火花放电中柱
的
比较
、
、
我正在开发一个包含n列
的
PySpark
DataFrame。我有一组m列(m < n),我
的
任务是选择其中包含最大值
的
列。例如:col_1 = [1,2,3], col_2 = [2,1,4], col_3 = [3,2,5]col_4 = max(col1,col_2, col_3) = [3,2,5] 正如问题中所解释
的
那样,
熊猫
身上也有类
似的
东西。
在
P
浏览 7
提问于2016-06-07
得票数 29
回答已采纳
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据作为输入。
、
、
、
我试图使用
pyspark
.pandas API在数据库上构造数据
的
共生矩阵。该代码
在
熊猫
中
运行良好,但在使用
pyspark
.pandas时出现了错误。
pyspark
.pandas.DataFrame.dot() 以串联作为输入。我尝试使用psdf.squeeze()将dataframe转换为系列化,但它并不将dataframe转换为串联,因为我
的
dataframe有多个列。
有没有
办法将<
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
1
回答
Orange3汇总数据,分组数据值
、
、
、
、
在
orange3
中
是否有一种简单
的
方法
(不是编写Python )来总结数据和分组类
似的
数据值?
有没有
类
似的
小部件/
功能
,我正在忽略橙色?
浏览 0
提问于2017-09-18
得票数 1
2
回答
星火DataFrame
方法
“`toPandas`”实际上在做什么?
、
、
、
我使用此代码加载csv选项卡,并将其分隔到
中
。for fname in fnames])假设我使用新文件创建了DataFrame,并使用内置
方法
toPandas()将其转换为
熊猫
, 我可以把它转换成toPandas,然后用它来完成,而不
浏览 2
提问于2015-03-24
得票数 49
回答已采纳
1
回答
如何用SFrame
中
的
中间值或模式替换缺失
的
值?
、
、
我正在阅读Graphlab文档,并试图弄清楚如何
复制
熊猫
的
功能
,如果na值被中间值、平均值或模式等所取代……
在
熊猫
中
,您只需这样做:df.dropna()、.median()或df.dropna()、.但是,关于SFrame
的
下拉和填充函数
的
文档没有提到任何类
似的
内容。
在
SFrame中有可能吗?
浏览 2
提问于2016-09-07
得票数 2
回答已采纳
1
回答
如何将
熊猫
嵌套列
复制
到另一个DF
中
?
、
、
、
我们
在
一个具有嵌套结构
的
Delta源中有一些数据。
在
我们
的
转换
中
,我们目前
在
使用
PySpark
中
读取了Delta文件,将DF转换为使用df.toPandas()
的
熊猫
,并使用
熊猫
API对此
熊猫
DF进行操作。我们希望能够做这样
的
事情: not inventory_df["sta
浏览 1
提问于2022-04-18
得票数 1
回答已采纳
1
回答
如何在更新BigQuery表时运行一些代码?
、
、
、
有没有
办法
在
更新BigQuery表时运行一些
PySpark
代码?每当使用Cloud Functions将文件上传到Google Cloud Storage时,我都会运行一些类
似的
东西,但我
在
BigQuery文档
中
找不到任何提供类似
功能
的
东西。非常感谢您
的
帮助,谢谢!
浏览 9
提问于2019-06-25
得票数 0
2
回答
将
类
成员
复制
到其他
类
中
- eclipse
、
、
、
当您需要将某些
类
功能
移到另一个
类
中
时,可以很容易地通过引用某个公共变量(Ctrl+Shift+G)搜索相应
的
方法
,然后使用Eclipse
的
重构
功能
" move“,它允许将选定
的
方法
移动到其他
类
中
但也可能发生需要
复制
方法
的
情况。例如,如果在其他
类
中
需要非常相
似的</e
浏览 1
提问于2013-04-19
得票数 3
回答已采纳
1
回答
数据库从存储库
中
的
python库导入/
复制
数据
、
、
、
、
在
尝试使用databricks
的
新repo
功能
实现解决方案时,我面临着一个小小
的
挑战。我
在
一个需要能够使用python和
pyspark
代码
的
interdisziplinairy项目中工作。python团队已经构建了一些库,这些库现在也希望被
pyspark
团队使用(例如预处理等)。我们认为使用新
的
repo
功能
将是一个很好
的
折衷方案,可以轻松地进行协作。问题是,
在
databricks中
浏览 0
提问于2021-04-30
得票数 2
1
回答
使用
pyspark
从Hadoop
中
删除文件(查询)
、
、
、
、
我使用Hadoop来存储我
的
数据-对于一些数据我使用分区,对于一些数据我不使用分区。我使用
pyspark
DataFrame
类
以parquet格式保存数据,如下所示: df = sql_context.read.parquet('/some_path') df.write.mode("append").parquet(parquet_path) 我想写一个删除旧数据
的
脚本,使用类
似的
方式(我需要在数据框上使用过滤来查询这个旧数据)与
pyspark<
浏览 2
提问于2019-04-14
得票数 2
回答已采纳
2
回答
在
PySpark
DataFrame中使用数据哈德
、
、
、
、
我想绘制200 Gb
的
。我设法用datashader绘制/可视化了
熊猫
的
数据。但是,我没有设法使用
PySpark
数据RAM (使用一个4节点集群,每个集群有8Gb内存)来完成它。不过,我可以做
的
是使用.toPandas()
方法
将
PySpark
数据into转换为Pandas数据into。但是这将在驱动节点上加载整个RAM
中
的
数据(该节点没有足够
的
RAM来适应整个数据集),因此不能利用Spark
的</e
浏览 3
提问于2017-09-03
得票数 2
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark通信原理之Python与JVM的交互
当年的电脑病毒"熊猫烧香"到底有多牛?让网友带我们来普及一下!
Jupyter在美团民宿的应用实践
如何从Pandas迁移到Spark?这8个问答解决你所有疑问
Windows和PC机上搭建Spark+Python开发环境的详细步骤
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券