腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
提高
多
列
操作
的
性能
、
我已经写了一个在分组数据上执行标准缩放
的
类。__tempNames__(), df_with_stats)[df.columns] 这个想法是将均值和方差保存在
列
中,并简单地对我想要缩放
的
列
进行减法/除法。所以基本上这是一个对一
列
的
算术运算。 如果我想缩放多个
列
,我只需多次调用函数transformOne,但使用functools.reduce会更有效率(请参阅函数transform。对于单个
列
,这个类
的
运行速度已经足够快了
浏览 21
提问于2020-10-02
得票数 0
回答已采纳
1
回答
pySpark
中
的
数据帧级计算
、
我正在使用
PySpark
,并希望利用多节点
的
优势来
提高
性能
时间。例如: 假设我有3
列
,有100万条记录: Emp ID | Salary | % Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新
的
薪水
列
,并希望使用
pyspark
中多个节点
的
能力来减少整体处理时间。我不想做一个迭代
的
浏览 16
提问于2021-03-24
得票数 0
1
回答
PySpark
性能
数据帧/向量与Numpy数组
、
、
、
、
我
的
项目包括目前在UDF中执行
的
numpy数组和numpy矩阵之间
的
许多
操作
,您认为如果我们使用
PySpark
的
内部结构,我们
的
性能
会有所
提高
吗?
浏览 53
提问于2020-09-09
得票数 1
2
回答
使用
PySpark
JDBC将数据帧写入Azure SQL数据库时
性能
较低
、
、
、
我在
PySpark
中使用下面的JDBC URL将data frame写成Azure SQL Database。但是,我觉得这个写
操作
的
性能
并没有达到标准,可以通过设置一些额外
的
属性来
提高
。有什么变通方法或参数可以让我
提高
JDBC
的
写入
性能
吗?server.database.windows.net:1433;databaseName=test;enablePrepareOnFirstPreparedStatementCall=false
浏览 2
提问于2020-01-13
得票数 0
1
回答
如何在Scala中将DataFrame转换为DynamicFrame对象
、
、
我正在尝试将一些
pySpark
代码转换为Scala,以
提高
性能
。在AWS (它使用Apache )中,会自动为您生成一个脚本,它通常使用DynamicFrame对象加载、转换和写入数据。但是,DynamicFrame类并不具有与DataFrame类相同
的
所有功能,有时您必须将其转换回DataFrame对象,反之亦然,以执行某些
操作
。下面是我如何在DataFrame中将DynamicFrame对象转换为
pySpark
对象: //
PySpark
浏览 1
提问于2018-05-17
得票数 3
回答已采纳
1
回答
组合
的
转换会影响
PySpark
中
的
操作
执行时间吗?
、
、
、
我有一个
PySpark
代码,它接受多个输入数据,并生成一个数据作为输出。我执行许多火花转换(地图,过滤器,连接,还原键.)但没有火花行动。我执行
的
唯一
操作
是在代码
的
末尾(输出df
的
count())。transformation#filter transformationresultDF.count() 因此,我有两个问题: 1.合并多个转换是否会影响
PySpark
中
的
操作
执行时间?2.由于我在最后
浏览 3
提问于2017-07-27
得票数 0
回答已采纳
4
回答
与数据库相关
的
表设计和
性能
?
、
我在SQL Server2005中有一个包含158
列
的
表。我还必须保留这些
列
, 如何
提高
性能
-如使用SP、索引?
浏览 1
提问于2009-12-08
得票数 0
1
回答
使用Entity Framework6
的
Index属性中
的
order属性对
性能
有什么影响?
、
、
我想知道这个属性对
性能
的
影响是什么:
浏览 1
提问于2015-04-26
得票数 0
2
回答
mysql
多
列
索引基数顺序
、
、
、
、
多
列
索引是如何在MySQL中工作
的
?它是如何在内部存储
的
?考虑两个
列
(X,Y)上有
多
列
索引
的
表. 如果X
的
基数大于Y,即X比Y少,那么
多
列
索引X、Y或Y、X
的
顺序应该是什么?如果它是X,Y,则具有相同X值
的
行数会减少。这会不会
提高
性能
,因为B树查找X将更快?
浏览 0
提问于2015-01-05
得票数 2
1
回答
是否将pyspak sql数据写入磁盘并再次读取将加快进一步
的
处理?
、
Scenario1使用coaelesce将此数据存储在磁盘上,并读取数据again.Improves,这大大
提高
了进一步转换
的
性能
。 问题为什么会出现这种
性能
改进?
浏览 2
提问于2021-07-12
得票数 1
回答已采纳
1
回答
在
Pyspark
中替换groupby
提高
Pyspark
代码
的
性能
、
、
我
的
Pyspark
数据框如下所示。我必须从
pyspark
代码中删除group by函数,以
提高
代码
的
性能
。我必须对10万个数据执行
操作
。,(1, ['4', '5', '6']), ], ["
浏览 42
提问于2020-12-29
得票数 0
1
回答
Cassandra可以用于动态创建表吗?如果是,平均需要多少时间?
、
、
、
、
我们
的
客户可以创建自定义模块(表)和属性(
列
)。目前,我们正在使用RDBMS(
多
租户)来处理这个用例,并创建了一个表来存储模式,另一个表在
列
中使用预定义
的
数据类型集(每种类型10
列
)来存储客户数据。为了
提高
性能
,我考虑将RDBMS用于常规用途,并使用单独
的
数据库来存储自定义数据。 我在Cassandra上最终确定了它
的
可伸缩性,尽管我担心为每个客户动态创建表,并自动化表调优以
提高
性能</em
浏览 2
提问于2018-03-23
得票数 1
2
回答
如何根据行和
列
的
值更改
PySpark
数据帧
的
大小和分布?
、
、
、
、
我有一个很大
的
PySpark
DataFrame,我想在下面的例子中
操作
它。我认为想象它比描述它更容易。3 |+----------+-----------+-----------+ 在上面的DataFrame中,series
列
中包含
的
三个唯一值(即ID1、ID2和ID3)中
的
每一个都有相应
的
值(在values
列
下)同时出现(即timestamp
列
中
浏览 12
提问于2021-01-03
得票数 1
回答已采纳
2
回答
pyspark
-按
多
列
分组/计数
性能
、
、
、
我读到groupby是昂贵
的
,需要避免.Our spark版本是spark-2.0.1。count'].desc()) .filter(col('rank') = 1) 有没有其他/更好
的
方法来按
多
列
分组,计数,并获得每组计数最高
的
行?
浏览 21
提问于2020-12-23
得票数 0
回答已采纳
1
回答
多
列
Pyspark
上
的
Groupby
操作
、
、
我已经为
pyspark
dataframe中
的
两个特性应用了groupby和计算标准差。from
pyspark
.sql import functions as f val1 = [('a',20,100),('a',100,100),('a',50,100),('b',0,100),('val1_std','val2_std')) 但是它给出了下面的错误 TypeError: _() takes 1 position
浏览 18
提问于2019-04-15
得票数 0
1
回答
函数来过滤
PySpark
中
的
值。
、
、
、
我试图在
PySpark
中运行一个for循环,它需要一个过滤算法变量
的
循环。,从算法中获得匹配,然后过滤产品
的
类型。)有谁知道在
PySpark
上有更好
的
方法来处理这个问题吗?我很难学习
PySpark
。
浏览 5
提问于2020-09-03
得票数 0
回答已采纳
1
回答
如何
提高
pyspark
连接
的
性能
、
、
、
35.20105| -91.831833| Arkansas|def lat_long_approximation有没有人能帮我解决这个连接
的
优化问题,或者
浏览 18
提问于2020-08-29
得票数 2
回答已采纳
3
回答
在星火上运行Pandas有什么用?
、
这周我刚开始使用
PySpark
,我已经安装了access 2
的
实例已经安装了Pandas。但是在星火上拥有熊猫有什么用呢?在
PySpark
上运行脚本不就是为了克服像Pandas这样
的
软件包
的
局限性吗? 如果Pandas在星火上运行,它
的
性能
会
提高
吗?它与星火
的
RDD兼容吗?
浏览 0
提问于2017-01-13
得票数 4
1
回答
由于存在长blob
列
,表中
的
MySQL读/写速度非常慢
、
、
、
在my DB中,一个表包含20个long-blob
列
(
列
不能在另一个表中移动),每行包含大约0.55MB
的
数据大小。我在该表上创建了索引,但这并没有
提高
performance.We,因为需要在该表中存储100
多
万条记录,所以我计划对该表进行分区。我
的
问题是分区是否会
提高
性能
(读/写)?谁能帮助我在这个如何改善it.Suggest,如果有任何替代方法来
提高
。
浏览 0
提问于2015-11-24
得票数 1
1
回答
线程:
多
对一模型和一对一模型
的
并发性
的
差异。
、
、
我正在学习“线程”部分
的
教科书,
操作
系统
的
概念写
的
亚伯拉罕西尔伯沙茨,彼得,格雷格。并行性:
多
对一模型:无法获得真正
的
并发性,因为内核一次只能调度一个线程。一对一模式:提供比多对一模式更多
的
并发性。“我
的
问题是,为什么在
多
对一模型中不能获得并发
浏览 0
提问于2015-10-26
得票数 6
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券