腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何
提高
pyspark
连接
的
性能
、
、
、
35.20105| -91.831833| Arkansas|def lat_long_approximation有没有人能帮我解决这个
连接
的</e
浏览 18
提问于2020-08-29
得票数 2
回答已采纳
1
回答
是否将pyspak sql数据写入磁盘并再次读取将加快进一步
的
处理?
、
Scenario1使用coaelesce将此数据存储在磁盘上,并读取数据again.Improves,这大大
提高
了进一步转换
的
性能
。 问题为什么会出现这种
性能
改进?
浏览 2
提问于2021-07-12
得票数 1
回答已采纳
1
回答
如何
提高
Pyspark
中toLocalIterator()
的
性能
、
、
、
、
我正在尝试将
Pyspark
数据帧转换为140000行
的
Python列表。我正在使用toLocalIterator()来做这件事,但这需要花费很多时间。我
如何
加快这一过程?
浏览 52
提问于2020-07-08
得票数 0
1
回答
如何
在Scala中将DataFrame转换为DynamicFrame对象
、
、
我正在尝试将一些
pySpark
代码转换为Scala,以
提高
性能
。在AWS (它使用Apache )中,会自动为您生成一个脚本,它通常使用DynamicFrame对象加载、转换和写入数据。但是,DynamicFrame类并不具有与DataFrame类相同
的
所有功能,有时您必须将其转换回DataFrame对象,反之亦然,以执行某些操作。下面是我
如何
在DataFrame中将DynamicFrame对象转换为
pySpark
对象: //
PySpark
浏览 1
提问于2018-05-17
得票数 3
回答已采纳
3
回答
在星火上运行Pandas有什么用?
、
这周我刚开始使用
PySpark
,我已经安装了access 2
的
实例已经安装了Pandas。但是在星火上拥有熊猫有什么用呢?在
PySpark
上运行脚本不就是为了克服像Pandas这样
的
软件包
的
局限性吗? 如果Pandas在星火上运行,它
的
性能
会
提高
吗?它与星火
的
RDD兼容吗?
浏览 0
提问于2017-01-13
得票数 4
1
回答
pySpark
中
的
数据帧级计算
、
我正在使用
PySpark
,并希望利用多节点
的
优势来
提高
性能
时间。Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 | 我想要计算新
的
薪水列,并希望使用
pyspark
中多个节点
的
能力来减少整体处理时间。我不想做一个迭代
的
逐行计算新工资。 df.withColumn是否在数据帧级别进行计算?当使用更多
的
节点时
浏览 16
提问于2021-03-24
得票数 0
1
回答
PySpark
性能
数据帧/向量与Numpy数组
、
、
、
、
我
的
项目包括目前在UDF中执行
的
numpy数组和numpy矩阵之间
的
许多操作,您认为如果我们使用
PySpark
的
内部结构,我们
的
性能
会有所
提高
吗?
浏览 53
提问于2020-09-09
得票数 1
1
回答
组合
的
转换会影响
PySpark
中
的
操作执行时间吗?
、
、
、
我有一个
PySpark
代码,它接受多个输入数据,并生成一个数据作为输出。我执行许多火花转换(地图,过滤器,
连接
,还原键.)但没有火花行动。我执行
的
唯一操作是在代码
的
末尾(输出df
的
count())。transformation#filter transformationresultDF.count() 因此,我有两个问题: 1.合并多个转换是否会影响
PySpark
中
的
操作执行时间?2.由于我在最后只执行一个操作,那
浏览 3
提问于2017-07-27
得票数 0
回答已采纳
2
回答
如何
在EMR 5.x中
的
pyspark
shell /
pyspark
脚本中运行"s3-dist-cp“命令
、
、
我在我
的
pyspark
脚本中运行s3-dist-cp“命令时有一些问题,因为我需要一些数据从s3移动到hdfs以
提高
性能
。所以我在这里分享这一点。
浏览 9
提问于2017-01-23
得票数 1
2
回答
使用
PySpark
JDBC将数据帧写入Azure SQL数据库时
性能
较低
、
、
、
我在
PySpark
中使用下面的JDBC URL将data frame写成Azure SQL Database。但是,我觉得这个写操作
的
性能
并没有达到标准,可以通过设置一些额外
的
属性来
提高
。有什么变通方法或参数可以让我
提高
JDBC
的
写入
性能
吗?server.database.windows.net:1433;databaseName=test;enablePrepareOnFirstPreparedStatementCall=false" 下面
浏览 2
提问于2020-01-13
得票数 0
1
回答
如何
提高
连接
性能
、
我是个新手,我在某个地方读到:“在洗牌所需
的
操作之前,在数据帧中
的
方便列上应用桶,我们可能会避免多种可能
的
昂贵
的
洗牌。在执行排序-合并
连接
之前,已经对数据进行排序和洗牌,从而
提高
了
性能
。”非常想知道,在加入两个dataframe之前,我们
如何
“避免多种可能
的
昂贵
的
洗牌”?
浏览 4
提问于2022-04-30
得票数 1
回答已采纳
1
回答
MySQL服务器
性能
、
、
关于在Windows 2008 R2下运行
的
MySQL服务器,我有几个问题:
如何
打开查询日志以查看执行
的
查询
的
性能
?据我所知,MySQL是多线程
的
,增加允许
的
连接
数量会
提高
Quad系统
的
性能
吗?
如何
在集群中设置多个MySQL服务器
的<
浏览 0
提问于2012-05-07
得票数 3
回答已采纳
1
回答
在
pyspark
上运行python库
的
速度会加快吗?
、
、
当我运行python库如pandas或scikit learn时,我试着通读并理解spark中
的
加速是从哪里来
的
,但我没有看到任何特别有用
的
东西。如果我可以在不使用
pyspark
数据帧
的
情况下获得相同
的
加速比,我可以只使用pandas部署代码,它
的
性能
大致相同吗?我想我
的
问题是: 如果我有可用
的
pandas代码,为了
提高
效率,我应该把它翻译成
PySpark
吗?
浏览 2
提问于2018-06-22
得票数 0
1
回答
MySQL服务器
性能
、
我有几个关于在Windows Server2008 R2下运行
的
MySQL服务器
的
问题。2)
如何
打开查询日志来查看执行查询
的
性能
?3)据我所知,MySQL是多线程
的
,增加允许
的
连接
数会
提高
四核系统
的
性能
吗?5)集群内多台MySQL服务器
如何<
浏览 1
提问于2012-05-07
得票数 1
回答已采纳
1
回答
PC上
的
大量数据?
、
、
你好,我想处理10亿行,23列
的
大量数据。但在熊猫身上,我甚至无法读取数据。那么,
如何
在我
的
Dell XPS 9570计算机上处理这些数据呢?我能用spark来做这个吗?有什么建议可以在我
的
电脑上处理吗? 谢谢
浏览 11
提问于2019-10-23
得票数 0
1
回答
Pyspark
提高
多列操作
的
性能
、
我已经写了一个在分组数据上执行标准缩放
的
类。__tempNames__(), df_with_stats)[df.columns] 这个想法是将均值和方差保存在列中,并简单地对我想要缩放
的
列进行减法/除法。所以基本上这是一个对一列
的
算术运算。 如果我想缩放多个列,我只需多次调用函数transformOne,但使用functools.reduce会更有效率(请参阅函数transform。对于单个列,这个类
的
运行速度已经足够快了,但是当我有多个列时,它就会占用太多
的
时间。 我对spark
的<
浏览 21
提问于2020-10-02
得票数 0
回答已采纳
1
回答
使用Spark优化Hive SQL查询?
、
、
、
、
我有一个复杂
的
SQL查询,用于在Hadoop Hive中获取数据。我对这些技术
的
理解正确吗?
浏览 0
提问于2019-12-20
得票数 0
1
回答
在
Pyspark
中替换groupby
提高
Pyspark
代码
的
性能
、
、
我
的
Pyspark
数据框如下所示。我必须从
pyspark
代码中删除group by函数,以
提高
代码
的
性能
。我必须对10万个数据执行操作。,(1, ['4', '5', '6']), ], ["id"
浏览 42
提问于2020-12-29
得票数 0
1
回答
如何
提高
使用QT
的
sqlite3数据库
的
性能
?
、
为了获取一个特定
的
项目,我填充了4个不同
的
表
的
结果。我认为加入这些表可以
提高
性能
/速度,并更快地得到结果。因此,我最初
连接
了两个表,但在
连接
这两个表之后,获取数据需要更长
的
时间(?)任何关于
如何
提高
性能
的
建议都将不胜感激。此外,我还查看了,其中提到使用setForwardOnly可以
提高
某些数据库
的
性能
。你知道它是否适
浏览 2
提问于2012-04-16
得票数 1
回答已采纳
1
回答
提高
连接
性能
、
、
我有两张需要参加
的
桌子。其中一个表(表a)
的
索引如下: account_number、start_date、end_date (都是唯一
的
)。 TRUNC(a.CREATE_DATE) BETWEEN b.START_DATE AND b.END_DATE 对
如何
改进它有什么想法吗(索引、分区、另一种
连接
)任何想
浏览 0
提问于2016-01-11
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
如何提高云计算的性能
如何提高装配体性能
0483-如何指定PySpark的Python运行环境
如何提高网站性能可以帮助拯救地球?
如何通过Ensemble提高机器学习性能
热门
标签
更多标签
云服务器
ICP备案
对象存储
实时音视频
云直播
活动推荐
运营活动
广告
关闭
领券