腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
提高
我
数据
过滤
pyspark
程序
的
性能
、
我
想使用
pyspark
提高
我
的
应用
程序
的
性能
。
数据
框如下所示:每一列表示用户XXX发布
的
关于问题XXX
的
评论。1条
的
用户发表
的
评论,以及收到评论少于3条
的
问题中
的
评论
我
的
代码是这样
的
: window_u = Window.partitionBy("user_id
浏览 24
提问于2019-05-16
得票数 1
1
回答
是否将pyspak sql
数据
写入磁盘并再次读取将加快进一步
的
处理?
、
Scenario1使用coaelesce将此
数据
存储在磁盘上,并读取
数据
again.Improves,这大大
提高
了进一步转换
的
性能
。 问题为什么会出现这种
性能
改进?
浏览 2
提问于2021-07-12
得票数 1
回答已采纳
1
回答
PC上
的
大量
数据
?
、
、
你好,
我
想处理10亿行,23列
的
大量
数据
。但在熊猫身上,
我
甚至无法读取
数据
。那么,如何在
我
的
Dell XPS 9570计算机上处理这些
数据
呢?
我
能用spark来做这个吗?有什么建议可以在
我
的
电脑上处理吗? 谢谢
浏览 11
提问于2019-10-23
得票数 0
1
回答
组合
的
转换会影响
PySpark
中
的
操作执行时间吗?
、
、
、
我
有一个
PySpark
代码,它接受多个输入
数据
,并生成一个
数据
作为输出。
我
执行许多火花转换(地图,
过滤
器,连接,还原键.)但没有火花行动。
我
执行
的
唯一操作是在代码
的
末尾(输出df
的
count())。db.tableN") #join transformations...因此,
浏览 3
提问于2017-07-27
得票数 0
回答已采纳
1
回答
函数来
过滤
PySpark
中
的
值。
、
、
、
我
试图在
PySpark
中运行一个for循环,它需要一个
过滤
算法变量
的
循环。下面是
我
的
dataframe df_prods
的
一个示例:|ID |ID
的
列表,从算法中获得匹配,然后
过滤
产品
的
类型。) 2-它返回一个字符串数组类型:‘运动鞋’,当我试图
过滤
产品时,会发生这样
浏览 5
提问于2020-09-03
得票数 0
回答已采纳
1
回答
无法从spark dataframe导出
数据
、
作为测试,
我
使用spark NLP解析了50万条tweet。
数据
帧看起来没问题。
我
将数组转换为字符串。使用from
pyspark
.sql.types import StringType def array_to_stringarray_to_string_udf(result["ner_chunk"])).withColumn('document', array_to_string_u
浏览 7
提问于2021-07-29
得票数 1
1
回答
pySpark
中
的
数据
帧级计算
、
我
正在使用
PySpark
,并希望利用多节点
的
优势来
提高
性能
时间。例如: 假设
我
有3列,有100万条记录: Emp ID | Salary | % Increase | New Salary 2 | 500 | 0.15 | 4 | 700 | 0.1 |
我
想要计算新
的
薪水列,并希望使用
pyspark
中多个节点
的
能力来减少整体处理时间。
浏览 16
提问于2021-03-24
得票数 0
1
回答
使用Spark优化Hive SQL查询?
、
、
、
、
我
有一个复杂
的
SQL查询,用于在Hadoop Hive中获取
数据
。<
浏览 0
提问于2019-12-20
得票数 0
2
回答
如何在EMR 5.x中
的
pyspark
shell /
pyspark
脚本中运行"s3-dist-cp“命令
、
、
我
在
我
的
pyspark
脚本中运行s3-dist-cp“命令时有一些问题,因为
我
需要一些
数据
从s3移动到hdfs以
提高
性能
。所以我在这里分享这一点。
浏览 9
提问于2017-01-23
得票数 1
1
回答
azure逻辑应用
程序
的
良好实践
、
我
想知道在azure逻辑应用
程序
中是否有一些好
的
实践来使逻辑应用
程序
更有
性能
。例如,
我
可以使用
过滤
器和选择操作来
提高
逻辑应用
程序
的
性能
,而不是使用循环来
过滤
数组或组成新
的
对象数组。
我
想知道
的
是,有没有其他方法可以在不使用azure函数
的
情况下
提高
性能
,或者只使用azure逻辑
浏览 0
提问于2021-03-07
得票数 0
2
回答
使用
PySpark
JDBC将
数据
帧写入Azure SQL
数据
库时
性能
较低
、
、
、
我
在
PySpark
中使用下面的JDBC URL将data frame写成Azure SQL Database。但是,
我
觉得这个写操作
的
性能
并没有达到标准,可以通过设置一些额外
的
属性来
提高
。有什么变通方法或参数可以让
我
提高
JDBC
的
写入
性能
吗?server.database.windows.net:1433;databaseName=test;enablePrepareOnFirstPreparedS
浏览 2
提问于2020-01-13
得票数 0
1
回答
在
pyspark
上运行python库
的
速度会加快吗?
、
、
当我运行python库如pandas或scikit learn时,
我
试着通读并理解spark中
的
加速是从哪里来
的
,但我没有看到任何特别有用
的
东西。如果
我
可以在不使用
pyspark
数据
帧
的
情况下获得相同
的
加速比,
我
可以只使用pandas部署代码,它
的
性能
大致相同吗?
我
想我
的
问题是: 如果
我
有可用
的
pandas代码
浏览 2
提问于2018-06-22
得票数 0
1
回答
搜索API会
提高
视图公开
过滤
器中搜索
的
性能
吗?
、
、
如何
提高
性能
,如果一个网站上
的
主要活动之一是搜索视图暴露
过滤
器?searches模块(使用
数据
库搜索/非Solr)会显著
提高
此类搜索
的
性能
吗?
浏览 0
提问于2012-05-07
得票数 6
回答已采纳
1
回答
如何将
数据
存储到从
我
的
localDB加载
的
h2
数据
库中,以达到缓存
的
目的。这样
我
就可以使用简单查询来获取
数据
、
、
我
的
数据
库中有大量
的
数据
。每次访问DB都会影响
性能
。因此,
我
想在一些表上调用findall方法并将其存储在h2
数据
库中,以便在需要获取
数据
时可以使用h2
数据
库。
我
看到了ehcache和内存缓存技术。这是为了使用简单
的
查询来获取
数据
。
我
使用了@caching注解。并且能够从高速缓存中获取
数据
。但是,当使用特定值进行
过滤<
浏览 0
提问于2019-07-24
得票数 1
1
回答
如何在Scala中将DataFrame转换为DynamicFrame对象
、
、
我
正在尝试将一些
pySpark
代码转换为Scala,以
提高
性能
。在AWS (它使用Apache )中,会自动为您生成一个脚本,它通常使用DynamicFrame对象加载、转换和写入
数据
。但是,DynamicFrame类并不具有与DataFrame类相同
的
所有功能,有时您必须将其转换回DataFrame对象,反之亦然,以执行某些操作。下面是
我
如何在DataFrame中将DynamicFrame对象转换为
pySpark
对象: //
浏览 1
提问于2018-05-17
得票数 3
回答已采纳
1
回答
如何在
pyspark
代码中创建python线程
、
、
我
在
pyspark
中按顺序执行了大约70个hive查询。
我
正在寻找改善并行运行配置单元查询
的
运行时间
的
方法。
我
计划通过创建Python线程并在线程中运行sqlContext.sql来实现这一点。这会在驱动
程序
中创建线程并
提高
性能
吗?
浏览 20
提问于2019-01-29
得票数 0
1
回答
在
Pyspark
中替换groupby
提高
Pyspark
代码
的
性能
、
、
我
的
Pyspark
数据
框如下所示。
我
必须从
pyspark
代码中删除group by函数,以
提高
代码
的
性能
。
我
必须对10万个
数据
执行操作。初始
数据
创建Dataframe df = spark.createDataFrame([(1, ['-7.7
浏览 42
提问于2020-12-29
得票数 0
1
回答
优化角滤波器
性能
、
、
、
我
正在
过滤
一个相当小
的
数据
集,但是仍然存在一些
性能
问题(当
过滤
器不简洁时,UI线程冻结)。<tbody ng-repeat="p in vm.permissions | filter: {UserName: vm.user}:false"> 问题是只有当有很多记录,所以我试图
提高
性能
通过隐藏整个事情时不幸
的
是,即使
数据
集是隐藏
的
,它似乎是在操纵dom (UI冻结,因为
浏览 5
提问于2014-11-11
得票数 2
回答已采纳
2
回答
计算字段
的
排序和
过滤
、
、
、
、
我
目前正在使用来表示
我
的
索引页面上
的
数据
,这是一个使用.NET Core2.0& MVC构建
的
相当基本
的
CRUD应用
程序
。
我
有一个有几个字段
的
模型,其中一些是计算字段。使用MVC网格进行排序和
过滤
非常有效,即使记录超过55万条。然而,当我试图对其中一个计算字段进行排序和筛选时,
性能
会有很大
的
下降(大约需要45秒)。这不是世界末日,但我想知道是否有办法<em
浏览 1
提问于2018-04-12
得票数 1
回答已采纳
2
回答
Python代码优化( for -循环和If-for)建议,以加快计算时间
、
、
、
、
需要减少以下python代码
的
计算量,该代码包含多个if else语句。代码运行在一个DataBricks上,所以我也对开放。目前,该代码运行时间超过1小时。因此,任何帮助都将不胜感激。unique_list_code:concat_df['C_Code']列中用于
过滤
包含代码
的
数据
行
的
唯一代码列表。concat_df:有400万记录
的
熊猫DataFrame unique_list_code = list(concat_df['C_Code'].u
浏览 4
提问于2021-11-02
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
热门
标签
更多标签
云服务器
ICP备案
对象存储
云直播
腾讯会议
活动推荐
运营活动
广告
关闭
领券