腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
在
PySpark
中
显示
物理
计划
、
、
当你犯了一个错误,比如选择了一个不存在的列,
在
PySpark
的异常消息
中
,你可以
在
底部看到类似这样的东西: ? 是否可以
在
PySpark
中正常
显示
此树?(不需要引起异常)
浏览 14
提问于2021-11-03
得票数 0
回答已采纳
1
回答
使用
PySpark
"functions.expr()“对查询有性能影响吗?
、
、
、
、
在
许多情况下,可以使用functions.expr("[SQL]")作为查询的替代方式,例如: df2=df.withColumn("gender", expr("CASE WHEN gender =
浏览 10
提问于2022-09-07
得票数 1
回答已采纳
1
回答
如何确定失败阶段涉及的
pyspark
代码行?
、
、
如何确定负责失败阶段的
pyspark
源代码行? 我使用Web来查看
物理
计划
,它提供了一些洞察力,因为它引用了源代码
中
的变量名称。我也曾考虑过DAG的失败阶段。然而,我一直无法将DAG的细节与实际
计划
联系起来。 我使用的是
Pyspark
2.4.3,我使用的是Dataframe API。
浏览 10
提问于2019-10-01
得票数 0
4
回答
如何在Python中排除Spark dataframe
中
的多列
、
、
、
我发现
PySpark
有一个名为drop的方法,但它似乎一次只能删除一列。关于如何同时删除多个列有什么想法吗?selectedMachineView = machineView.drop([['GpuName','GPU1_TwoPartHwID']]) /usr/hdp/current/spark-client/python/
pyspark
浏览 1
提问于2016-02-28
得票数 42
回答已采纳
1
回答
电火花内存消耗很低。
、
我正在使用anaconda,并在上面安装
pyspark
。
在
pyspark
程序
中
,我使用dataframe作为数据结构。这个程序是这样的:from
pyspark
import SparkContext Spark
浏览 0
提问于2018-03-06
得票数 0
回答已采纳
1
回答
spark
物理
计划
中
的步骤未分配给DAG步骤
、
、
、
、
我正尝试
在
spark SQL
中
调试一个返回不正确数据的简单查询。以下是示例查询from
pyspark
_llap import HiveWareho
浏览 3
提问于2020-02-11
得票数 1
1
回答
如果
计划
的notebook未运行,是否会发出DSX通知?
、
、
我正在尝试根据这个问题对一个每小时
计划
的笔记本进行故障排除:kernel-
pyspark
-20170104_230002.logkernel-
pyspark
-20170105_020000.logkernel-
pyspark
-20170105_
浏览 15
提问于2017-01-05
得票数 1
回答已采纳
1
回答
创建中间计算列或展开定义
、
、
、
(根据如何实施星火),是否存在实质性差异: df.withColumn('tempColumn', tempColumn) df.withColumn('newColumn2', col('existingColumn') - col('tempCo
浏览 4
提问于2022-06-01
得票数 0
1
回答
用列表/元组过滤数据帧中火花广播变量的相关性
、
、
方法1:from
pyspark
.sql.functions import col df.filter(col("alpha").isin(list_filter)).show(5)使用火花广播变量进行滤波df
浏览 4
提问于2021-08-19
得票数 1
回答已采纳
2
回答
什么是Apache Spark (SQL)
中
的Catalyst Optimizer?
、
我想知道更多关于
在
Apache (
PySpark
)中使用Catalyst Optimizer的信息,
在
pyspark
数据帧中使用Catalyst Optimizer是可能的。
浏览 23
提问于2019-05-18
得票数 1
1
回答
使用kafka作为外接程序的Heroku postgresql的火花流
、
、
、
、
我正在尝试使用数据库
中
的
pyspark
从Heroku postgres数据库流,使用kafka作为插件。下面有这样的代码,但是它连续运行,没有返回任何内容,也没有错误。我尝试
在
代码
中
添加触发器,但不知道要使用什么导入,因为我没有在网上找到它的包。.trigger(continuous="1 second")没有
物理
计划
。等待数据。{“消息”:“初始化源”,“isDataAvailable”:False,“isTrigg
浏览 14
提问于2022-10-16
得票数 0
2
回答
Azure应用服务
计划
更改Azure Web应用
、
、
new-AzureRMResourceGroupDeployment读过文章 无法创建空的应用服务
计划
。但这将意味着同一服务
计划
中
的所有其他web应用程序也将采用标准
计划
。如何通过powershell或其他方式仅更新我的web应用程序应用程序服务价格层。
浏览 0
提问于2015-11-13
得票数 0
1
回答
皮林特用火花放电抛出错误警告
、
但是当我把它应用到我的代码
中
时,我得到了警告:"drop_duplicates是不可调用的“。如果我将代码从"drop_duplicates“更改为"dropDuplicates",则警告将消失。
浏览 5
提问于2019-11-18
得票数 2
1
回答
当查询包含大量列的Hive表时,是否有可能减少MetaStore检查的数量?
、
、
、
、
我
在
databricks上使用spark,它使用的是Hive转移,我正在尝试设置一个使用相当多列(20+)的作业/查询。运行亚稳态验证检查所需的时间与我的查询
中
包含的列数成线性关系--有任何方法可以跳过这个步骤吗?或者预先计算支票?或者至少让亚稳态只检查一次,而不是每列一次?一个小的例子是,当我运行下面的程序时,即使
在
调用
显示
或收集之前,也只会发生一次亚稳态检查: new_table = table.withColumn("new_col1", F.col("col1")我
浏览 6
提问于2020-01-09
得票数 4
回答已采纳
1
回答
更新列后
显示
dataFrame时间太长
、
、
我对这个dataFrame所做的全部工作是以下步骤: 对于给定列的列表,我计算给定的组特性列表的和,并将其作为新列加入到我的输入
中
,
在
我将每个新列和加入到dataFrame.之后立即删除它。即使是一个简单的
显示
也需要10分钟。
浏览 2
提问于2020-02-19
得票数 3
回答已采纳
2
回答
物理
和逻辑IO计数
、
我希望能够
在
oracle
中
运行某种
显示
计划
(类似于SYBASE),它将在每个查询或存储过程
中
显示
以下内容:
在
每个statement.Logical上使用
物理
IO,
在
每个语句上使用每个statement.Indexes这对我来说
在
sybase很简单。我有一个分析器工具来做这个,我花了我的大部分时间,实际上解决高IO项目。它是
物理
的还是逻辑的IO?另外,
计划
哈希值是多少: 16116
浏览 2
提问于2011-07-26
得票数 2
回答已采纳
4
回答
对于MySQL查询,如何确定
物理
和逻辑I/O?
、
、
我习惯于
在
Microsoft中使用
显示
计划
,并且懒得使用工具来调优MySQL查询。如何确定MySQL
中
查询的
物理
/逻辑I/O?(“解释”
显示
了索引选择,但如果可能,我希望从MySQL服务器获得更多信息)。
浏览 0
提问于2011-01-04
得票数 8
1
回答
包含空格的列的saveAsTable失败
、
、
、
、
我有一段
pyspark
代码,用于将数据帧转换为
物理
表:如果数据帧df包含名称
中
包含空格的列,则会失败,并
显示
以下错误: 18/03/08 10:33:29 ERROR CreateDataSourceTableAsSelectCommand: Failed to write to tableorg.apache.spark.sql.execution.dataso
浏览 4
提问于2018-03-08
得票数 1
2
回答
限制(N) vs
显示
(N)
Pyspark
中
的性能差异
、
、
、
、
试图更深入地了解spark是如何工作的,并尝试使用
pyspark
cli (2.4.0)。我
在
寻找使用limit(n).show()和show(n)之间的区别。下面代码
中
引用的拼图文件大约有50列,
在
远程HDFS上的大小超过50 on。PartitionFilters: [], ReadSchema: struct<test_col:array<bigint>> 请注意,test1和test2的
物理
规划几乎相同唯一的例外是t
浏览 22
提问于2021-11-23
得票数 1
1
回答
带有火花源的多标签
、
、
我是Spark的新手+--------------------+---------------+尝试执行相同的操作,但遇到错误 File "C:\Users\GX\anaconda3\lib\site-packages\
pyspark
\serializers.py",_write_with_length(obj,
浏览 52
提问于2020-06-04
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
在AIScratch中如何显示文字?
信息物理系统在体系作战中的应用思考
VGA光端机在显示设备中的应用
一触即发:深度学习在物理研究中的应用
在iphonex中关闭微信消息在锁定屏幕显示的方法介绍
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券