腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
中
的
Pandas
Udf
在
yarn
客户端
或
集群
模式
下
仅在
一个
执行器
中
运行
python
、
pandas
、
apache-spark
、
pyspark
我有
一个
从Hive Table读取数据并应用
pandas
udf
的
代码,当它从表
中
读取数据时,它在11个
执行器
中
运行
,但是当它执行
一个
pandas
udf
时,它只使用
一个
执行器
。有没有办法指派10个执行者来执行
pandas
udf
?=20 code_test.py from
py
浏览 12
提问于2020-10-01
得票数 0
1
回答
无法使用kubernetes pod内
的
纱线创建spark会话
apache-spark
、
kubernetes
我有
一个
安装了spark
客户端
的
kubernetes pod。a2efc34efde0fd268a9f83ea1861bd2548a8c188Type --help for more information.
在
客户端
和
集群
模式
下
我们有另
一个
需要创建spark会话
的
python脚本。这是我们第一次从ku
浏览 21
提问于2019-10-31
得票数 0
1
回答
纱线
客户端
模式
与纱线
集群
模式
的
区别
apache-spark
在
yarn
客户端
模式
和
yarn
集群
模式
下
运行
类似的代码时,我遇到了
一个
小问题。当我
在
客户机
模式
下
运行
我
的
代码时,它可以很好地执行,但在
yarn
-cluster节点上
运行
时就会失败。它抛出
一个
file not file异常,声明找不到
pyspark
.zip文件
浏览 3
提问于2015-09-18
得票数 4
2
回答
在
Spark Submit over
Yarn
Cluster
中
手动设置驱动程序
apache-spark
、
pyspark
、
hadoop-yarn
我注意到,当我使用
yarn
在
spark submit
中
启动
一个
作业时,会随机设置驱动程序和
执行器
节点。是否可以手动设置,以便在收集数据并将其写入文件时,每次都可以
在
同一节点上写入数据?到目前为止,我尝试使用
的
参数是:spark.
yarn
.am.port <driver-ip-address>和spark.driver.hostname <driver-ip-address> 谢谢!
浏览 0
提问于2016-12-07
得票数 1
3
回答
部署
模式
客户端
和主
yarn
客户端
之间有什么关系
apache-spark
我使用spark-submit来
运行
我
的
spark程序,我使用--deploy-mode client和--master
yarn
-client来设置parameter.My问题: Q1:是不是说--deploy-modeclient
的
用法和--master
yarn
-client
的
用法是一样
的
,都表示驱动程序
在
客户端
运行
?Q2:--deploy-mode
客户端
是否意味着我
的
程序只
浏览 0
提问于2015-12-29
得票数 3
4
回答
纱线簇上
的
PySpark
分布式处理
apache-spark
、
hadoop-yarn
、
cloudera-cdh
、
pyspark
我
在
ClouderaCDH5.3
集群
上
运行
了Spark,使用Spark作为资源管理器。我正在用Python (
PySpark
)开发火花应用程序。我可以提交作业,它们可以成功地
运行
,但是它们似乎从来不
运行
在多台机器上(我提交
的
本地机器)。我尝试过多种选择,比如将部署
模式
设置为
集群
,--主从于纱线
客户端
和纱线
集群
,但它似乎从未在多台服务器上
运行
过。我有
一个
非常简单<e
浏览 3
提问于2015-01-30
得票数 12
回答已采纳
2
回答
在
纱线
集群
模式
下
运行
python火花作业
python
、
apache-spark
、
hadoop-yarn
这里出现了
一个
问题,当我使用星火
运行
的
pi.py脚本,当我使用纱线-
客户端
模式
时,一切都很好。但是,当我使用纱线-
集群
模式
时,作业无法启动,容器返回如下语法错误:上传时间:清华5月21日08:48:16 +0800 2015日志内容:文件"pi.py",第40行我相信剧本是对
的
,有人能帮
浏览 2
提问于2015-05-21
得票数 2
回答已采纳
2
回答
udf
(用户定义
的
函数)是如何在火花放电
中
工作
的
?
python
、
apache-spark
、
pyspark
、
user-defined-functions
我想了解
udf
在
火花放电
中
的
工作原理。每次我们
在
dataframe之上使用
udf
时,python都会打开吗?
浏览 0
提问于2018-11-26
得票数 1
回答已采纳
3
回答
设置--master选项时,Apache Spark -“初始作业未接受任何资源源”
apache-spark
、
pyspark
我
在
Digital Ocean上设置
的
集群
中使用Spark已经有几个星期了,有
一个
主站和
一个
从站,但我一直收到相同
的
错误“初始作业没有接受任何资源;检查你
的
集群
UI以确保工人已经注册并拥有足够
的
资源”。我不得不问,因为这里
或
互联网上都没有解决这个问题
的
答案。./bin&
浏览 1
提问于2015-10-13
得票数 0
1
回答
Pandas
的
PySpark
环境设置
python
、
amazon-web-services
、
dataframe
、
pyspark
、
bigdata
我正在尝试将
PySpark
数据
中
的
纬度/经度值转换为优步
的
H3十六进制系统。这是对函数h3.geo_to_h3(lat=lat, lng=lon, resolution=7)
的
非常直接
的
使用。但是,我
的
PySpark
集群
一直存在问题。conda pack -f -o
pyspark
_conda_env.tar.gz 我将创建火花
集群
时创建
的
tar.gz文件包括<e
浏览 6
提问于2021-07-15
得票数 2
回答已采纳
1
回答
火花纱-
客户端
模式
Python版本
python-3.x
、
apache-spark
、
pyspark
、
hadoop-yarn
我正在尝试用
PySpark
在
yarn
客户端
模式
下
运行
python模块。我
的
集群
上
的
默认python是2.6.6,我想使用Python3,它安装在我
的
集群
上
的
$/apps/anaconda/4.3.1/3/bin/python3.6路径
下
。当我通过下面的spark2-submit
运
浏览 0
提问于2017-11-12
得票数 3
6
回答
星火中
的
纱线客户
模式
是什么?
hadoop-yarn
、
apache-spark
Apache最近将版本更新为0.8.1,其中提供了
yarn
-client
模式
。我
的
问题是,纱线-客户
模式
到底意味着什么?文件
中
说: “本地启动”是什
浏览 5
提问于2013-12-27
得票数 53
回答已采纳
1
回答
在
Spark程序
中
访问Oozie配置
scala
、
oozie
、
oozie-workflow
我
在
.bash_profile中保存了
一个
环境变量。我正在尝试使用Scala
中
的
sys.env()方法通过Spark程序访问它。当我没有Oozie调度时,我能够正确地访问Spark
中
的
环境变量。然而,当我尝试使用Oozie调度我
的
程序时,程序抛出
一个
错误,它无法读取环境变量。这是我
的
workflow.xml: <workflow-app xmlns='uri:oozie:workflow:0.5' name=
浏览 1
提问于2020-01-14
得票数 0
1
回答
原因: java.lang.ClassCastException:无法将java.lang.invoke.SerializedLambda
的
实例分配给字段org.apache.spark.api.java.JavaRDDLike
java
、
eclipse
、
apache-spark
我
在
Eclipse Oxygen上编写了两个不同
的
代码。在前者
中
,Spark
的
主人是本地化
的
。前
一个
代码
的
主人是本地
的
,后
一个
代码
的
主人是
yarn
-client。但是后一段代码不能识别Java8
的
lambda表达式并带来错误。我不知道是什么结构
的
火花纱带来
的
错误。更新 让我展示一
下
Hadoop 2.7.4和Spark 2.2<e
浏览 2
提问于2017-10-08
得票数 0
4
回答
可以从代码
中
运行
spark
yarn
集群
吗?
java
、
apache-spark
、
hadoop-yarn
我有
一个
MapReduce任务,我想从我
的
java代码
中
在
Spark
YARN
集群
上
运行
它。我还想在java代码
中
检索reduce结果(字符串和数字对、元组)。类似于:// I want to executeSpar
浏览 0
提问于2016-02-20
得票数 5
1
回答
将
pyspark
pandas
_
udf
与AWS EMR配合使用时,出现"No module named '
pandas
‘“错误
python-3.x
、
apache-spark
、
pyspark
、
amazon-emr
、
apache-zeppelin
我
在
AWS EMR上使用齐柏林飞艇
运行
了这个网站()
的
代码。%
pyspark
from
pyspark
.sql.functions import
pandas
_
udf
, PandasUDFType df1 = spark.createDataFrameEMR环境
中
没有安装
pandas
,所以我使用命令"sudo python3 -m pip install <e
浏览 69
提问于2021-02-19
得票数 0
回答已采纳
1
回答
使用在内部定义了
udf
的
模块冻结
pyspark
作业-解释?
pyspark
、
apache-spark-sql
、
user-defined-functions
情况是这样
的
: 我们有
一个
模块,在其中我们定义了一些返回
pyspark
.sql.DataFrame (DF)
的
函数。为了获得这些DF,我们使用在同一文件
或
助手模块
中
定义
的
一些
pyspark
.sql.functions.
udf
。问题是,当我们这样做时,
udf
函数冻结了我们
的
工作。我们发现
的
令人讨厌
的
修复方法是
在
作业
中
定义
u
浏览 12
提问于2017-07-14
得票数 9
1
回答
混淆使用
Yarn
资源管理器
python
、
pyspark
、
hadoop-yarn
、
amazon-emr
我正尝试
在
Amazon AWS
中
运行
一个
简单
的
pyspark
作业,它被配置为通过spark-default.conf文件使用
Yarn
。我对
Yarn
部署代码有点困惑。(conf=conf) 在这种情况
下
,当指定了'
yarn
-client‘时,我不确定我应该如何执行spark作业。我通常这样做: $spark-submit --deploy-mode client spark-job.py 但是这两者
的
浏览 3
提问于2020-01-27
得票数 1
回答已采纳
3
回答
驱动程序是否
在
主节点上
运行
?
java
、
scala
、
amazon-web-services
、
apache-spark
我
在
AWS上启动了
一个
spark
集群
,有
一个
主机和60个内核:这是启动
的
命令,基本上每个核心2个
执行器
,总共120个
执行器
:然而,
浏览 0
提问于2016-01-22
得票数 10
1
回答
运行
pyspark
时获取Java输出
java
、
pyspark
、
jupyter-notebook
、
rapids
当我
在
Ubuntu上
的
Jupyter Notebook
中
运行
PySpark
时,我有时会遇到Java失败
的
问题。我想要看到
的
是Java端
的
错误,因为我所能看到
的
通常是Python
的
很长
的
一般性错误,可以总结为: ERROR:root:Exception while sending command.我为什么需要这些日志
的
例子是,例如,我试图
在
DGX-1机器上
的
浏览 7
提问于2021-02-02
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark 2.3重磅发布:欲与Flink争高下,引入持续流处理
Spark 2.4重磅发布:优化深度学习框架集成,提供更灵活的流式接收器
Spark 3.0重磅发布!开发近两年,流、Python、SQL重大更新全面解读
每天读一本:Spark快速大数据分析
如何在CDH集群上部署Python3运行环境及运行Python作业
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券