腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(8413)
视频
沙龙
2
回答
如
何在
pyspark
代码
中
从
python
访问
emrfs
文件系统
?
python
、
apache-spark
、
amazon-s3
、
pyspark
、
amazon-emr
我在亚马逊EMR上使用
pyspark
,需要
访问
存储在s3
中
emrfs
上的文件,无论我在哪里看,我都只能找到如何通过spark API
访问
emrfs
的示例,但我需要使用
python
代码
在执行器
中
访问
它。
浏览 9
提问于2020-01-21
得票数 0
2
回答
Livy在120秒内未找到带有标记livy-batch-10-hg3po7kp的纱线应用程序
apache-spark
、
amazon-s3
、
amazon-emr
、
livy
使用Livy通过从电子病历启动的POST请求执行存储在S3
中
的脚本。脚本会运行,但很快就会超时。我尝试过编辑livy.conf配置,但似乎所有更改都没有生效。
浏览 3
提问于2018-11-29
得票数 3
1
回答
我需要安装Hadoop才能使用
Pyspark
的所有方面吗?
python
、
apache-spark
、
hadoop
、
pyspark
我已经安装了
pyspark
,但没有单独安装任何hadoop或spark版本。显然,在Windows下,
pyspark
需要
访问
Hadoop的winutils.exe来做一些事情(例如,将文件写入磁盘)。当
pyspark
想要
访问
winutilis.exe时,它会在HADOOP_HOME环境变量(用户变量)指定的文件夹的bin目录
中
查找它。因此,我将winutils.exe复制到
pyspark
(.\site-packages\
pyspark
\bin)的bi
浏览 4
提问于2020-03-24
得票数 1
1
回答
有多少类型的HDFS集群,使用
Python
连接到HDFS集群的最佳方法是什么?
python
、
hadoop
、
hdfs
我认为这个标题很大程度上概括了我的需求,如果有人能发布多少类型的HDFS集群(Kerberos等),以及使用
python
对每种类型的集群使用的最佳库,我将不胜感激。 谢谢
浏览 3
提问于2022-02-03
得票数 1
回答已采纳
1
回答
在集群
中
的执行器上运行
python
脚本[Scala/Spark]
python
、
scala
、
apache-spark
、
hadoop
、
hdfs
我有
python
脚本: print("hello " + line)def run(spark我可以在
python
脚本
中
访问
星火会话吗?或者我可以在
python
脚本
中
创建一个文件并将其保存到hdfs
文件系统
中
?实际上,这正是我想要做的--我想在
python
脚本
中
创建csv
浏览 1
提问于2022-02-22
得票数 1
1
回答
无法
访问
主节点上文件的火花工作者节点
scala
、
apache-spark
、
amazon-emr
我正在尝试通过我的Scala
代码
连接Presto,并在EMR集群上运行它。我能够创建RDD,但是当工作节点试图获取数据时,
代码
会失败,说文件没有找到(keystore不存在),尽管它存在于主节点中。下面是我的
代码
和步骤s3-dist-cp --src s3://test/rootca_ca.jks --dest /tmp/ 然后,我使用以下命令运行以下
代码
浏览 1
提问于2021-01-14
得票数 1
回答已采纳
2
回答
Spark zeppelin:如
何在
%
pyspark
解释器
中
获取%sql结果?
apache-spark
、
pyspark
、
apache-spark-sql
、
apache-zeppelin
我知道我可以用 %
pyspark
where B.time_create > (unix_timestamp(NOW()) - 3600*24*30) *1000 group by C.name 如果我决定写一些
代码
来清理结果,我必须将上面的sql移到df = s
浏览 30
提问于2019-02-15
得票数 0
1
回答
是否可以使用S3的自定义凭据提供程序
从
Presto
中
的线程上下文中检索用户?
amazon-web-services
、
amazon-iam
、
presto
、
trino
为了让Presto能够
访问
S3上的数据,我需要能够为不同的用户(例如Bob -> role1和Brenda -> role2)承担不同的角色。我知道
EMRFS
提供了此功能,但是我们正在将Presto
从
EMR
中
移出,因此我们不能再使用
EMRFS
来完成此委托。Presto允许您为原生S3
文件系统
编写自己的S3 credential provider,但是它只有两个参数java.net.Uri和Hadoop org.apache.hadoop.conf.Configuration有
浏览 11
提问于2019-04-10
得票数 0
2
回答
Databricks -
pyspark
.pandas.Dataframe.to_excel不承认abfss协议
python
、
pandas
、
azure
、
apache-spark
、
azure-databricks
我想使用
Python
将Dataframe (
pyspark
.pandas.Dataframe)作为一个Excel文件保存在Azure数据湖Gen2上。我已经切换到
pyspark
.pandas.Dataframe,因为它是
从
Spark3.2开始推荐的。有一种名为to_excel (,文档)的方法允许将文件保存到ADL
中
的容器
中
,但我在
文件系统
访问
协议方面遇到了问题。在同一个类
中
,我使用了使用abfss的to_csv和to_parquet
浏览 32
提问于2022-05-11
得票数 0
回答已采纳
1
回答
从
Docker容器
中
运行的
Python
代码
访问
Windows CIFS共享
python
、
linux
、
docker
、
smb
、
cifs
我正在尝试
从
将在Docker容器
中
运行的
Python
代码
访问
多个Windows CIFS共享。我看到有多个中小企业库(
如
pysmb和smbprotocol )声称它们可用于
访问
通用it
文件系统
共享,但我没有设法使其正常工作,也没有在网上看到一个用于
访问
通用it
文件系统
共享的示例。我知道一种解决方案是在主机上挂载共享并将其挂载到容器,但如果可能的话,我宁愿避免这种情况,因为
代码
将需要
访问</e
浏览 71
提问于2021-02-09
得票数 1
2
回答
如何将数据
从
Google PubSub主题流到
PySpark
( Google上)
python
、
pyspark
、
streaming
、
google-cloud-pubsub
我可以看到使用简单
Python
代码
的数据:def callback(message): message.ack() future.result() 上面的
python
代码
从
Google PubSub主题(使用订阅服务器subscriber_n
浏览 1
提问于2018-09-17
得票数 1
2
回答
如
何在
Hue中加载和执行
Python
脚本?
python
、
hadoop
、
hdfs
、
hue
我是一个新的Hadoop用户,正在尝试通过Hue界面运行
Python
脚本。经过一番搜索,我在cloudera论坛找到了一个解决方案: 海报上写道:“解决方案是将
python
脚本放在Libs字段的Hue -> query -> Editor -> Spark
中
,其中包含
python
但是,我不知道如何加载&然后在Hadoop分布式
文件系统
中
执行我的
Python
脚本。Hue界面似乎没有显示我的根的HDFS特性&允许文件上传。我是将
P
浏览 11
提问于2019-01-04
得票数 0
回答已采纳
1
回答
如何将软件或其他包添加到docker容器?
python
、
selenium
、
docker
、
jenkins
、
containers
我
从
docker hub拉取了jenkins容器,如下所示:容器运行,我可以在以下位置
访问
Jenkins UI:我的问题是: 如果我想要创建一个
从
github库中提取的jenkins作业,并且我想从该库的一个测试文件
中
运行一些
python
测试,我如何安装额外的包,
如
virtualenvwrapper, pip, pytestdocker容器似乎不与本地主机
文件系统
浏览 2
提问于2017-07-19
得票数 8
10
回答
使用
pyspark
创建spark数据帧时出现Py4J错误
python
、
apache-spark
、
pyspark
我已经在
python
3.6
中
安装了
pyspark
,并且我正在使用jupyter notebook来初始化一个spark会话。from
pyspark
.sql import SparkSessionfrom
pyspark
import SparkContextprint(sc.ver
浏览 0
提问于2018-03-02
得票数 11
1
回答
ArrayWritable的
Pyspark
用法
hadoop
、
apache-spark
、
pyspark
我尝试在
pyspark
上保存一个键值RDD。RDD的每个单元都有这样的类型,用伪
代码
编写:我想把它保存在hadoop
文件系统
上。import
pyspark
as spark, math sc = spark.SparkContextsc.parallelize(map(constructor,range(2,61))
浏览 2
提问于2015-12-01
得票数 2
2
回答
如何使用AWS Glue
python
作业
从
python
脚本
中
获取job_id?
python
、
amazon-web-services
、
aws-glue
我正在尝试
从
该作业的脚本
访问
AWS
Python
作业id。这是您可以在AWS控制台的第一列中看到的RunID,类似于jr_5fc6d4ecf0248150067f2。如
何在
AWS Glue
python
shell作业
中
以编程方式获得它? 注意:
python
作业与AWS Glue
中
的
pyspark
作业不一样。
浏览 2
提问于2022-03-31
得票数 0
回答已采纳
2
回答
电火花广播大阵列(~ 8GB)
python
、
apache-spark
、
python-3.4
、
pyspark
在
Pyspark
中
,我试图广播一个大小约为8GB的大型numpy数组。但是它失败了,错误是"OverflowError:无法序列化大于4GiB的字符串“。我有15g执行器内存和25g驱动内存。
浏览 2
提问于2016-01-25
得票数 1
回答已采纳
8
回答
Python
工作人员未能连接回
python
、
windows
、
apache-spark
、
pyspark
、
local
\lib\
pyspark
.zip\
pyspark
\worker.py", line 25, in <module> File "C:\Spark\spark-2.4.0-bin-hadoop2.7\
python
\lib\<
浏览 6
提问于2018-11-11
得票数 20
回答已采纳
1
回答
使用
pyspark
从
s3读取流数据
numpy
、
amazon-web-services
、
amazon-s3
、
apache-spark
、
pyspark
我想利用
python
的极其简单的文本解析和函数式编程能力,并利用丰富的科学计算库,
如
numpy和scipy,因此我想使用
pyspark
来完成一项任务。我一开始要执行的任务是从一个存储桶
中
读取数据,其中有文本文件作为流的一部分被写入。有人可以粘贴一个
代码
片段,说明如何使用
pyspark
从
s3路径
中
读取流数据吗?直到最近我还以为只能使用scala和java才能做到这一点,但我今天才发现Spark1.2以后的版本,
pyspark
也支持流媒体
浏览 1
提问于2015-04-11
得票数 2
2
回答
斯卡拉是星火的必备品吗?
scala
、
apache-spark
在它的文档
中
,它说它可以在Scala或
Python
中使用。 一些博客说,火花依赖于scala (例如,)。因此,我想知道:scala是Spark的必修课吗?
浏览 2
提问于2014-12-21
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Windows和PC机上搭建Spark+Python开发环境的详细步骤
pyspark 安装
Jupyter在美团民宿的应用实践
从入门到精通-Fayson带你玩转CDH
如何在CDH集群上部署Python3运行环境及运行Python作业
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
云直播
活动推荐
运营活动
广告
关闭
领券