腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
架构
详细信息
创建
dataframe
时
,
Dataproc
上
出现
Pyspark
错误
pyspark
、
anaconda
、
google-cloud-dataproc
我有一个带Anaconda的
Dataproc
集群。我已经
创建
了一个虚拟环境。在anaconda my-env中,因为我需要在那里安装开源RDkit,因此我再次安装了
PySpark
(而不是
使用
预先安装的)。现在,
使用
下面的代码,我在my-env中得到了
错误
,但在my-env之外没有得到
错误
代码: from
pyspark
.sql.types import StructField, StructType,StringType, LongType fro
浏览 40
提问于2020-01-29
得票数 1
1
回答
在
Dataproc
上
获取
Pyspark
join失败
python
、
pyspark
、
gcp
、
google-cloud-dataproc
我试图在
Dataproc
集群
上
运行一些python
pyspark
脚本,但失败了,
错误
如下:if isinstance(on[0], basestring): IndexError
浏览 0
提问于2018-01-05
得票数 0
3
回答
由于python版本而运行
PySpark
DataProc
作业
时
出错
python-3.x
、
apache-spark
、
google-cloud-dataproc
我
使用
以下命令
创建
dataproc
集群--initialization-actions \然而,当我提交我的
PySpark
作业
时
,我得到了以下
错误
例外情况: worker中的Python版本与
浏览 0
提问于2018-07-19
得票数 7
回答已采纳
1
回答
在
Dataproc
上
在Anaconda中导入
PySpark
错误
pyspark
、
anaconda
、
google-cloud-dataproc
我已经用Anaconda作为附加组件构建了一个
Dataproc
集群。我
创建
了一个虚拟env。并在里面安装了RDkit。现在我的问题是,当我打开python终端并尝试这样做
时
:它抛出
错误
: 我可以在Anaconda中安装
PySpark
,然后它就可以工作
浏览 2
提问于2020-01-28
得票数 1
1
回答
尝试在数据处理工作流中
使用
PySpark
读取BigQuery表
时
出现
问题
google-cloud-platform
、
pyspark
、
google-cloud-dataproc
我正在尝试
使用
GCP +
Dataproc
+
PySpark
自动化一个过程。bash脚本
创建
的
Dataproc
工作流
使用
: #Creating the job File "/roo
浏览 28
提问于2021-04-29
得票数 0
2
回答
如何从google云加载文件到作业
python
、
google-cloud-platform
、
pyspark
、
pickle
我将文件存储在驱动器“/content/驱动器/My/bd-cw2”文件名pickleRdd
上
,与作业read_rdd.py相同追溯(最近一次调用):文件"/tmp/18dcd2bf5c104f01b6d25ea6919b7cfc在colab
上
运行时,所有操作都很好,只能在群集
上
运行时才能访问。
浏览 2
提问于2020-05-20
得票数 0
回答已采纳
1
回答
在星星之火的
dataproc
集群
上
运行特定的虚拟Run提交就像在香草星火中一样
pyspark
、
virtualenv
、
google-cloud-dataproc
当我在普通星火集群
上
运行,并且想要针对特定的虚拟环境运行一个
pyspark
脚本
时
,我可以
创建
虚拟环境,根据需要安装包,然后将环境压缩到一个文件中,比如venv.zip。当我在
dataproc
上
这样做
时
,首先,hadoop风格的散列不起作用,其次,运行 gcloud
dataproc
jobs submit
pyspark
script.py --archives venv.zip--cluster <CLUSTER_NAME&g
浏览 4
提问于2017-10-26
得票数 1
回答已采纳
2
回答
将Python项目提交到
Dataproc
作业
python
、
pyspark
、
google-cloud-dataproc
script') \ return x+y 我想在GCP中作为
Dataproc
我正在尝试
使用
以下命令启动脚本 gcloud
dataproc
jobs submit
pyspark
--cluster=$CLUSTER_NAME --region=$REGION \ run/script.py 但我收到以下
错误
消息: from lib.lib
浏览 27
提问于2020-04-23
得票数 4
1
回答
直接在GCP
dataproc
集群
上
启动的交互式
pyspark
会话默认表单元的
错误
apache-spark
、
hive
、
pyspark
、
google-cloud-platform
、
google-cloud-dataproc
--conf spark.speculation=Truedf = spark.read.parquet('gs://path/to/my/data') df.groupBy('somethi
浏览 0
提问于2019-01-23
得票数 1
1
回答
使用
套接字的火花结构化流,设置模式,在控制台中显示
DATAFRAME
apache-spark
、
pyspark
、
apache-spark-sql
、
spark-structured-streaming
如何在
DataFrame
中为流
PySpark
设置
架构
。from
pyspark
.sql import SparkSessionfrom
pyspark
.sql.functions\ .getOrCreate() # Create
DataFrame
representi
浏览 3
提问于2016-12-29
得票数 3
回答已采纳
2
回答
Dataproc
(StackOverFlowError)中的
Pyspark
检查点
apache-spark
、
pyspark
、
google-cloud-dataproc
当我
使用
pyspark
持久化数据集
时
,我遇到了堆叠溢出
错误
。我将整个
dataframe
转换为双类型,然后坚持计算统计数据,我读到检查点是堆栈溢出的解决方案。但是,在
dataproc
中实现它有困难。 我正在
使用
pyspark
,当我检查
dataframe
并
使用
df.isCheckpointed()进行检查
时
,它返回false。但是,当我调试它
时
,df.rdd.is_checkpoi
浏览 0
提问于2018-07-31
得票数 0
2
回答
在google-
dataproc
星火库集群中
使用
pyspark
作业中的外部库。
import
、
apache-spark
、
pyspark
、
google-cloud-dataproc
我通过
创建
了一个星星团。我希望能够从databricks中
使用
csv库(请参阅)。所以我第一次测试是这样的:
pyspark
--packages com.databricks:spark-csv_2.11:1.2.0gcloud beta
dataproc
jobs submit
pyspark
--cluster <my-
dat
浏览 1
提问于2015-10-27
得票数 6
回答已采纳
1
回答
GCP
Dataproc
自定义图像Python环境
python
、
google-cloud-platform
、
pyspark
、
google-cloud-dataproc
我有一个问题,当我
创建
一个
DataProc
自定义图像和
Pyspark
。我的自定义镜像基于
DataProc
1.4.1-debian9,并
使用
我的初始化脚本从一个requirements.txt文件安装python3和一些包,然后设置python3环境变量以强制
pyspark
使用
python3。但是,当我在
使用
此镜像
创建
的集群
上
提交作业
时
(为简单起见,
使用
单节点标志),该作业找不到已
浏览 23
提问于2019-07-12
得票数 7
回答已采纳
1
回答
GCP
Dataproc
-在提交无法工作的作业
时
添加多个包(kafka,mongodb)
apache-spark
、
google-cloud-platform
、
dependency-management
、
spark-structured-streaming
、
dataproc
我正在尝试在提交
dataproc
pyspark
作业
时
添加kafka & mongoDB包,但是这是失败的。到目前为止,我只
使用
了kafka包,这很好,但是当我尝试在下面的命令中添加mongoDB包
时
,会
出现
错误
--cluster versa-structured-stream
浏览 9
提问于2022-05-24
得票数 0
回答已采纳
1
回答
pyspark
.pandas API:构造共生矩阵,.dot()不支持数据作为输入。
python
、
pandas
、
apache-spark
、
pyspark
我试图
使用
pyspark
.pandas API在数据库
上
构造数据的共生矩阵。该代码在熊猫中运行良好,但在
使用
pyspark
.pandas
时
出现
了
错误
。coocc = psdf.T.dot(psdf)我得到了这个
错误
我查过医生了。
pyspark
.pandas.
DataFra
浏览 8
提问于2022-10-14
得票数 0
回答已采纳
4
回答
如何在谷歌的
dataproc
火花公子
上
运行python3
python-3.x
、
configuration
、
pyspark
、
google-cloud-platform
、
google-cloud-dataproc
我想通过Google平台
dataproc
运行一个
pyspark
作业,但是我不知道如何设置
pyspark
来运行python3,而不是默认的2.7。我能找到的最好的方法就是添加这些(a) python命令仍然是python2,cluster_config = { "clusterName": c
浏览 0
提问于2017-08-23
得票数 9
回答已采纳
1
回答
Pyspark
:云存储中来自多个文件的增量ETL
python
、
apache-spark
、
pyspark
、
google-bigquery
、
google-cloud-dataproc
这些文件存储在google云存储
上
,
pyspark
在google
dataproc
上
运行,有几个工作节点。 我已经
创建
了一个
pyspark
文件,它基本
上
只是迭代文件并按原样加载到bigquery中。我以为我会在bigquery表
上
看到增量加载,但似乎
pyspark
会将整个gz输入文件合并到
dataframe
中,然后立即处理它。所以我在大约90分钟后得到了结果。我如何编写
pyspark
代码,以便每次读
浏览 22
提问于2021-10-10
得票数 1
1
回答
将
PySpark
会话连接到
DataProc
pyspark
、
dataproc
我试图将本地运行的
PySpark
会话连接到
DataProc
集群。我希望能够处理gcs
上
的文件而不下载它们。我的目标是
使用
本地星火进行临时分析,然后在我准备扩展
时
切换到一个更大的集群。我意识到
DataProc
在Yarn
上
运行Spark,并且我已经在本地复制了yar-site.xml。我还打开了从本地机器到
DataProc
主节点的ssh隧道,并为set中标识的端口设置了端口转发。但它似乎不起作用,当我试图在木星笔记本
上
创建</em
浏览 4
提问于2022-01-02
得票数 0
回答已采纳
2
回答
PySpark
配置单元SQL -未插入数据
python
、
sql
、
apache-spark
、
hive
、
insert-into
我想插入一些数据,我的表“测试”通过一个
pySpark
脚本(火种的python)。我首先在HUE的图形界面中为Hive
创建
了一个表"animals“,感谢下面的查询:于是我买了一张新桌子。我写这个脚本是为了给它添加一个新行(1,dog):from
pyspark
import SparkContext from
pyspark
.sq
浏览 2
提问于2018-01-25
得票数 0
1
回答
Dataproc
主节点和工作节点之间的不同Python版本
pyspark
、
google-cloud-dataproc
我用Anaconda作为可选组件
创建
了一个
dataproc
集群,并
创建
了一个虚拟env。在那里面。现在,当在主节点
上
运行
pyspark
py文件
时
,我得到了这个
错误
- 例外情况: worker中的Python版本与驱动程序3.6中的版本不同,
PySpark
无法运行不同的次要versions.Please检查环境变量
PYSPARK
_PYTHON和
PYSPARK
_DRIVER_PYTHON。下面的命令在我的主节点<em
浏览 4
提问于2020-01-30
得票数 3
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python开源数据分析工具TOP 3!
PySaprk之DataFrame
Dataiku DSS Code Recipe 介绍
大数据下Python的三款大数据分析工具
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券