腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
ADLS -从SQL
模式
的Databricks访问ADLS
databricks
、
aws-databricks
在
Databricks
中
,当我尝试为.But
模式
进行
身份
验证
得到下面的错误时,我们可以基于
Python
模式
下的以下身份
验证
码来访问ADLS文件。请帮助我们了解如何在sql
中
声明身份
验证
。
Python
:
spark
.conf.set("fs.azure.account.key.<your-storage-account-name>.dfs.core.window
浏览 13
提问于2021-03-02
得票数 0
1
回答
使用
python
在
spark
中
进行
模式
验证
python
、
dataframe
、
validation
、
types
、
pyspark
虽然,当我尝试
验证
length - like - df.withcolumn("len_freq",when(length(df"Freq") > dic"Freq",False).otherwise(
浏览 19
提问于2020-03-31
得票数 0
2
回答
Databricks Delta和Hive事务表
apache-spark
、
hive
、
databricks
、
delta-lake
我从两个来源看到,现在你不能以任何有意义的方式与
Spark
的HIVE事务表
进行
交互。 我看到Databricks发布了一个名为的事务性功能。现在可以
使用
此功能读取配置单元事务性表吗?
浏览 0
提问于2018-12-13
得票数 2
1
回答
Spark
json
模式
验证
json
、
scala
、
apache-spark
、
validation
、
schema
我
使用
python
library Draft7Validator ()为每个文件测试json
模式
。不幸的是,它很慢,
在
scala/java中有没有一个库,我可以
在
Spark
中
使用
它来
验证
每个文件的json
模式
。
浏览 0
提问于2020-07-16
得票数 1
1
回答
使用
LDAP对任何Apache web UI
进行
身份
验证
java
、
apache-spark
、
kubernetes
、
ldap
我正在寻找一种将LDAP身份
验证
引入我的Apache的方法。这包括主
Spark
和
Spark
历史服务器。
Spark
实例
在
Kubernetes集群
中
运行,并通过
Spark
操作符和独立
模式
启动。
在
正式文档
中
, “为Web启用身份
验证
是
使用
完成的。您将需要一个实现要部署的身份
验证
方法的筛选器。
Spark
不提供任何内置身份
验证
过滤器。”<
浏览 9
提问于2020-12-14
得票数 1
1
回答
利用Dataframes和SQL提高PySpark的性能
apache-spark
、
pyspark
、
apache-spark-sql
我目前正在读取一个包含数百个CSV文件的公共AWS桶
中
的所有文本文件。我一次读取所有CSV文件,然后将它们转换为RDD,并开始按摩数据,以便将其存储
在
Cassandra
中
。我也尝试过阅读这个,但是我对如何实现一些提到的东西感到困惑,比如“
使用
正确的并行级别”。我还尝试通过执行rdd.cache将我的RDD存储
在
缓存
中
,但这仍然花费了两个多小时。conf = SparkConf() \ .setMaster("
spark
://%s:%s
浏览 3
提问于2017-02-13
得票数 1
2
回答
从
Spark
作业执行sudo命令
apache-spark
、
sudo
我正在尝试以集群
模式
从
Spark
scala作业执行
python
脚本,如下所示。._ 我收到"sudo:需要密码“消息。我尝试
在
文件末尾
使用
'sudo visudo‘为用户设置
中
解释的NOPASSWD,如下所示:然而,它并没有起作用。
浏览 0
提问于2018-10-22
得票数 0
1
回答
使用
Kubernetes
在
客户端
模式
下运行
spark
的两个独立映像,
使用
Apache-
Spark
3.2.0的
Python
?
python
、
docker
、
apache-spark
、
kubernetes
我
使用
以下脚本部署了Apache
Spark
3.2.0,该脚本从
Python
的分发文件夹
中
运行: ./kubernetes/dockerfiles/
spark
/bindings/
python
/Dockerfile build 我可以
使用
Spark
-Submit
在
K8s下创建一个容器。我的目标是运行为客户端
模式
与本地
模式
配置的
spa
浏览 37
提问于2021-11-15
得票数 1
2
回答
在
纱线集群
模式
下运行
python
火花作业
python
、
apache-spark
、
hadoop-yarn
这里出现了一个问题,当我
使用
星火运行的pi.py脚本,当我
使用
纱线-客户端
模式
时,一切都很好。但是,当我
使用
纱线-集群
模式
时,作业无法启动,容器返回如下语法错误:上传时间:清华5月21日08:48:16 +0800 2015日志内容:
浏览 2
提问于2015-05-21
得票数 2
回答已采纳
1
回答
如何
使用
星火提交集群
模式
进行
认证?
apache-spark
我想从本地机器远程运行
spark
-submit,将作业提交到
spark
集群(集群
模式
)。我应该
使用
什么方法向集群
进行
身份
验证
?
浏览 1
提问于2015-07-27
得票数 0
4
回答
Spark
dataframe to arrow
scala
、
apache-spark
、
dataframe
、
apache-arrow
我
在
Python
中
使用
Apache Arrow和
Spark
已经有一段时间了,通过
使用
Pandas作为中介,我可以很容易地
在
dataframes和Arrow对象之间
进行
转换。然而,最近我为了与
Spark
进行
交互而从
Python
转到了Scala,
在
Scala (Java)中
使用
Arrow并不像在
Python
中
那样直观。我的基本需求是尽快将
Sp
浏览 58
提问于2017-07-28
得票数 11
2
回答
spark
-submit流程
在
作业完成后不会自动终止
apache-spark
、
pyspark
、
spark-submit
我
在
yarn的客户端
模式
下
使用
spark
-submit提交一个pyspark作业。历史以及Yarn
中
验证
这一点。即使
在
Job完成之后,我仍然看到
spark
-submit进程在运行,并且它不会终止。 我希望从调用提交作业的调用程序
中
返回一个作业状态(Jenkins
使用
通过ssh发布插件)。有没有办法确保
spark
-submit进程
在
完成任务后以正确的退出代码终止? 我已经尝试过停止<
浏览 333
提问于2020-10-02
得票数 0
1
回答
使用
python
可执行文件提交
Spark
作业,而不是
spark
-submit
apache-spark
、
pyspark
、
spark-submit
在
PySpark程序
中
,一旦将pyspark模块添加到path
中
,就可以导入from pyspark.sql import SparkSession并实例化SparkSession。什么时候可以
使用
python
3可执行文件(例如
python
3 myApp.py而不是
spark
-submit myApp.py?)提交pyspark作业?我已经
在
客户端
模式
下对其
进行
了本地测试,似乎运行良好。那么cluster
模式
浏览 62
提问于2021-02-06
得票数 0
1
回答
验证
CSV文件PySpark
csv
、
apache-spark
、
dataframe
、
pyspark
我正在尝试
验证
csv文件(每条记录的列数)。根据下面的链接,
在
Databricks 3.0
中
有处理它的选项。df =
spark
.read .parquet("/input/parquetFile") 但是,我
使用
的是2.3版本的
spark
,不能
使用
该选项。有没有办法找出c
浏览 1
提问于2018-11-21
得票数 1
1
回答
流式作业失败-状态架构不兼容问题
apache-spark-sql
、
spark-structured-streaming
我的流作业现在失败了,错误如下,流作业几乎工作了2个月,而且它是完全无状态的转换,只需要将新行追加到目标增量表
中
。
在
流式传输之前,我手动提供了csv文件的
模式
,甚至
验证
了流式作业
模式
和下游表
模式
都与数据类型完全匹配。 不确定,为什么即使
在
无状态转换
中
,我也会得到下面的错误。任何帮助都将不胜感激。File "/databricks/
spark
/
python
/lib
浏览 2
提问于2021-06-11
得票数 1
2
回答
如何
使用
火花-卡桑德拉-连接器连接火花和卡桑德拉?
python
、
apache-spark
、
jar
、
cassandra
、
datastax
您必须原谅我的noobness,但我正在尝试设置一个连接到运行
python
脚本的cassandra的星火集群,目前我正在
使用
datastax企业
在
solr搜索
模式
下运行cassandra。我理解,为了
使用
datastax提供的火花- cassandra连接器,您必须在分析
模式
下运行cassandra(
使用
-k选项)。目前,我只
使用
dse火花版本使其工作,为此,我遵循了接下来的步骤:
在
分析
模式
下启动dse cas
浏览 3
提问于2016-05-06
得票数 1
回答已采纳
2
回答
德尔塔湖独立于阿帕奇火花?
apache-spark
、
delta-lake
我一直
在
探索data lakehouse和Delta Lake的概念。它的一些功能看起来真的很有趣。就在项目主页上,有一张图表显示了Delta
在
“您现有的数据湖”上运行,但没有提到
Spark
。在其他地方,它表明德尔塔湖迪兹运行在
Spark
之上。所以我的问题是,它可以独立于
Spark
运行吗?例如,我可以
在
不
使用
Spark
的架构
中
,
使用
S3存储桶来设置Delta Lake,以便以Parquet格式
进行
存
浏览 2
提问于2021-04-20
得票数 3
4
回答
触发
Python
错误"FileNotFoundError:[WinError 2]系统找不到指定的文件“
python
、
python-3.x
、
apache-spark
、
pyspark
我是斯派克和
Python
的新手。我
在
windows上安装了
python
3.5.1和
Spark
-1.6.0-bin-hadoop2.4。("local", "Simple App")SparkContext,第245行,
在
_ensu
浏览 4
提问于2016-02-17
得票数 8
1
回答
运行
spark
.read.json时
在
json中找到重复列,即使没有重复列
azure
、
pyspark
、
apache-spark-sql
、
azure-synapse
在
PySpark和Synapse数据流
中
,我遇到了非常奇怪的错误。文件"/opt/
spark
浏览 3
提问于2021-11-25
得票数 0
3
回答
无法通过
spark
scala程序
验证
cassandra群集
scala
、
apache-spark
、
cassandra
、
cassandra-3.0
、
spark-cassandra-connector
我从某个地方获取数据并每天将其插入cassandra,然后我需要从cassandra检索整个星期的数据,并
进行
一些处理并将结果插入到cassandra上。 at org.apache.
spark
.rdd.RDD.computeOrReadCheckpoint(RD
浏览 23
提问于2018-09-06
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
使用Python进行VNC身份验证检查
使用 Dask在Python 中进行并行计算
摆脱繁琐的步骤,使用代码在Python中轻松进行数据可视化!
使用 logzero在Python 中进行简单日志记录
在ubuntu中使用vscode中调试python
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券