腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(7395)
视频
沙龙
1
回答
亚马逊
Deequ
的
Pyspark
版本
、
、
、
、
我正在开发AWS Glue,并将
pyspark
API用于我
的
ETL。我相信如果我需要使用Amazon
Deequ
,我需要切换到Scala。然而,我仍然希望contine使用
Pyspark
API。
浏览 31
提问于2020-10-04
得票数 1
回答已采纳
1
回答
皮度曲投掷Py4JJavaError
、
、
我安装了以下Pydeequ:import osfrom
pyspa
浏览 35
提问于2022-09-17
得票数 1
1
回答
亚马逊
Deequ
(星火+ Scala )- java.lang.NoSuchMethodError:'scala.Option scala.Option
、
、
、
、
火种版- 3.0.1
亚马逊
Deequ
版本
-Deque-2.0.0-星星之火-3.1.jarimport com.amazon.
deequ
.analyzers.runners{AnalysisRunner, AnalyzerContext} import com.amazon.
deequ
.analyzers.runners.AnalyzerContext.successMetricsAsDataFrameimport
浏览 7
提问于2021-11-01
得票数 1
回答已采纳
1
回答
如何将PyDeequ作业从木星笔记本提交给火花/纱线
、
如何设置用于非AWS环境
的
环境? 50 """ 51 df = ensure_
pyspark
_df_jvm.com.amazon.
deequ
.analyze
浏览 20
提问于2021-08-16
得票数 0
回答已采纳
2
回答
在Scala中使用
Deequ
计算指标
、
、
我是Scala和Amazon
Deequ
的
新手。我被要求编写一个Scala代码,通过在存储在S3上
的
源csv文件上使用
Deequ
来计算约束上
的
指标(例如Completeness、CountDistinct等),并将生成
的
指标加载到粘合表中,该表将进一步用于报告有没有人能帮我指出正确
的
方向,找到能帮助我实现这一目标的在线资源?我对Scala和
Deequ
都是新手。那么,谁能给我一个示例Scala代码,并解释如何使用
deequ
库,等等?如果
浏览 1
提问于2019-09-19
得票数 1
1
回答
类型参数不符合特征类型参数界限。
、
、
我使用
的
是一个由
亚马逊
在scala 中编写
的
库trait Analyzer[S <: State[_], +M <: Metric[_]]我得到了以下错误: error: type arguments [_$1,com.amazon.
deequ
.metrics.Metric[_
浏览 13
提问于2022-01-20
得票数 1
1
回答
在AWS Glue上使用
Deequ
、
、
我在AWS GLUE上使用
Deequ
,令人惊讶
的
是,当我要运行检查verificationSuite下面列出
的
hasMaxLength时。我得到了下面的错误,有人能帮助我吗?所有其他检查都通过/运行。它说check hasMaxLength不是amazon.
deequ
.checks
的
成员 下载:s3://stg-dev-ire- KLLParameters /jars/
deequ
.导入com.amazon.
deequ
.a
浏览 6
提问于2021-02-04
得票数 0
2
回答
无法在本地运行amazon示例
、
精确误差 at com.amazon.
deequ
.profiles.ColumnProfilerRunBuilderFileOutputOptions<init>(CompleteIfCompleteRule.scala:25) at co
浏览 1
提问于2020-11-10
得票数 0
回答已采纳
1
回答
什么是兼容所有依赖项才能使用Amazon
Deequ
、
、
、
、
我已经写了
亚马逊
迪库
的
代码,这是由于
版本
问题而失败。在我
的
系统中Spark 2.4.0是可用
的
,有没有人能建议一下哪个
版本
的
Deequ
和Scala,fasterxml等兼容使用?我得到了像检测到多个Scala
版本
的
信息。我正在使用
Deequ
的
最新
版本
或尝试其他一些最新
的
版本
。我得到了多个
版本
的
浏览 161
提问于2021-08-24
得票数 0
2
回答
在apache中运行*
pyspark
conf spark.jars.packages=com.amazon.
deequ
:
deequ
:1.0.2***时出错
、
、
我已经在ubuntu:16.04和它
的
所有依赖项上安装了Apache-Spark2.4.4
版本
。安装后,我将运行下面提到
的
pyspark
命令。spark.jars.packages=com.amazon.
deequ
:
deequ
:1.0.2 -火花放电 运行此命令后,我将得到dir -/home/username/. in 2/中缺少
的
文件错误
浏览 17
提问于2020-05-23
得票数 2
1
回答
PyDeequ hasPattern失败,因为“PatternMatch”对象没有属性“_Check”
、
、
我试图使用hasPattern()运行模式检查示例代码“PyDeequ ()”,但异常情况下会失败import pydeequ .builder assertion=lambda
浏览 11
提问于2022-03-23
得票数 1
回答已采纳
2
回答
如何修复对Jupyter笔记本
的
依赖?ModuleNotFoundError:没有名为“boto3”
的
模块
、
、
我正在运行
PySpark
内核。GCC 7.3.1 20180712 (Red Hat 7.3.1-6)] 打印(sys.executable)显示 /tmp/1594625399736-0/bin/python 我已经安装了boto3
的
Conda
浏览 56
提问于2020-07-13
得票数 1
回答已采纳
1
回答
单元试验火花放电和蓄能器
、
、
、
我试图用Python测试我
的
Spark代码,但是每当我
的
测试代码运行时,我
的
所有累加器都是空
的
。但是,当我在本地运行没有模拟
的
代码时,代码工作正常,累加器也有值。下面是一个精简
的
代码
版本
:from typing import Anyfrom
pyspark
.sqlrow.asDict())) return list(
浏览 3
提问于2022-03-31
得票数 0
回答已采纳
1
回答
在Apache
pyspark
环境上运行python脚本
的
AWS设置
、
、
、
需要通过运行python脚本,在
pyspark
框架上运行RDD,在数据集上执行数据分析和创建可视化。寻找一些帮助,如果我们可以在AWS上做到这一点,而不是在本地计算机(VM)上做到这一点。似乎我们在
亚马逊
网络服务中有几个可用选项,使用电子病历或EC2,但不确定相关
的
步骤和定价,即使我们在
亚马逊
网络服务中提供12个月
的
免费试用选项。 有谁能帮帮忙。
浏览 3
提问于2017-12-24
得票数 0
3
回答
在
亚马逊
网络服务s3a存储上写入大文件时出现问题
、
、
我在上传大文件到s3a时遇到了一个无法解释
的
问题。我使用带有spark-2.4.4-bin-hadoop2.7和Spark DataFrame
的
EC2实例来写入V4
版本
的
s3a。但当我在将拼图文件写入s3a
的
过程中对一个12 GB
的
csv文件执行同样
的
操作时,出现了一个错误: 状态代码: 403,
亚马逊
服务:
亚马逊
S3,
亚马逊
服务请求ID: 2CA5F6E85BC36E8D,
亚马逊
网络服务错误代码:
浏览 6
提问于2019-09-09
得票数 1
1
回答
如何通过DataFrames在
PySpark
中使用窗口函数?
、
、
、
尝试弄清楚如何在
PySpark
中使用窗口函数。这里有一个我希望能够做
的
例子,简单地计算用户发生“事件”
的
次数(在这种情况下,"dt“是一个模拟
的
时间戳)。from
pyspark
.sql.window import Window df = sqlContext.createDataFrame使用窗口函数
的
正确方法是什么?我读到1.4.1 (我们需要使用
的
浏览 2
提问于2015-09-25
得票数 5
回答已采纳
2
回答
没有用于方案
的
FileSystem :带有
pyspark
的
s3
、
、
我试图用Spark从S3中读取一个txt文件,但我得到了他
的
错误:这是我
的
代码:这是完整
的</em
浏览 1
提问于2017-10-14
得票数 18
回答已采纳
1
回答
用于Python应用程序
的
混合操作系统环境中
的
分布式数据存储建议(Hadoop与其他)
、
、
、
、
我正在从事一个大数据项目,并有几台旧
的
on服务器运行多种操作系统(Ubuntu、CentOS、Windows 2012、Windows 10)。我想要分布式存储解决方案
的
一个主要原因是,我正在以非常快
的
速度收集大量数据,并且试图将所有数据写入单个磁盘会使磁盘不堪重负,这将导致数据丢失。数据收集算法是100% Python。我对分布式数据存储
的
选择感到不知所措,而且在过去
的
几年里,这个空间似乎发展得很快。Hadoop似乎一直是大数据
的
首选解决方案,但它看起来很难配置,特别是在Windows
浏览 0
提问于2019-05-13
得票数 0
1
回答
如何使用
pyspark
从s3存储桶中读取csv文件
、
、
、
我使用
的
是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从
亚马逊
网络服务
的
S3存储桶中读取csv文件,如下所示: spark = SparkSession.builder.getOrCreate()os.e
浏览 167
提问于2021-08-25
得票数 2
回答已采纳
2
回答
在AWS中监视python shell胶合作业
、
、
在
亚马逊
网络服务
的
文档中,他们指定了如何激活对Spark作业()
的
监控,但不是python外壳作业。使用原样
的
代码会给出这个错误:ModuleNotFoundError: No module named '
pyspark
' 更糟糕
的
是,在注释掉from
pyspark
.context import SparkContext
浏览 0
提问于2020-05-22
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark安装+Jupyter Notebook配置
如何在CDH集群上部署Python3运行环境及运行Python作业
编程字典-详细的PySpark环境设置
半小时搭建 spark 应用
0485-如何在代码中指定PySpark的Python运行环境
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券