亚马逊Deequ的Pyspark版本_如何使用亚马逊Deequ检查'column1‘的值是否在'column2’的+-20%范围内？_Pyspark -希望创建双列的规范化版本 - 腾讯云开发者社区

、、、、

我正在开发AWS Glue，并将pyspark API用于我的ETL。我相信如果我需要使用Amazon Deequ，我需要切换到Scala。然而，我仍然希望contine使用Pyspark API。

浏览 31提问于2020-10-04得票数 1

回答已采纳

1回答

皮度曲投掷Py4JJavaError

、、

我安装了以下Pydeequ：import osfrom pyspa

浏览 35提问于2022-09-17得票数 1

1回答

亚马逊Deequ (星火+ Scala )- java.lang.NoSuchMethodError：'scala.Option scala.Option

、、、、

火种版- 3.0.1 亚马逊Deequ版本-Deque-2.0.0-星星之火-3.1.jarimport com.amazon.deequ.analyzers.runners{AnalysisRunner, AnalyzerContext} import com.amazon.deequ.analyzers.runners.AnalyzerContext.successMetricsAsDataFrameimport

浏览 7提问于2021-11-01得票数 1

回答已采纳

1回答

如何将PyDeequ作业从木星笔记本提交给火花/纱线

、

如何设置用于非AWS环境的环境？ 50 """ 51 df = ensure_pyspark_df_jvm.com.amazon.deequ.analyze

浏览 20提问于2021-08-16得票数 0

回答已采纳

2回答

在Scala中使用Deequ计算指标

、、

我是Scala和Amazon Deequ的新手。我被要求编写一个Scala代码，通过在存储在S3上的源csv文件上使用Deequ来计算约束上的指标(例如Completeness、CountDistinct等)，并将生成的指标加载到粘合表中，该表将进一步用于报告有没有人能帮我指出正确的方向，找到能帮助我实现这一目标的在线资源？我对Scala和Deequ都是新手。那么，谁能给我一个示例Scala代码，并解释如何使用deequ库，等等？如果

浏览 1提问于2019-09-19得票数 1

1回答

类型参数不符合特征类型参数界限。

、、

我使用的是一个由亚马逊在scala 中编写的库trait Analyzer[S <: State[_], +M <: Metric[_]]我得到了以下错误： error: type arguments [_$1,com.amazon.deequ.metrics.Metric[_

浏览 13提问于2022-01-20得票数 1

1回答

在AWS Glue上使用Deequ

、、

我在AWS GLUE上使用Deequ，令人惊讶的是，当我要运行检查verificationSuite下面列出的hasMaxLength时。我得到了下面的错误，有人能帮助我吗？所有其他检查都通过/运行。它说check hasMaxLength不是amazon.deequ.checks的成员下载:s3://stg-dev-ire- KLLParameters /jars/deequ.导入com.amazon.deequ.a

浏览 6提问于2021-02-04得票数 0

2回答

无法在本地运行amazon示例

、

精确误差 at com.amazon.deequ.profiles.ColumnProfilerRunBuilderFileOutputOptions<init>(CompleteIfCompleteRule.scala:25) at co

浏览 1提问于2020-11-10得票数 0

回答已采纳

1回答

什么是兼容所有依赖项才能使用Amazon Deequ

、、、、

我已经写了亚马逊迪库的代码，这是由于版本问题而失败。在我的系统中Spark 2.4.0是可用的，有没有人能建议一下哪个版本的Deequ和Scala，fasterxml等兼容使用？我得到了像检测到多个Scala版本的信息。我正在使用Deequ的最新版本或尝试其他一些最新的版本。我得到了多个版本的

浏览 161提问于2021-08-24得票数 0

2回答

*在apache中运行**pyspark* conf spark.jars.packages=com.amazon.deequ:deequ:1.0.2***时出错*

、、

我已经在ubuntu:16.04和它的所有依赖项上安装了Apache-Spark2.4.4版本。安装后，我将运行下面提到的pyspark命令。spark.jars.packages=com.amazon.deequ:deequ:1.0.2 -火花放电运行此命令后，我将得到dir -/home/username/. in 2/中缺少的文件错误

浏览 17提问于2020-05-23得票数 2

1回答

PyDeequ hasPattern失败，因为“PatternMatch”对象没有属性“_Check”

、、

我试图使用hasPattern()运行模式检查示例代码“PyDeequ ()”，但异常情况下会失败import pydeequ .builder assertion=lambda

浏览 11提问于2022-03-23得票数 1

回答已采纳

2回答

如何修复对Jupyter笔记本的依赖？ModuleNotFoundError:没有名为“boto3”的模块

、、

我正在运行PySpark内核。GCC 7.3.1 20180712 (Red Hat 7.3.1-6)] 打印(sys.executable)显示 /tmp/1594625399736-0/bin/python 我已经安装了boto3的Conda

浏览 56提问于2020-07-13得票数 1

回答已采纳

1回答

单元试验火花放电和蓄能器

、、、

我试图用Python测试我的Spark代码，但是每当我的测试代码运行时，我的所有累加器都是空的。但是，当我在本地运行没有模拟的代码时，代码工作正常，累加器也有值。下面是一个精简的代码版本：from typing import Anyfrom pyspark.sqlrow.asDict())) return list(

浏览 3提问于2022-03-31得票数 0

回答已采纳

1回答

在Apache pyspark环境上运行python脚本的AWS设置

、、、

需要通过运行python脚本，在pyspark框架上运行RDD，在数据集上执行数据分析和创建可视化。寻找一些帮助，如果我们可以在AWS上做到这一点，而不是在本地计算机(VM)上做到这一点。似乎我们在亚马逊网络服务中有几个可用选项，使用电子病历或EC2，但不确定相关的步骤和定价，即使我们在亚马逊网络服务中提供12个月的免费试用选项。有谁能帮帮忙。

浏览 3提问于2017-12-24得票数 0

3回答

在亚马逊网络服务s3a存储上写入大文件时出现问题

、、

我在上传大文件到s3a时遇到了一个无法解释的问题。我使用带有spark-2.4.4-bin-hadoop2.7和Spark DataFrame的EC2实例来写入V4版本的s3a。但当我在将拼图文件写入s3a的过程中对一个12 GB的csv文件执行同样的操作时，出现了一个错误：状态代码: 403，亚马逊服务:亚马逊S3，亚马逊服务请求ID: 2CA5F6E85BC36E8D，亚马逊网络服务错误代码:

浏览 6提问于2019-09-09得票数 1

1回答

如何通过DataFrames在PySpark中使用窗口函数？

、、、

尝试弄清楚如何在PySpark中使用窗口函数。这里有一个我希望能够做的例子，简单地计算用户发生“事件”的次数(在这种情况下，"dt“是一个模拟的时间戳)。from pyspark.sql.window import Window df = sqlContext.createDataFrame使用窗口函数的正确方法是什么？我读到1.4.1 (我们需要使用的

浏览 2提问于2015-09-25得票数 5

回答已采纳

2回答

没有用于方案的FileSystem :带有pyspark的s3

、、

我试图用Spark从S3中读取一个txt文件，但我得到了他的错误：这是我的代码：这是完整的</em

浏览 1提问于2017-10-14得票数 18

回答已采纳

1回答

用于Python应用程序的混合操作系统环境中的分布式数据存储建议(Hadoop与其他)

、、、、

我正在从事一个大数据项目，并有几台旧的on服务器运行多种操作系统(Ubuntu、CentOS、Windows 2012、Windows 10)。我想要分布式存储解决方案的一个主要原因是，我正在以非常快的速度收集大量数据，并且试图将所有数据写入单个磁盘会使磁盘不堪重负，这将导致数据丢失。数据收集算法是100% Python。我对分布式数据存储的选择感到不知所措，而且在过去的几年里，这个空间似乎发展得很快。Hadoop似乎一直是大数据的首选解决方案，但它看起来很难配置，特别是在Windows

浏览 0提问于2019-05-13得票数 0

1回答

如何使用pyspark从s3存储桶中读取csv文件

、、、

我使用的是Apache Spark 3.1.0和Python 3.9.6。我正在尝试从亚马逊网络服务的S3存储桶中读取csv文件，如下所示： spark = SparkSession.builder.getOrCreate()os.e

浏览 167提问于2021-08-25得票数 2

回答已采纳

2回答

在AWS中监视python shell胶合作业

、、

在亚马逊网络服务的文档中，他们指定了如何激活对Spark作业()的监控，但不是python外壳作业。使用原样的代码会给出这个错误：ModuleNotFoundError: No module named 'pyspark' 更糟糕的是，在注释掉from pyspark.context import SparkContext

浏览 0提问于2020-05-22得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云