如何在pyspark中查找不符合规则的行

在pyspark中查找不符合规则的行，可以通过以下步骤进行：

导入必要的库和模块：

from pyspark.sql import SparkSession
from pyspark.sql.functions import col

创建一个SparkSession对象：

spark = SparkSession.builder.appName("InvalidRowsSearch").getOrCreate()

读取数据文件并创建一个DataFrame对象：

df = spark.read.csv("data.csv", header=True, inferSchema=True)

这里的"data.csv"是数据文件的路径，可以根据实际情况进行修改。

定义一个规则函数，用于判断行是否符合规则：

def check_rule(row):
    # 判断逻辑，根据实际需求进行修改
    if row["column1"] == "value1" and row["column2"] > 100:
        return False
    else:
        return True

这里的"column1"和"column2"是数据中的列名，"value1"是规则要求的值，">"是规则要求的操作符，100是规则要求的阈值。可以根据实际需求进行修改。

应用规则函数并筛选出不符合规则的行：

invalid_rows = df.filter(~col("check_rule")(col("column1"), col("column2")))

这里使用了filter函数和~操作符来筛选出不符合规则的行，filter函数的参数是一个布尔表达式。

打印结果或保存到文件：

invalid_rows.show()
# 或
invalid_rows.write.csv("invalid_rows.csv", header=True)

这里的"invalid_rows.csv"是保存结果的文件路径，可以根据实际需求进行修改。

关于pyspark中查找不符合规则的行的完善答案，可以参考以下链接：

pyspark官方文档：https://spark.apache.org/docs/latest/api/python/
pyspark教程：https://sparkbyexamples.com/pyspark-tutorial/
pyspark常用函数：https://sparkbyexamples.com/pyspark/pyspark-functions/
pyspark过滤器函数：https://spark.apache.org/docs/latest/api/python/reference/api/pyspark.sql.functions.col.html

推荐腾讯云的相关产品：

腾讯云Spark计算引擎：https://cloud.tencent.com/product/spark
腾讯云云数据库TDSQL for PostgreSQL：https://cloud.tencent.com/product/dcdb-postgresql
腾讯云云原生容器引擎TKE：https://cloud.tencent.com/product/tke
腾讯云内容分发网络CDN：https://cloud.tencent.com/product/cdn

如何在pyspark中查找不符合规则的行

、、

我正在尝试查找和隔离某些列不遵循特定模式的行。我从databricks文档中找到了以下示例，用于识别和检查列值是否为整数，并将错误记录写入json文件。这些值可以改变位数，只想检查数据是否像pyspark中的1,245.00那样遵循模式。有时在原始数据中，逗号和点是互换的。谁能告诉我如何像下面的例子一样在badrecordpath中收集这样的记录？tmp/badRecordsPath") .

浏览 28提问于2020-07-16得票数 0

1回答

PySpark正在删除列中无效的日期时间格式

、、、

我的日期时间字段格式是: 2016-10-15 00:00:00在使用推断模式将我的数据保存到拼图文件时，我有一些行不符合此格式。它在我的UDF中引起了问题。

浏览 0提问于2017-01-02得票数 1

1回答

如何将索引转换为PySpark DataFrame？

、、、

我有一个PySpark DataFrame，类似：------------|201 |efgh ||133 |mnop|mylist = ['abcd', 'ijkl', 'efgh', 'efgh', 'abcd', 'ijkl', 'ijkl'] 我希望使用pyspar

浏览 2提问于2019-08-20得票数 1

回答已采纳

1回答

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

、、、

如何在DataFrame中为流PySpark设置架构。from pyspark.sql import SparkSessionfrom pyspark.sql.functionsformat('socket')\ .option('port',

浏览 3提问于2016-12-29得票数 3

回答已采纳

1回答

用火花放电流到HBase

、、、

在线上有相当数量的关于使用Scala进行星火流的批量加载的信息( 是特别有用的)，以及一些用于PySpark的信息，但是使用PySpark似乎缺乏这样的信息。所以我的问题是：任何语言中的大多数示例都只显示每一行上的一个列。如何在每一行中</

浏览 2提问于2016-01-29得票数 3

1回答

我不知道如何在Resharper Ultimate Extension for Visual Studio 2015 Update 3中为C++语言应用命名风格。我的操作系统是Windows10。其他语言(如C#)都工作得很好，而我的C++语言只有这个问题。在ReSharper>Options>Code Editing>C++>Naming风格中，我规定类名都是小写的。我尝试运行“清理代码”、“查找代码问题”和“检查当前项目的代

浏览 18提问于2017-02-13得票数 0

回答已采纳

2回答

infopath 2010:规则和重复表格

、、

我有一个6列的重复表。该字段中的前十位数字，即第一个数字，将在数据库中查找，并检索与此号码匹配的电子邮件地址。然后将电子邮件地址放在第6栏的文本框中。我的第一次尝试是在第5栏中的文本框上的一个规则，当它更改查找电子邮件地址时，但这只

浏览 5提问于2013-11-20得票数 0

回答已采纳

1回答

本地主机或url上的Laravel验证

、、、

目前，我正在尝试使用active_url来验证数据库设置中的url字段。但是，我也希望允许用户输入"localhost“。这不符合active_url的规则。如何在通过active_url或匹配"localhost“的文本字段上设置验证规则？

浏览 2提问于2014-10-03得票数 2

回答已采纳

2回答

跟踪规则的SQL

、

我正在使用MS，并有一个存储过程，其中我根据某些规则评估事务，并根据这些规则将每一行标记为合格或不合格。例如，前一年的交易是不合格的，某些产品可能不符合资格。我顺序地应用规则，并在eligCode定义为int的字段中记录不合格的第一个原因。但我似乎不知道如何在</em

浏览 1提问于2015-04-22得票数 0

回答已采纳

1回答

Iptables正在阻止WildFly10上的CentOS 7

、、、

WildFly 10正在使用更改的套接字将http端口8080绑定到standalone.xml中的80。我使用以下命令在iptable中打开80个端口：# iptables -A OUTPUT-p tcp -m tcp --dport 80 -j ACCEPT 但是，在我停止iptables之前，服务器仍然是不可访问的。

浏览 0提问于2016-01-09得票数 2

回答已采纳

1回答

在Pyspark* 2.4中使用StructType验证列的模式*

、、

我有一个dataframe，它的一个列是一个JSON字符串 from pyspark.sql import SparkSessionimportpyspark.sql.functions as F (1, """{"key1": true,true, [[foo, bar], true]]| |2 |[t

浏览 21提问于2019-09-19得票数 0

4回答

在数据上查找SQL查询LIKE ('1077%')运算符

、、、

在以下数据(一行)上查找LIKE ('1077%')运算符的sql查询。(columns name)结果应为(前3行)01 -迪拜1077703 -迪拜107790

浏览 1提问于2014-12-19得票数 0

3回答

如何查找Tomcat中运行的servlet的实例数？

、、

我非常理解Servlet在默认情况下是多线程的，即使在服务多个请求时，容器中也只会运行它的一个实例。但是，这个规则的唯一例外是servlet实现SingleThreadModel接口时。我的问题是:如何在给定的时间点查找在容器(如Tomcat )中运行的servlet的实例数？

浏览 4提问于2015-08-21得票数 2

回答已采纳

1回答

pyspark中对应的行id是什么？

、、

在我们遗留DWH过程中，我们根据传统RDBMS中的rowid查找重复记录并跟踪重复记录。将仅返回对应最大记录的重复记录。在pySpark中有没有类似的东西？如何在dwh到pyspark dwh转换项目中处理此问题？

浏览 11提问于2019-11-10得票数 0

回答已采纳

3回答

在每个索引处生成具有唯一值的多个数字序列

、、、、

我希望用数字1:n添加第二行，但是这些行应该是随机的，同时满足以下条件：而在下列情况下2+7的组合出现两次(位

浏览 6提问于2012-01-12得票数 5

回答已采纳

1回答

在使用PySpark时，如何在Spark中实现Python数据结构？

、、、

我目前正在自学Spark programming，并试图用PySpark重新编写一个现有的Python应用程序。然而，我仍然对如何在PySpark中使用常规Python对象感到困惑。我了解Spark中的分布式数据结构，如RDD、DataFrame、Datasets、vector等。Spark有自己的转换操作和动作操作，如.map()、.reduceByKey()来操作这些对象。但是，如果我在PySpark中创建传统<

浏览 34提问于2017-03-01得票数 1

回答已采纳

1回答

PySpark与and解析

、、、、

如何使用argparse为PySpark脚本指定命令行参数？我一直在为这件事绞尽脑汁，我发誓我在别的地方找不到解决办法。这是我的测试脚本：from pyspark.sql import SparkSession parser = argparse.ArgumentParserTerminalIPythonApp] CRITICAL | Unrecognized flag: '--v1' 但是，当我没有指定参数(只是spark-submit file.p

浏览 0提问于2020-04-27得票数 2

回答已采纳

1回答

如何在使用AWS Glue时查找更新的行？

、、、

我正在尝试对从RDS迁移到Redshift的数据使用Glue for ETL。据我所知，胶水书签只查找使用指定主键的新行，而不跟踪更新的行。但是，我正在处理的数据往往有频繁更新的行，我正在寻找可能的解决方案。我对pyspark还是个新手，所以如果可以在pyspark中做到这一点，我将非常感谢一些指导或正确方向的观点。如果在Spark之外还有可能

浏览 13提问于2019-01-26得票数 4

回答已采纳

1回答

如何根据行的内容拆分pyspark数据

、、、、

我想根据DataFrame中一行的第一个字符来分割文件。原始数据有一列，数据包括输入样例文件(Pyspark)： 3文件名放在DataFrame的column2中，文件的内容放置在DataFrame的column2中。预

浏览 3提问于2019-10-10得票数 1

回答已采纳

1回答

如何突出显示Excel中不符合确切格式的单元格？

、、

当试图将数据从Access数据库文件导出到SQL server 2012时，我收到了错误的数据。经过调查，我发现了导致错误的表格和列。该列包含日期'mm/dd/yyyy‘格式的数据，似乎有一些错误的条目。因此

浏览 4提问于2016-10-28得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在pyspark中查找不符合规则的行

相关·内容

如何在pyspark中查找不符合规则的行

PySpark正在删除列中无效的日期时间格式

如何将索引转换为PySpark DataFrame？

使用套接字的火花结构化流，设置模式，在控制台中显示DATAFRAME

用火花放电流到HBase

如何为C++应用ReSharper终极命名样式

infopath 2010:规则和重复表格

本地主机或url上的Laravel验证

跟踪规则的SQL

Iptables正在阻止WildFly10上的CentOS 7

在Pyspark* 2.4中使用StructType验证列的模式*

在数据上查找SQL查询LIKE ('1077%')运算符

如何查找Tomcat中运行的servlet的实例数？

pyspark中对应的行id是什么？

在每个索引处生成具有唯一值的多个数字序列

在使用PySpark时，如何在Spark中实现Python数据结构？

PySpark与and解析

如何在使用AWS Glue时查找更新的行？

如何根据行的内容拆分pyspark数据

如何突出显示Excel中不符合确切格式的单元格？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐