丢弃坏记录，只将好记录从pyspark中的json文件加载到dataframe

apache-spark、pyspark、apache-spark-sql

API生成的json文件如下所示。JSON文件的格式不正确。我们是否可以使用pyspark处理坏的记录，丢弃并只将好的行加载到dataframe中。Fairchild') \ .config('spark.executor.memory', '

浏览 27提问于2020-01-17得票数 0

回答已采纳

1回答

pyspqrk sql配置单元表中存在错误数据

apache-spark、hive、pyspark、apache-spark-sql、pyspark-sql

我正在尝试使用Pyspark中包含25亿条记录的Hive表。我假设表中有一些格式错误的或其他“坏”数据。我使用的是spark版本1.6.2和python版本2.6.6：from pyspark.sql import从Hive CLI访问整个表似乎工作得很好。我假设有一些Spark由于某种原因无法处理的记

浏览 1提问于2017-01-28得票数 1

1回答

有没有一种方法可以使用AWS胶水作业将“好”记录仅写入SQL Server表并返回“坏”记录？

sql-server、amazon-web-services、apache-spark、pyspark、aws-glue

我正在尝试编写一个粘合(PySpark)作业，执行一些ETL，并最终将数据写入SQL Server中的一个表(在AWS Glue Catalog中定义)。在将记录写入SQL Server表时，可能有一些约束(例如:主键、外键、列类型)阻止某些记录(即“坏”记录)被写入到表中。发生这种情况时，Glue作业会抛出一个错误，并且作业会失败。相反，是否可以只写入“好”记录，并将违反SQL Server<em

浏览 9提问于2019-04-10得票数 0

1回答

使用pyspark如何拒绝csv文件中的坏(格式错误)记录，并将这些被拒绝的记录保存到新文件中

apache-spark、pyspark、pyspark-sql

我正在使用pyspark将数据从csv文件加载到dataframe中，并且我能够在删除格式错误的记录的同时加载数据，但是我如何才能拒绝csv文件中的这些错误(错误格式)记录，并将这些被拒绝的记录保存在新文件中

浏览 11提问于2019-01-15得票数 2

回答已采纳

1回答

pyspark json读取标记错误记录

json、pyspark、schema、corrupt-data

我想使用pyspark来解析带有json数据的文件，并想标记‘坏/意外’记录。所谓“坏/意外记录”，是指那些不遵循我指定的模式的记录。我有这个输入文件，并且想要指定模式。当数据按照模式采用预期的格式时，它会起作用。(inp1.json)当输入文件中的数据格式不正确时，它不起

浏览 30提问于2019-01-31得票数 0

2回答

如何使用Database将数据从Azure Blob存储增量加载到Azure SQL数据库？

azure、azure-sql-database、azure-blob-storage、azure-data-factory、azure-data-factory-pipeline

我在Azure Blob存储中存储了一个json文件，并使用将其加载到Azure中。现在，我想找到一种方法，以便只将新记录从文件加载到我的数据库(因为该文件大约每周更新一次)。有办法吗？谢谢!

浏览 3提问于2021-11-08得票数 0

回答已采纳

1回答

如何在pyspark中查找不符合规则的行

python-3.x、pyspark、databricks

我正在尝试查找和隔离某些列不遵循特定模式的行。我从databricks文档中找到了以下示例，用于识别和检查列值是否为整数，并将错误记录写入json文件。我想确定一个列值是否像1,245.00，而坏记录是否像1.245,00。这些值可以改变位数，只想检查数据是否像pyspark中的1,245.00那样遵循模式。有时在原始数据中，逗号和点是互换的。谁能告诉我如何像下面的例子一样在ba

浏览 28提问于2020-07-16得票数 0

1回答

Pyspark:使用dataframe在hive分区表上用新数据替换旧数据

apache-spark、hive、pyspark

您能指导我使用pyspark(dataframe)在特定的hive分区上用新数据替换旧数据吗？每个月我都会收到一些县的记录。我想用该分区上的新数据替换旧数据。我已经使用pyspark开发了脚本，并在数据帧中加载了特定分区的新数据。现在，我想单独为该分区用新数据替换旧数据(因为基表很大)。我尝试删除该分区并附加新的数据帧。Overwrite"丢弃了该表

浏览 8提问于2016-08-16得票数 2

1回答

使用Databricks将Google的结果写入一个数据湖

python、apache-spark、azure-data-lake、databricks、google-api-python-client

作为一名C#程序员，我对Python很陌生:我目前的方法是从api请求1000个记录的第一页，然后将它直接作为JSON文件写入datalake，然后获取下一个页面集并编写它。这意味着第二个进程需要将JSON读取到一个数据文件中，在这里我可以转换它并将它写成块(这个部分也是直接的)。一旦我将它转换成一个dataframe，我就可以轻松地以任何格式编写它，但是，将它从Json转换为<e

浏览 0提问于2019-04-11得票数 2

回答已采纳

1回答

如何在PySpark中读取大型JSON文件

json、azure、pyspark、rdd、azure-hdinsight

问题HDInsight PySpark似乎不支持JSON文件格式的数组输入，所以我被困住了。问题如何在PySpark 2中使用HDInsight上的开箱即用功

浏览 1提问于2018-02-10得票数 0

回答已采纳

2回答

无法在JS中合并JSON

javascript、jquery、json

我对合并JSON有问题。我有一个ajax查询，它向我的数据库询问记录。不幸的是，我必须设置返回记录限制(1000条记录)。我的数据库里有3122条记录。这意味着我必须创建一个4个查询。我用JSON从数据库接收记录。每次查询之后，我都会尝试合并旧的JSON和新的JSON。不幸的是，目前我只覆盖了我的</

浏览 3提问于2014-04-08得票数 0

回答已采纳

1回答

如何在星火数据中对N条记录进行分组

python、python-3.x、apache-spark、pyspark

，每个json文件都有500个记录和如下的特殊结构： "entry": [ "row_id": "1", "col2": "value" ], "last_updated":"09-09-2021T

浏览 5提问于2021-09-30得票数 0

回答已采纳

1回答

如何将多个文本文件读入pyspark中的数据文件中

sql、dataframe、pyspark、rdd、databricks

我在一个目录中有一些包含json数据的txt文件(我只有路径，而没有文件的名称)，我需要将它们全部读取到dataframe中。我试过这个：但是我甚至不能显示数据，我的主要目标是在数据上以不同的方式预置查询。

浏览 5提问于2020-06-18得票数 2

回答已采纳

1回答

Spark - JSON字符串空数组显示为字符串

json、scala、apache-spark、dataframe、hive

我正在尝试使用spark-shell和Scala将一些JSON文件的数据加载到HIVE。to json>) df.show() 问题是我的json文件中的一些字段是字符串数组如果任何给定的文件都有一条具有有效

浏览 3提问于2018-05-21得票数 0

3回答

在Python中具有不同数组长度的JSON文件

python、arrays、json、eda

到目前为止我使用的代码如下import jsonjson_url = 'https://www.nomisweb.co.uk/api/v01/dataset/NM_31_1.jsonstat.json' j = requests.get(url=json_url) # load the jsoncon

浏览 1提问于2019-02-27得票数 0

3回答

PySpark:如何读取多个JSON文件，每个文件多个记录

json、amazon-s3、apache-spark、pyspark

我在JSON存储桶中存储了一个大型数据集，但它不是单个大型文件，而是由许多(准确地说是113K)单独的S3文件组成，每个文件包含100-1000个观测值。我正在尝试使用Spark/PySpark (1.1.1版)来解析和减少这些数据，但是我找不到正确的方法将其加载到RDD中，因为它既不是所有记录>一个文件(在这种情况下，我将使用sc.textFile，尽管这里增加了

浏览 0提问于2015-02-24得票数 4

2回答

ETL的字段特定错误

sql、ssis、etl、talend

我正在MS中创建一个ETL进程，我希望有特定于特定行的特定列的错误。例如，数据最初从excel文件加载到一个表(我们将调用初始表)，其中所有列都是varchar(2000)，然后我将数据放到另一个包含更特定数据类型(datetime、int等)的表中。文件)。或者你会采取什么样的手工编码方法？我曾经考虑过使用SQL的几种方法(直到没有，我已经在SQL中手工完成了ETL，但我想考虑

浏览 4提问于2010-02-18得票数 1

回答已采纳

2回答

如何有效加载和处理包含不同、不断发展的模式的JSON文件

json、apache-spark、pyspark、apache-spark-sql

下面是数据库转储中的一个示例JSON文件：{"payload": {"这是我当前的工作流程(高级)：查找此批更改

浏览 0提问于2021-08-24得票数 1

回答已采纳

1回答

使用Spark获取值超过某个阈值的所有列的名称

python、apache-spark、pyspark、emr

Bakgrounddf = spark.read.csv(path, schema=schema, sep='|')我们使用的是PySpark和AWS (5.4.0版)和Spark2.1.0。问题url,category1

浏览 0提问于2017-04-25得票数 3

回答已采纳

1回答

使用phonegap，什么是存储数据的好方法？

cordova

我从服务器上以JSON格式将数据下载到应用程序。每个数据记录包含大约10个不同的字段，主要是较短的字符串，有些可能更长。也就是说，我有一个可能包含256个字符的描述字段。处理这些数据的好方法是什么？它是否足够小，可以保存在我的</em

浏览 3提问于2013-02-07得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

pyspqrk sql配置单元表中存在错误数据

有没有一种方法可以使用AWS胶水作业将“好”记录仅写入SQL Server表并返回“坏”记录？

使用pyspark如何拒绝csv文件中的坏(格式错误)记录，并将这些被拒绝的记录保存到新文件中

pyspark json读取标记错误记录

如何使用Database将数据从Azure Blob存储增量加载到Azure SQL数据库？

如何在pyspark中查找不符合规则的行

Pyspark:使用dataframe在hive分区表上用新数据替换旧数据

使用Databricks将Google的结果写入一个数据湖

如何在PySpark中读取大型JSON文件

无法在JS中合并JSON

如何在星火数据中对N条记录进行分组

如何将多个文本文件读入pyspark中的数据文件中

Spark - JSON字符串空数组显示为字符串

在Python中具有不同数组长度的JSON文件

PySpark:如何读取多个JSON文件，每个文件多个记录

ETL的字段特定错误

如何有效加载和处理包含不同、不断发展的模式的JSON文件

使用Spark获取值超过某个阈值的所有列的名称

使用phonegap，什么是存储数据的好方法？

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐