腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(295)
视频
沙龙
1
回答
丢弃
坏
记录
,
只将
好
记录
从
pyspark
中
的
json
文件
加
载到
dataframe
apache-spark
、
pyspark
、
apache-spark-sql
API生成
的
json
文件
如下所示。
JSON
文件
的
格式不正确。我们是否可以使用
pyspark
处理
坏
的
记录
,
丢弃
并
只将
好
的
行加
载到
dataframe
中
。Fairchild') \ .config('spark.executor.memory', '
浏览 27
提问于2020-01-17
得票数 0
回答已采纳
1
回答
pyspqrk sql配置单元表
中
存在错误数据
apache-spark
、
hive
、
pyspark
、
apache-spark-sql
、
pyspark-sql
我正在尝试使用
Pyspark
中
包含25亿条
记录
的
Hive表。我假设表中有一些格式错误
的
或其他“
坏
”数据。我使用
的
是spark版本1.6.2和python版本2.6.6:from
pyspark
.sql import
从
Hive CLI访问整个表似乎工作得很好。我假设有一些Spark由于某种原因无法处理
的
记
浏览 1
提问于2017-01-28
得票数 1
1
回答
有没有一种方法可以使用AWS胶水作业将“
好
”
记录
仅写入SQL Server表并返回“
坏
”
记录
?
sql-server
、
amazon-web-services
、
apache-spark
、
pyspark
、
aws-glue
我正在尝试编写一个粘合(
PySpark
)作业,执行一些ETL,并最终将数据写入SQL Server
中
的
一个表(在AWS Glue Catalog
中
定义)。在将
记录
写入SQL Server表时,可能有一些约束(例如:主键、外键、列类型)阻止某些
记录
(即“
坏
”
记录
)被写入到表
中
。发生这种情况时,Glue作业会抛出一个错误,并且作业会失败。相反,是否可以只写入“
好
”
记录
,并将违反SQL Server<em
浏览 9
提问于2019-04-10
得票数 0
1
回答
使用
pyspark
如何拒绝csv
文件
中
的
坏
(格式错误)
记录
,并将这些被拒绝
的
记录
保存到新
文件
中
apache-spark
、
pyspark
、
pyspark-sql
我正在使用
pyspark
将数据
从
csv
文件
加
载到
dataframe
中
,并且我能够在删除格式错误
的
记录
的
同时加载数据,但是我如何才能拒绝csv
文件
中
的
这些错误(错误格式)
记录
,并将这些被拒绝
的
记录
保存在新
文件
中
浏览 11
提问于2019-01-15
得票数 2
回答已采纳
1
回答
pyspark
json
读取标记错误
记录
json
、
pyspark
、
schema
、
corrupt-data
我想使用
pyspark
来解析带有
json
数据
的
文件
,并想标记‘
坏
/意外’
记录
。所谓“
坏
/意外
记录
”,是指那些不遵循我指定
的
模式
的
记录
。我有这个输入
文件
,并且想要指定模式。当数据按照模式采用预期
的
格式时,它会起作用。(inp1.
json
)当输入
文件
中
的
数据格式不正确时,它不起
浏览 30
提问于2019-01-31
得票数 0
2
回答
如何使用Database将数据
从
Azure Blob存储增量加
载到
Azure SQL数据库?
azure
、
azure-sql-database
、
azure-blob-storage
、
azure-data-factory
、
azure-data-factory-pipeline
我在Azure Blob存储
中
存储了一个
json
文件
,并使用将其加
载到
Azure
中
。现在,我想找到一种方法,以便
只将
新
记录
从
文件
加
载到
我
的
数据库(因为该
文件
大约每周更新一次)。有办法吗? 谢谢!
浏览 3
提问于2021-11-08
得票数 0
回答已采纳
1
回答
如何在
pyspark
中
查找不符合规则
的
行
python-3.x
、
pyspark
、
databricks
我正在尝试查找和隔离某些列不遵循特定模式
的
行。我
从
databricks文档中找到了以下示例,用于识别和检查列值是否为整数,并将错误
记录
写入
json
文件
。我想确定一个列值是否像1,245.00,而
坏
记录
是否像1.245,00。这些值可以改变位数,只想检查数据是否像
pyspark
中
的
1,245.00那样遵循模式。 有时在原始数据
中
,逗号和点是互换
的
。谁能告诉我如何像下面的例子一样在ba
浏览 28
提问于2020-07-16
得票数 0
1
回答
Pyspark
:使用
dataframe
在hive分区表上用新数据替换旧数据
apache-spark
、
hive
、
pyspark
您能指导我使用
pyspark
(
dataframe
)在特定
的
hive分区上用新数据替换旧数据吗?每个月我都会收到一些县
的
记录
。我想用该分区上
的
新数据替换旧数据。我已经使用
pyspark
开发了脚本,并在数据帧中加载了特定分区
的
新数据。现在,我想单独为该分区用新数据替换旧数据(因为基表很大)。 我尝试删除该分区并附加新
的
数据帧。Overwrite"
丢弃
了该表
浏览 8
提问于2016-08-16
得票数 2
1
回答
使用Databricks将Google
的
结果写入一个数据湖
python
、
apache-spark
、
azure-data-lake
、
databricks
、
google-api-python-client
作为一名C#程序员,我对Python很陌生:我目前
的
方法是
从
api请求1000个
记录
的
第一页,然后将它直接作为
JSON
文件
写入datalake,然后获取下一个页面集并编写它。这意味着第二个进程需要将
JSON
读取到一个数据
文件
中
,在这里我可以转换它并将它写成块(这个部分也是直接
的
)。一旦我将它转换成一个
dataframe
,我就可以轻松地以任何格式编写它,但是,将它从
Json
转换为<e
浏览 0
提问于2019-04-11
得票数 2
回答已采纳
1
回答
如何在
PySpark
中
读取大型
JSON
文件
json
、
azure
、
pyspark
、
rdd
、
azure-hdinsight
问题HDInsight
PySpark
似乎不支持
JSON
文件
格式
的
数组输入,所以我被困住了。问题 如何在
PySpark
2
中
使用HDInsight上
的
开箱即用功
浏览 1
提问于2018-02-10
得票数 0
回答已采纳
2
回答
无法在JS
中
合并
JSON
javascript
、
jquery
、
json
我对合并
JSON
有问题。 我有一个ajax查询,它向我
的
数据库询问
记录
。不幸
的
是,我必须设置返回
记录
限制(1000条
记录
)。我
的
数据库里有3122条
记录
。这意味着我必须创建一个4个查询。我用
JSON
从
数据库接收
记录
。每次查询之后,我都会尝试合并旧
的
JSON
和新
的
JSON
。不幸
的
是,目前我只覆盖了我
的</
浏览 3
提问于2014-04-08
得票数 0
回答已采纳
1
回答
如何在星火数据
中
对N条
记录
进行分组
python
、
python-3.x
、
apache-spark
、
pyspark
,每个
json
文件
都有500个
记录
和如下
的
特殊结构: "entry": [ "row_id": "1", "col2": "value" ], "last_updated":"09-09-2021T
浏览 5
提问于2021-09-30
得票数 0
回答已采纳
1
回答
如何将多个文本
文件
读入
pyspark
中
的
数据
文件
中
sql
、
dataframe
、
pyspark
、
rdd
、
databricks
我在一个目录中有一些包含
json
数据
的
txt
文件
(我只有路径,而没有
文件
的
名称),我需要将它们全部读取到
dataframe
中
。我试过这个:但是我甚至不能显示数据,我
的
主要目标是在数据上以不同
的
方式预置查询。
浏览 5
提问于2020-06-18
得票数 2
回答已采纳
1
回答
Spark -
JSON
字符串空数组显示为字符串
json
、
scala
、
apache-spark
、
dataframe
、
hive
我正在尝试使用spark-shell和Scala将一些
JSON
文件
的
数据加
载到
HIVE。to
json
>) df.show() 问题是我
的
json
文件
中
的
一些字段是字符串数组如果任何给定
的
文件
都有一条具有有效
浏览 3
提问于2018-05-21
得票数 0
3
回答
在Python
中
具有不同数组长度
的
JSON
文件
python
、
arrays
、
json
、
eda
到目前为止我使用
的
代码如下import
json
json
_url = 'https://www.nomisweb.co.uk/api/v01/dataset/NM_31_1.jsonstat.
json
' j = requests.get(url=
json
_url) # load the
json
con
浏览 1
提问于2019-02-27
得票数 0
3
回答
PySpark
:如何读取多个
JSON
文件
,每个
文件
多个
记录
json
、
amazon-s3
、
apache-spark
、
pyspark
我在
JSON
存储桶
中
存储了一个大型数据集,但它不是单个大型
文件
,而是由许多(准确地说是113K)单独
的
S3
文件
组成,每个
文件
包含100-1000个观测值。我正在尝试使用Spark/
PySpark
(1.1.1版)来解析和减少这些数据,但是我找不到正确
的
方法将其加
载到
RDD
中
,因为它既不是所有
记录
>一个
文件
(在这种情况下,我将使用sc.textFile,尽管这里增加了
浏览 0
提问于2015-02-24
得票数 4
2
回答
ETL
的
字段特定错误
sql
、
ssis
、
etl
、
talend
我正在MS
中
创建一个ETL进程,我希望有特定于特定行
的
特定列
的
错误。例如,数据最初
从
excel
文件
加
载到
一个表(我们将调用初始表),其中所有列都是varchar(2000),然后我将数据放到另一个包含更特定数据类型(datetime、int等)
的
表
中
。
文件
)。或者你会采取什么样
的
手工编码方法? 我曾经考虑过使用SQL
的
几种方法(直到没有,我已经在SQL
中
手工完成了ETL,但我想考虑
浏览 4
提问于2010-02-18
得票数 1
回答已采纳
2
回答
如何有效加载和处理包含不同、不断发展
的
模式
的
JSON
文件
json
、
apache-spark
、
pyspark
、
apache-spark-sql
下面是数据库转储
中
的
一个示例
JSON
文件
:{"payload": {"这是我当前
的
工作流程(高级): 查找此批更改
浏览 0
提问于2021-08-24
得票数 1
回答已采纳
1
回答
使用Spark获取值超过某个阈值
的
所有列
的
名称
python
、
apache-spark
、
pyspark
、
emr
Bakgrounddf = spark.read.csv(path, schema=schema, sep='|')我们使用
的
是
PySpark
和AWS (5.4.0版)和Spark2.1.0。问题url,category1
浏览 0
提问于2017-04-25
得票数 3
回答已采纳
1
回答
使用phonegap,什么是存储数据
的
好
方法?
cordova
我
从
服务器上以
JSON
格式将数据下
载到
应用程序。每个数据
记录
包含大约10个不同
的
字段,主要是较短
的
字符串,有些可能更长。也就是说,我有一个可能包含256个字符
的
描述字段。处理这些数据
的
好
方法是什么?它是否足够小,可以保存在我
的</em
浏览 3
提问于2013-02-07
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
遇见YI算法之初识Pyspark(二)
Python笔记-数据加载、存储与文件格式(2)
4个解决特定的任务的Pandas高效代码
一文读懂PySpark数据框
一文读懂 PySpark 数据框
热门
标签
更多标签
活动推荐
运营活动
广告
关闭
领券