腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
3
回答
在
写入
dataframe
-
pyspark
之前
从
表
中
删除
记录
、
、
、
、
在从
dataframe
向
表
中
写入
数据
之前
,我正在尝试
从
表
中
删除
记录
。这对我不起作用。我做错了什么?Goal: "delete from xx_files_tbl" before writing new
dataframe
to table.
浏览 172
提问于2020-10-14
得票数 1
回答已采纳
1
回答
Azure事件集线器到Databricks,
在
使用
中
的dataframes发生了什么
、
、
我一直
在
开发Azure事件集线器的概念证明,使用
Pyspark
将json数据流到Azure Databricks笔记本。
在
我看到的示例
中
,我创建了我的粗略代码,如下所示,将数据从事件集线器接收到我将用作目的地的delta
表
ehConf = {'eventhubs.connectionString("append") \ .option("checkpointLocation&
浏览 1
提问于2019-11-12
得票数 1
回答已采纳
1
回答
使用检查点
从
胞
表
读取和更新同一个
表
、
、
我正在使用spark版本2.3,并试图将spark
中
的蜂巢
表
读取为:from
pyspark
.sql.functions import*在这里,我添加了一个新列,其中包含了
从
system到现有的
dataframe
的当前日期 import
pyspark
.sql.functionsemp.emptable th
浏览 0
提问于2018-12-06
得票数 2
回答已采纳
1
回答
s3是如何工作的?
、
我正试图使用
pyspark
在
s3
中
保存数据。已经存在一堆来自上一轮火星雨的文件。
在
我当前的运行
中
,我试图用新的
dataframe
(它已经包含旧的数据)
中
的数据覆盖现有的文件。我正在使用由
pyspark
提供的“覆盖”模式来处理这个问题。这到底是怎么回事?在用新数据
写入
新文件
之前
,S3是否
删除
目录
中
的所有文件?如果是这样的话,当目录中有大量现有文件时,S3
删除
是否可
浏览 4
提问于2022-03-18
得票数 0
回答已采纳
1
回答
使用
pySpark
将
DataFrame
写入
mysql
表
、
、
、
、
我正在尝试向MySql
表
中
插入
记录
。该
表
包含作为列的id和name。id = '103' l = [id,name] password=
浏览 3
提问于2017-10-04
得票数 16
回答已采纳
1
回答
pyspqrk sql配置单元
表
中
存在错误数据
、
、
、
、
我正在尝试使用
Pyspark
中
包含25亿条
记录
的Hive
表
。我假设
表
中有一些格式错误的或其他“坏”数据。我使用的是spark版本1.6.2和python版本2.6.6:from
pyspark
.sql import
从
Hive CLI访问整个
表
似乎工作得很好。我假设有一些Spark由于某种原因无法处理的
记录
。我想知道,
在<
浏览 1
提问于2017-01-28
得票数 1
1
回答
有没有一种方法可以使用AWS胶水作业将“好”
记录
仅
写入
SQL Server
表
并返回“坏”
记录
?
、
、
、
、
我正在尝试编写一个粘合(
PySpark
)作业,执行一些ETL,并最终将数据
写入
SQL Server
中
的一个
表
(
在
AWS Glue Catalog
中
定义)。
在
将
记录
写入
SQL Server
表
时,可能有一些约束(例如:主键、外键、列类型)阻止某些
记录
(即“坏”
记录
)被
写入
到
表
中
。发生这种情况时,Glue作业会抛出一个错误,并且作业会
浏览 9
提问于2019-04-10
得票数 0
1
回答
DynamicFrame.fromDF
在
使用glueContext.write_from_options()
写入
数据库时会造成极大的延迟
、
我有一个胶水作业,其中我需要从Server的两个
表
中
读取数据,执行一些联接/转换,并将其写回Server
中
的另一个新的/截断
表
。要
写入
的数据大小约为15 be。方法1-大约需要17分钟(
从
Server读取数据、转换、
写入
S3、
从
S3读取数据、将数据写回Server) 将数据
从
approx.)Perform读取到火花数据存储(
在
火花数据处理上的3-5秒glueContext.create_dynam
浏览 9
提问于2022-10-14
得票数 0
1
回答
使用
pyspark
如何拒绝csv文件
中
的坏(格式错误)
记录
,并将这些被拒绝的
记录
保存到新文件
中
、
、
我正在使用
pyspark
将数据
从
csv文件加载到
dataframe
中
,并且我能够
在
删除
格式错误的
记录
的同时加载数据,但是我如何才能拒绝csv文件
中
的这些错误(错误格式)
记录
,并将这些被拒绝的
记录
保存在新文件
中
浏览 11
提问于2019-01-15
得票数 2
回答已采纳
1
回答
如何在postgres驱动程序中使用nextval()?
、
、
、
、
在
Postgres
中
,我有一个名为"mytable“的
表
,其中有两个列,id (bigint)和value (varchar(255))。id使用nextval('my_sequence')
从
序列
中
获取其值。
PySpark
应用程序接受一个
dataframe
并使用postgresql(PostgreSQL42.1.4.jar)将数据插入到"mytable“
中
。下面是我目前如何编写
从
Pysp
浏览 0
提问于2018-01-21
得票数 2
回答已采纳
1
回答
pyspark
.sql.utils.AnalysisException:引用“标题”是不明确的,可以是:标题,标题
、
、
、
我正在从xml中提取数据,创建数据,并以csv格式将数据
写入
s3路径。在编写
dataframe
之前
,我使用show(1)打印了模式和1条数据
记录
。在这
之前
一切都很好。但是,当将它
写入
s3位置的csv文件时,出现了错误复制列,因为我的数据文件有两个列,即"title“和"Title”。尝试添加一个新列title2,该列将包含标题内容,并考虑稍后使用以下命令
删除
标题
从
pyspark
.sql导入函数为f df=df.w
浏览 3
提问于2021-12-05
得票数 0
回答已采纳
1
回答
Pyspark
:
从
表
中
读取数据并
写入
文件
、
、
、
我正在使用HDInsight spark集群来运行我的
Pyspark
代码。我尝试
从
postgres
表
中
读取数据,并将其
写入
如下所示的文件
中
。pgsql_df返回的是DataFrameReader而不是
DataFrame
。所以我无法将
DataFrame
写到文件
中
。为什么"spark.read“返回DataFrameReader。from
pyspark
.sql.types import * from
浏览 40
提问于2020-04-24
得票数 0
回答已采纳
1
回答
在
Databricks中使用
Pyspark
更新数据库
表
、
、
、
我
在
Azure SQL Server数据库中有一个
表
,该
表
是
从
我的
Dataframe
填充的。我想使用
pyspark
/ pandas基于多条件数据库来更新这个
表
。我是
PySpark
/ Databricks / Pandas的新手,有人能告诉我如何更新
表
吗?我已经将数据插入到
表
中
-我可以想到的一种解决方案是将
表
中
的数据加载到数据帧<e
浏览 2
提问于2020-04-20
得票数 0
1
回答
基于spark scala
中
的3个场景
在
hive
表
中
插入/更新
记录
、
、
我有一个源
表
,我想根据下面的场景更新/插入数据到输出
表
中
。源
表
:aaa |10 |ece |1000|svv |sas |be |0+ bbb |20want to insert data's into output table based on above scenario using either spark sql or spark scala
dataframe
浏览 0
提问于2020-07-03
得票数 0
1
回答
如何使用
PySpark
更新hive
表
中
的
记录
?
、
下面是一个简单的例子:数据驻留在Hive
表
中
,应用程序使用
PySpark
读取数据帧(比如
PySpark
)。例句:数据帧
在
列下面。Df.write.format(‘拼花’)\.mode(‘追加’)\ .saveAsTable(canonical_hive_table)Action EmpNo名称年龄工资更新4 dddd 30 4
浏览 1
提问于2019-03-29
得票数 2
1
回答
Spark流式数据以更新SQL Server (事务)
、
目前我有一些
pyspark
代码,它是
从
kafka主题读取数据(readStream),我计划使用事务更新SQL Server
表
。流数据将具有所有三个插入、更新、
删除
事务。
浏览 2
提问于2020-01-29
得票数 0
1
回答
基于dashbord可见性的
PySpark
结构化流查询
、
、
我编写了一些连接到kafka broker的示例代码,
从
主题读取数据并将其放入snappydata
表
。, Row, SparkSessionfrom
pyspark
.rdd import RDD from
pyspark
.sql.
dataframe
主题中读取,并在snappydata
表
中
写入
。我不明白为什么我没有
在
Snapp
浏览 1
提问于2020-11-30
得票数 0
回答已采纳
1
回答
在
PySpark
中
,为什么数据帧聚合在Kerberized源
表
上比相同的查询内聚合工作得更好?
、
我使用Cloudera发行版Spark 2.1.0
在
多节点集群上操作,它的配置单元分区是Kerberized的。我的查询相当复杂(三个
表
,包含两个连续聚合的嵌套子查询),
在
写入
PySpark
数据帧
之前
,我
在
SQL
中
运行聚合步骤时遇到了GSSException问题。对
dataframe
的操作需要30到45分钟,并尝试将
dataframe
缓存或
写入
到parquet调用完整的谱系,并带有Kerberos警
浏览 3
提问于2018-08-23
得票数 0
1
回答
Pyspark
Dataframe
正在复制列
中
以前的最高值(int或date
、
、
我有一个
Pyspark
Dataframe
,
在
amount列中有以下值:input
dataframe
之前
的最高值必须复制到后面的
记录
(行)
中
,直到
在
列
中
遇到更高的值,依此类推。amount列
中
的期望值为:output
dataframe
有人能帮帮我吗。提前谢谢。
浏览 12
提问于2021-09-17
得票数 0
1
回答
Pyspark
删除
包含10个空值的列
、
我是
PySpark
的新手。我只想保留至少有10个值的列现在如何提取值小于10的列名,然后
在
写入
新文件
之前
删除
这些列 df = spark.read.parquet(file
浏览 1
提问于2019-09-28
得票数 1
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
云直播
腾讯会议
实时音视频
活动推荐
运营活动
广告
关闭
领券