腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
Pyspark
:
从
表
中
读取
数据
并
写入
文件
、
、
、
我正在使用HDInsight spark集群来运行我的
Pyspark
代码。我尝试
从
postgres
表
中
读取
数据
,并将其
写入
如下所示的
文件
中
。所以我无法将DataFrame写到
文件
中
。为什么"spark.read“返回DataFrameReader。这里我漏掉了什么?from
pyspark
.sql.types import * from
pyspark
.
浏览 40
提问于2020-04-24
得票数 0
回答已采纳
1
回答
如何在postgres驱动程序中使用nextval()?
、
、
、
、
在Postgres
中
,我有一个名为"mytable“的
表
,其中有两个列,id (bigint)和value (varchar(255))。id使用nextval('my_sequence')
从
序列
中
获取其值。
PySpark
应用程序接受一个dataframe
并
使用postgresql(PostgreSQL42.1.4.jar)将
数据
插入到"mytable“
中
。我可以看到,在
读取
数据</em
浏览 0
提问于2018-01-21
得票数 2
回答已采纳
1
回答
使用配置单元元
数据
读取
HDFS
文件
-
Pyspark
、
、
、
、
我是
PySpark
新手,正在尝试
读取
HDFS
文件
(上面创建了hive
表
)
并
创建
PySpark
数据
帧。通过
PySpark
读取
配置单元
表
非常耗时。有没有什么方法可以动态获取hive列名(用作dataframe
中
的模式)?我希望将
文件
位置、
表
名和
数据
库名作为输入传递给aa程序/函数,以便
从
配置单元元
数据
(可
浏览 15
提问于2019-03-06
得票数 0
回答已采纳
1
回答
完整
数据
帧的火花散列
、
是否可以找到完整
PySpark
数据
的哈希值(最好是散列256)。我不想找到单个行或列的散列。我知道
pySpark
中
存在函数,用于
从
pyspark
.sql.functions导入sha2进行列级哈希计算。
读取
数据
中
的
数据</em
浏览 8
提问于2022-12-04
得票数 0
1
回答
将Google存储
数据
加载到bigtable
中
、
、
是否有简单的方法或示例将Google Cloud Storage
数据
加载到bigtable
中
?但是我找不到一个简单的方法去做那件事!我已经尝试过来自python的代码,它的工作效率很高,但是它只是一行一行地
读取
到bigtable
中
,这对我来说很奇怪。 任何帮助都将不胜感激。
浏览 2
提问于2017-11-17
得票数 3
回答已采纳
1
回答
如何在
PySpark
笔记本
中
运行sql查询
、
我有一个SQL查询,运行在Azure Synapse分析
中
,可以
从
ADLS查询
数据
。我能否使用Azure Synapse分析
中
的
PySpark
在笔记本
中
运行相同的查询?我谷歌了一些在笔记本
中
运行sql的方法,但是看起来需要对代码做一些修改。查询选择*来自OPENROWSET(大容量',FORMAT = 'PARQUET‘)
浏览 7
提问于2022-01-11
得票数 -1
回答已采纳
1
回答
使用检查点
从
胞
表
读取
和更新同一个
表
、
、
我正在使用spark版本2.3,
并
试图将spark
中
的蜂巢
表
读取
为:from
pyspark
.sql.functions import*在这里,我添加了一个新列,其中包含了
从
system到现有的dataframe的当前日期 import
pyspark
.sql.functionsemp.em
浏览 0
提问于2018-12-06
得票数 2
回答已采纳
1
回答
如何使用QueryCassandra和ExecutePySpark Nifi处理器将我的cassandra
数据
传输到火花源?
、
、
、
、
我只是使用querycassandra处理器查询cassandra
表
,但我不理解的是如何将Json输出
文件
作为输入
文件
传递给ExecutePyspark处理器,然后我需要将我的Spark
数据
传递给Hive
浏览 1
提问于2018-03-14
得票数 3
回答已采纳
1
回答
DynamicFrame.fromDF在使用glueContext.write_from_options()
写入
数据
库时会造成极大的延迟
、
我有一个胶水作业,其中我需要从Server的两个
表
中
读取
数据
,执行一些联接/转换,并将其写回Server
中
的另一个新的/截断
表
。要
写入
的
数据
大小约为15 be。方法1-大约需要17分钟(
从
Server
读取
数据
、转换、
写入
S3、
从
S3
读取
数据
、将
数据
写回Server) 将
数据
浏览 9
提问于2022-10-14
得票数 0
1
回答
使用
pyspark
从
s3
读取
流
数据
、
、
、
、
我想利用python的极其简单的文本解析和函数式编程能力,
并
利用丰富的科学计算库,如numpy和scipy,因此我想使用
pyspark
来完成一项任务。我一开始要执行的任务是从一个存储桶
中
读取
数据
,其中有文本
文件
作为流的一部分被
写入
。有人可以粘贴一个代码片段,说明如何使用
pyspark
从
s3路径
中
读取
流
数据
吗?直到最近我还以为只能使用scala和java才能做到这一点,但我今天才发现
浏览 1
提问于2015-04-11
得票数 2
1
回答
数据
库Python优化
、
、
、
、
我需要您的帮助,我在python中有一个简单的代码,它列出了
数据
库中所有
数据
库
中
的所有字段,有将近90个
表
,我想将结果保存在一个txt或csv
文件
中
。
浏览 8
提问于2022-01-06
得票数 0
1
回答
Avro schema ( .avsc )在
Pyspark
中
的实施
、
、
有人可以帮助我通过
Pyspark
读取
avro schema (.avsc ),并在将
数据
帧
写入
目标存储时强制执行它吗?我所有的targetr
表
模式都是以.avsc
文件
的形式提供的,在
Pyspark
中保存我的
数据
框架时,我需要提供这个自定义模式。我知道有像databricks的spark-avro这样的库。
浏览 19
提问于2021-03-23
得票数 1
2
回答
如何使用
pyspark
读取
hdfs kafka
数据
?
、
、
、
、
我正在尝试
读取
通过Kafka和SparkStreaming获取的HDFS存储的
数据
。consumerRecordJavaRDD.saveAsTextFile("/tmp/abcd_" + System.currentTimeMillis());一个文本
文件
行被推入卡夫卡
数据
保存在本地主机:50070的默认hadoop浏览器
中
。 然后,在
pyspark
应用程序
中
,我尝试使用sparkContext.
浏览 0
提问于2018-01-22
得票数 0
回答已采纳
1
回答
Pyspark
:云存储
中
来自多个
文件
的增量ETL
、
、
、
、
我有大约500-700 csv
文件
的日志加载每周。
文件
名是每周随机生成的。这些
文件
存储在google云存储上,
pyspark
在google dataproc上运行,有几个工作节点。我已经创建了一个
pyspark
文件
,它基本上只是迭代
文件
并按原样加载到bigquery
中
。我以为我会在bigquery
表
上看到增量加载,但似乎
pyspark
会将整个gz输入
文件
合并到dataframe
中
,
浏览 22
提问于2021-10-10
得票数 1
2
回答
如何在
pyspark
的不同模块中使用相同的连接
数据
帧用法
、
、
、
、
我们有
从
多个源
表
读取
数据
并
根据业务规则连接和应用映射的场景。在某些情况下,
从
几个
表
中
读取
的
数据
可以用于多个目标加载。那么,为了避免在运行不同的模块时多次
读取
相同的
数据
,有什么选择可以在不同的
pyspark
模块中使用相同的dataframe输出吗?from table1) df_out =
浏览 0
提问于2020-11-07
得票数 0
1
回答
如何使用
Pyspark
从
xml
文件
创建子
数据
帧?
我在
pyspark
中有所有这些支持库,并且我能够为parent创建
数据
帧- def xmlReader(root, row, filename): return xref df1.head() 我无法创建子
数据
帧
浏览 11
提问于2019-03-15
得票数 0
2
回答
星星之火HiveContext :插入覆盖与
读取
表相同的
表
、
、
、
我想使用SCD1和SCD2在HiveContext中使用
PySpark
。在我的方法
中
,我正在
读取
增量
数据
和目标
表
。阅读完后,我将加入他们的行列,寻找新的方法。我正在对所有的源
数据
做registerTempTable。我正在尝试将最终
数据
集
写入
目标
表
,并且我面临的问题是,无法在从目标
表
读取
的
表
中
插入覆盖。 请提出一些解决办法。我不想将中间
数据
<em
浏览 6
提问于2017-09-10
得票数 1
回答已采纳
2
回答
从
pyspark
作业在s3存储桶
中
动态创建
文件
夹
、
、
、
我正在将
数据
写入
s3存储桶,
并
使用
pyspark
创建拼图
文件
。我的存储桶结构如下:子
文件
夹和
表
如果
文件
夹不存在,这两个
文件
夹应该在运行时创建,如果
文件
夹存在,拼图
文件
应该在
文件
夹
表
中
。当我在本地机器上运行
pyspark<
浏览 2
提问于2020-12-03
得票数 0
2
回答
读取
Avro
文件
并将其
写入
BigQuery
表
、
、
、
我的目标是
从
云存储
中
读取
avro
文件
数据
,
并
使用Java将其
写入
BigQuery
表
。如果有人提供代码片段/想法来
读取
avro格式的
数据
并
使用将其
写入
BigQuery
表
,那就太好了。
浏览 1
提问于2019-02-05
得票数 5
回答已采纳
2
回答
使用Phoenix
从
PySpark
更新HBase
、
、
、
、
我正在尝试使用Phoenix连接器
从
PySpark
读取
和
写入
HBase。我已经看到
中
的示例代码复制了此处的示例代码,以便于参考: .format("org.apache.phoenix.spark") \ .option("table", "TABLE1") \ .option("zkUrl", "localhost:2
浏览 5
提问于2018-01-06
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
实时音视频
活动推荐
运营活动
广告
关闭
领券