Loading [MathJax]/jax/output/CommonHTML/config.js
社区首页 >问答首页 >Pyspark将数据帧写入bigquery [error gs]

Pyspark将数据帧写入bigquery [error gs]
EN

Stack Overflow用户
提问于 2020-11-13 16:58:41
回答 1查看 296关注 0票数 1

我正在尝试将数据帧写入bigquery表。我已经使用所需的参数设置了sparkSession。然而,在写的时候,我得到了一个错误:

代码语言:javascript
代码运行次数:0
复制
Py4JJavaError: An error occurred while calling o114.save.
: org.apache.hadoop.fs.UnsupportedFileSystemException: No FileSystem for scheme "gs"
    at org.apache.hadoop.fs.FileSystem.getFileSystemClass(FileSystem.java:3281)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:3301)

代码如下:

代码语言:javascript
代码运行次数:0
复制
import findspark
findspark.init()

import pyspark
from pyspark.sql import SparkSession

spark2 = SparkSession.builder\
    .config("spark.jars", "/Users/xyz/Downloads/gcs-connector-hadoop2-latest.jar") \
    .config("spark.jars.packages", "com.google.cloud.spark:spark-bigquery-with-dependencies_2.12:0.18.0")\
    .config("google.cloud.auth.service.account.json.keyfile", "/Users/xyz/Downloads/MyProject-cd7627f8ef9b.json") \
    .getOrCreate()

spark2.conf.set("parentProject", "xyz")

data=spark2.createDataFrame(
    [
        ("AAA", 51), 
        ("BBB", 23),
    ],
    ['codiPuntSuministre', 'valor'] 
)

spark2.conf.set("temporaryGcsBucket","bqconsumptions")

data.write.format('bigquery') \
    .option("credentialsFile", "/Users/xyz/Downloads/MyProject-xyz.json")\
    .option('table', 'consumptions.c1') \
    .mode('append') \
    .save()

df=spark2.read.format("bigquery").option("credentialsFile", "/Users/xyz/Downloads/MyProject-xyz.json")\
    .load("consumptions.c1")

如果从代码中删除write,我不会得到任何错误,所以错误是在尝试编写时出现的,并且可能与使用bigquery操作的auxiliar存储桶相关

EN

回答 1

Stack Overflow用户

发布于 2020-11-18 19:12:41

这里的错误表明它无法识别文件系统,您可以使用下面的链接添加对gs文件系统的支持,因为当您写入bigquery时,文件被临时加载到google云存储桶中,然后被加载到bigquery表中。

代码语言:javascript
代码运行次数:0
复制
spark._jsc.hadoopConfiguration().set("fs.gs.impl", "com.google.cloud.hadoop.fs.gcs.GoogleHadoopFS")
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/64824940

复制
相关文章
Python小案例(十)利用PySpark循环写入数据
在做数据分析的时候,往往需要回溯历史数据。但有时候构建历史数据时需要变更参数重复跑数,公司的数仓调度系统往往只支持日期这一个参数,而且为临时数据生产调度脚本显得有点浪费。这个时候就可以结合python的字符串格式化和PySpark的Hive写入,就可以完成循环写入临时数据。
HsuHeinrich
2023/02/24
1.4K0
Python小案例(十)利用PySpark循环写入数据
Python将数据写入txt文件_python将内容写入txt文件
readlines() 会把每一行的数据作为一个元素放在列表中返回,读取所有行的数据
全栈程序员站长
2022/11/11
12.4K0
Wikipedia pageview数据获取(bigquery)
维基百科pageview数据是Wikimedia技术团队所维护的访问量数据集。该数据集自2015年五月启用,其具体的pageview定义为对某个网页内容的请求,会对爬虫和人类的访问量进行区分,粒度为小时级别,如下图:
千灵域
2022/06/17
2.7K0
Wikipedia pageview数据获取(bigquery)
python 将读取的数据写入txt文件_c中怎样将数据写入txt文件
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
全栈程序员站长
2022/11/09
6.4K0
Flink教程-将流式数据写入redis
redis作为一个高吞吐的存储系统,在生产中有着广泛的应用,今天我们主要讲一下如何将流式数据写入redis,以及遇到的一些问题 解决。官方并没有提供写入redis的connector,所以我们采用apache的另一个项目bahir-flink [1]中提供的连接器来实现。
大数据技术与应用实战
2020/09/15
4.9K1
BigQuery:云中的数据仓库
原文地址:https://dzone.com/articles/bigquery-data-warehouse-clouds
Steve Wang
2018/06/04
5K0
BigQuery:云中的数据仓库
SAP 参数(条件表)灵活配置GS01/GS02/GS03
在开发中,某段代码运行可能需要满足某个条件,通常解决办法有两种:一种是在代码中写死限制条件,此种方式当限制条件变化时需要修改代码;另一种办法则是自定义数据表,将限制条件值保存在表中,当程序运行时,可以直接从表中读取条件值作为控制条件,这样比较灵活,就像Java开发中的属性配置文件一样,但我们不需要手动创建这样的参数表,SAP已为我们提供了这样的工具,可以通过该工具更灵活地将数据维护到一个层次结构
matinal
2020/11/27
9690
Python 将数据写入文件(txt、csv、excel)
一、将列表数据写入txt、csv、excel 1、写入txt def text_save(filename, data):#filename为写入CSV文件的路径,data为要写入数据列表. file = open(filename,'a') for i in range(len(data)): s = str(data[i]).replace('[','').replace(']','')#去除[],这两行按数据不同,可以选择 s = s.replace
菲宇
2019/07/31
41.3K0
(1)通过FlinkSQL将数据写入mysql demo
FlinkSQL的出现,极大程度上降低了Flink的编程门槛,更加容易理解和掌握使用。今天将自己的笔记分享出来,希望能帮助在这方面有需要的朋友。
NBI大数据
2022/08/08
1.7K0
(1)通过FlinkSQL将数据写入mysql demo
【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )
命令 , 安装 PySpark , 安装过程中 , 需要下载 310 M 的安装包 , 耐心等待 ;
韩曙亮
2023/10/11
4910
【Python】PySpark 数据处理 ② ( 安装 PySpark | PySpark 数据处理步骤 | 构建 PySpark 执行环境入口对象 )
python爬虫将数据写入csv文件乱码
养成习惯,先赞后看!!! 出现乱码根本原因就是编码方式不对,但是博主自己尝试了三种编码方式终于找到了最合适的。
萌萌哒的瓤瓤
2020/08/26
3.9K0
python爬虫将数据写入csv文件乱码
Python大数据之PySpark(二)PySpark安装
spark-submit 提交圆周率的计算代码 */examples/src/main/python/pi.py*
Maynor
2023/09/28
2.7K0
Python大数据之PySpark(二)PySpark安装
以太坊·将数据写入到区块链中
5.5. 实用例子 5.5.1. 数据写入到区块链中 做一笔交易,并写入数据到区块链中 let Web3 = require("web3"); let fs = require("fs"); let web3 = new Web3("http://localhost:8545"); let log = { time:(new Date).getTime(), type:"info", msg:"Web3 Test!!!" }; let str = JSON.stringify
netkiller old
2018/03/02
2.3K0
C#将数据以XML格式写入Excel
本文转载:http://www.cnblogs.com/eflylab/archive/2008/09/21/1295580.html
跟着阿笨一起玩NET
2018/09/19
1.6K0
C#将数据以XML格式写入Excel
通过Python将监控数据由influxdb写入到MySQL
我们知道InfluxDB是最受欢迎的时序数据库(TSDB)。InfluxDB具有 持续高并发写入、无更新;数据压缩存储;低查询延时 的特点。从下面这个权威的统计图中,就可以看出InfluxDB的热度。
东山絮柳仔
2021/05/26
2.6K0
(4)FlinkSQL将socket数据写入到mysql方式一
本章节主要演示从socket接收数据,通过滚动窗口每30秒运算一次窗口数据,然后将结果写入Mysql数据库
NBI大数据
2022/08/08
9550
(4)FlinkSQL将socket数据写入到mysql方式一
004 C# 将Word表格数据批量写入Excel
步骤:文件—新建—解决方案—新建控制台程序,在项目管理器右击项目名称—属性,将输出类型设置为Windows应用程序;
职场编码
2020/05/24
2.8K0
004 C# 将Word表格数据批量写入Excel
(7)FlinkSQL将kafka数据写入到mysql方式二
public static void main(String[] args) throws Exception { StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment(); env.setParallelism(1); StreamTableEnvironment tableEnv = StreamTableEnvironment.c
NBI大数据
2022/08/08
1.3K0
(7)FlinkSQL将kafka数据写入到mysql方式二
点击加载更多

相似问题

添加站长 进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

扫码加入开发者社群
关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例

扫码关注腾讯云开发者公众号
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档
查看详情【社区公告】 腾讯技术创作特训营