腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
从
Pyspark
加载
进程
从
GCS
加载
,
转换
并
保
存到
不同
的
GCS
不
工作
、
、
我正在尝试利用Dataproc (使用
Pyspark
)
从
GCS
加载
一个大型数据集,使用地理空间丰富对其进行
转换
,然后保存为PartitionBy格式。import SparkSessionfrom
pyspark
import StorageLevelfrom
pyspark
.sql.funct
浏览 78
提问于2021-11-03
得票数 3
1
回答
无法在Google函数中
加载
带有魔杖/图像
的
PDF
、
、
、
、
尝试
从
本地文件系统
加载
PDF
并
获得“未授权”错误。中引发e wand.exceptions.PolicyError: not‘/tmp/tmp_iq12nws’@ error/constitute.c/ReadImage/412 PDF文件成功地
从
GCS
保
存到
本地“服务器”,但不会被Wand
加载
。将映像
加载
到OpenCV不是问题,只是在尝试使用Wand/ImageMagick
加载
浏览 1
提问于2019-04-02
得票数 3
回答已采纳
1
回答
如何使气流达格在完成下一个任务之前等待VM完成其
工作
、
我
的
工作
流程
的
高级描述我
的
守护
进程
目前所做
的
--启动vm >>,停止vm >>,完成其余
的
数据
转换
工作
。我想让我
的
守护程序等待vm完成它
的
工作
。 注意: k
浏览 2
提问于2022-09-13
得票数 0
回答已采纳
1
回答
Pyspark
和BigQuery在Google Dataproc中使用两个
不同
的
项目ids
、
、
、
我想使用Google Dataproc和
不同
的
项目Ids运行一些
pyspark
作业,但到目前为止还没有成功。我是
pyspark
和Google Cloud
的
新手,但是我已经遵循了
的
例子,并且运行良好(如果BigQuery数据集是公开
的
,或者属于我
的
ProjectA项目)。projectB','mapre
浏览 1
提问于2016-12-09
得票数 1
2
回答
波束数据流流水线表创建Sink作为来自
GCS
的
Bigquery
、
、
、
我想创建beam数据流作业来
从
GCS
加载
数据到Bigquery,我将在
GCS
的
不同
文件夹中有100s
的
文件,可以在
GCS
的
不同
文件夹中
加载
文件,是否可以在beam代码中创建源数据集和表。我
的
最终目标是创建管道,将数据
从
GCS
加载
到Bigquery,谢谢。
浏览 10
提问于2021-02-23
得票数 0
回答已采纳
1
回答
如何使用数据融合/Cloud Composer在GCP上调度数据处理
PySpark
作业
、
、
、
、
我最近开始学习GCP,我正在做一个POC,它要求我创建一个能够调度用
PySpark
编写
的
Dataproc作业
的
管道。目前,我已经在我
的
Dataproc集群上创建了一个Jupiter笔记本,它从
GCS
读取数据并将其写入BigQuery,它在Jupyter上
工作
得很好,但我想在流水线中使用该笔记本。我
的
目标是调度多个Dataproc作业
的
运行。
浏览 33
提问于2021-08-16
得票数 2
回答已采纳
2
回答
从中提取JSON,
转换
成熊猫DF,
并
写信给Google BigQuery
、
、
、
、
对于BigQuery中有1K行
的
表,我将首先创建/保存1K单独
的
对象,保
存到
GCS
中
的
桶中,每个对象都是一个API调用
的
结果。# load libraries, connect to googleimport但是,对于一些J
浏览 8
提问于2020-07-20
得票数 2
回答已采纳
1
回答
将私有数据
从
GCS
流式传输到google collab TPU
、
、
、
、
但是当我试着
从
我
的
桶里装上dsFromGcs = tfds.load("pokemons",data_dir = "gs://dataset-7000")- abstract_reasoning- aeslc- ag_news_subset- ai2_arc_with_ir - ama
浏览 3
提问于2021-04-18
得票数 0
2
回答
在云功能中,
GCS
的
文件大小可以处理多大?
、
、
、
我希望使用GCP中
的
云函数将
GCS
中
的
>=4 GB数据传输到BigQuery。有可能这样做吗?我尝试使用mkfile命令创建一个临时
的
5 gb数据文件,
并
尝试上传到
GCS
。这需要很长
的
时间,但仍然没有上传。这是否意味着
GCS
不能处理超过特定文件大小
的
文件。 在我所引用
的
文档:中,我了解到
GCS
处理多达5 TiB
的
数据。那么为什么上传5GB
的
数据需要很长时间。
浏览 3
提问于2021-08-12
得票数 0
回答已采纳
2
回答
从
外部表读取与在Bigquery中
加载
和读取数据
、
我需要从
GCS
获取数据(csv格式)到Bigquery,然后对其执行ETL以生成结果。csv
的
格式可能不是固定
的
,可能会随着每个文件而微妙地改变。创建临时外部表以直接
从
GCS
读取数据然后进行处理是更好,还是将数据
加载
到bigquery中
的
临时表中然后从中进行处理会更好。我正在尝试理解在执行效率方面什么是更好
的
设计。这些方法有什么缺点吗?
浏览 1
提问于2019-12-05
得票数 0
2
回答
具有本地文件大小限制
的
加载
数据
、
使用API
的
本地文件是否对
加载
数据有任何限制? 正如Google文档提到
的
Web,本地文件大小比<=10 MB和16,000行还要大。同样
的
限制也适用于API吗?
浏览 0
提问于2018-05-03
得票数 1
回答已采纳
1
回答
Cloud Composer中
的
限速API请求
、
、
、
我正在计划一个项目,在这个项目中,我将使用(速率限制
的
) Reddit API,并将数据存储在
GCS
和BigQuery中。最初,可以选择Cloud Functions,但我必须创建一个Datastore实现来管理cron作业
的
请求和GAE
的
“伪”队列。在Dataflow中做每件事都没有意义,因为
不
建议进行外部请求(例如,访问Reddit API)
并
永久运行单个作业。我可以使用Cloud Composer
从
谷歌
工作
表中读取字段,然后基于谷歌
工作<
浏览 1
提问于2018-09-25
得票数 0
1
回答
如何
从
GCS
中
的
文件中自动检测模式
并
加载
到BigQuery?
、
我正在尝试将一个文件
从
GCS
加载
到BigQuery,它
的
模式是
从
GCS
中
的
文件自动生成
的
。我使用Apache气流来做同样
的
事情,我遇到
的
问题是当我使用自动
从
文件中检测模式时,BigQuery根据大约100个初始值创建模式。例如,在我
的
例子中有一个列,比如X,X中
的
值大多是Integer类型,但是有一些值是String类型
的
,所以bq load会因
浏览 2
提问于2019-12-27
得票数 0
1
回答
BigqueryIO文件
加载
:仅在需要时使用附加碎片
、
、
我有一个数据流作业,
从
pubsub读取,将PubsubMessage
转换
为TableRow,
并
使用FILE_LOAD-method (每10分钟,1片)将该行写到BQ。这份
工作
有时会抛出一个ByteString would be too long-exception。当将这些行连接到(
GCS
)临时文件时,应该引发此异常,因为您不能附加到
GCS
文件中。如果我正确地理解了它,就可以让这个异常发生,因为稍后将使用“大型”临时文件
加载
到BQ,并且附加到一个应该成功
的
浏览 2
提问于2020-06-09
得票数 0
3
回答
如何将
PySpark
中
的
数据帧/RDD作为CSV/Parquet文件快速保
存到
磁盘?
、
、
、
、
我有一个正在运行
的
Google Dataproc集群,并且正在向它提交一个
PySpark
作业,该作业
从
Google Cloud Storage (945MB CSV文件,400万行-->总共需要48秒才能读入)读取一个文件到
PySpark
dataframe,
并
对该数据帧应用一个函数(parsed_dataframe = raw_dataframe.rdd.map(parse_user_agents).toDF然后,我必须将这些修改后
的
结果作为GZIP
的
CSV或P
浏览 8
提问于2017-08-01
得票数 4
3
回答
google云上
的
存储
、
我有以下用例:需要使用
PySpark
分析大量结构化数据。数据当前为CSV格式。我正在尝试找出在谷歌云上存储数据
的
最佳方式。我
的
理解是HDFS不会
工作
,因为每次集群关闭,HDFS数据都会消失,所以我每次都必须
从
CSV
转换
到HDFS,这很耗时。似乎正确
的
策略是使用BigQuery,但是我不能确定BigQuery是否是持久性
的
?
浏览 20
提问于2017-06-28
得票数 0
回答已采纳
1
回答
将源文件存储在与Google云存储( google )中
、
、
、
、
为了测试我
的
PySpark
映射函数,我设置了集群(仅测试一个JSON文件
的
一个主5名
工作
人员)。 这里
的
最佳做法是什么?我应该复制主节点中
的
所有文件(利用Dataproc中
的
Hadoop分布式文件系统),还是如果我将文件保存在
GCS
桶中并将文件位置指向我
的
Pyspark
中,那么它是否同样有效?另外,我
的
代码导入了相当多
的
外部模块,我已经将这些模块复制到我
的
主模块中
浏览 1
提问于2019-06-04
得票数 1
回答已采纳
2
回答
将公共http csv数据读入Apache束
、
、
、
如果文件托管在google存储'gs://bucket/source.csv'上,但无法
从
'https://github.com/../source.csv'获取文件,一切都能正常
工作
。
浏览 14
提问于2022-11-15
得票数 0
回答已采纳
1
回答
从
云函数导入
GCS
CSV到云SQL
、
、
、
、
我想使用Google Cloud函数将数据
从
GCS
中
的
CSV文件快速传输到Cloud SQL中
的
Postgres表。理想情况下,我会使用GCP SDK来执行此操作,但官方documentation建议执行导入
的
唯一方法是1)控制台、2) gcloud命令或3) curl。我在下面写
的
代码(我省略了Cloud Function请求包装器)可以在我
的
笔记本电脑上运行,但在Cloud Function中不能运行。云函数在
不
确认错误
的
情况下完
浏览 24
提问于2019-09-08
得票数 3
2
回答
在Tensorflow中使用TPU时,是否有适当
的
方法来保存本地驱动器中
的
检查点?
、
、
、
关于这一问题
的
后续行动: 我正在为那些
不
希望使用
GCS
的人找到解决办法。然后将保存变量设置为每个变量
的
“init”值。对于Keras,权重似乎是
从
TPU保
存到
本地
的
。信息:tensorflow:将TPU权重复制到CPU 所以我想也有一个通用
的</
浏览 0
提问于2018-10-26
得票数 6
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
你知道,ArcGIS中的地理坐标系转换方法参数吗
纯干货——RAC理论
八新币No19:BOX.WIN超级游戏盒子,GCS链上首个应用
Ray 分布式计算框架详解
一文读懂PySpark数据框
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券