腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
Datalab
BigQuery
数据
到
Dataproc
Hadoop字数
apache-spark
、
hadoop
、
google-bigquery
、
google-cloud-dataproc
、
google-cloud-datalab
我目前在Google
BigQuery
上有一些reddit
数据
,我想对选择
的
subreddits
上
的
所有评论做一个单词计数。查询大约是90GiB,因此不可能直接加载到
DataLab
中并转换为
数据
帧。有人建议我使用
DataProc
中
的
Hadoop或Spark作业来创建字数统计,并设置一个连接器将
BigQuery
数据
导入到
DataProc
中,以便
DataProc
可以进
浏览 33
提问于2021-10-25
得票数 1
1
回答
Datalab
无法
读取
dataproc
上
的
Bigquery
数据
google-cloud-platform
、
google-bigquery
、
google-cloud-datalab
datalab
安装在gcp
上
的
dataproc
1节点群集
上
。以下查询已成功运行:%%bq tables describe --name "
datalab
-dev-xxx.ML_PP_xxx.ML_CAMPN30_xxx"
数据
读取
查询失败,错误为:SELECT* FROM '
datalab
-dev-xxx.ML_PP_xxx.ML_CAMPN30_xxx' WHERE partition_da
浏览 29
提问于2019-05-23
得票数 0
1
回答
面对DataprocCreateClusterOperator (气流2.0)
的
问题
python
、
airflow
、
google-cloud-dataproc
、
google-cloud-composer
、
airflow-2.x
下面是代码
的
摘录。idle_delete_ttl=7200, metadata={"
bigquery
-connector-version": '1.1.1',
浏览 5
提问于2021-12-20
得票数 2
回答已采纳
1
回答
如何让主机运行?
google-cloud-platform
、
google-cloud-dataproc
、
google-cloud-datalab
我在
Dataproc
上
创建了一个集群,它运行得很好。但是,在集群空闲一段时间(~90分钟)后,主节点将自动停止。我创建
的
每个集群都会发生这种情况。然而,这篇文章并没有给我足够
的
信息来解决这个问题。下面是我用来创建集群
的
命令: --project $PROJECT \ --bucket/connectors/connectors.sh,gs:/
浏览 1
提问于2019-04-09
得票数 1
回答已采纳
1
回答
在
BigQuery
笔记本中使用
Dataproc
和Spark
BigQuery
连接器时出错
python
、
google-cloud-platform
、
google-bigquery
、
google-cloud-dataproc
、
google-cloud-datalab
能够使用正确
的
TCP防火墙权限在Google中运行Google (笔记本)。使用简单
的
脚本,这将启动最新
的
星火集群(使用
Dataproc
启动3个工作人员
的
1个主服务器)。/
datalab
/
datalab
.sh','gs://
dataproc
-initialization-actions/connectors/connectors.sh' \ --metad
浏览 1
提问于2019-01-12
得票数 3
回答已采纳
1
回答
为什么我不能创建一个同时安装了Jupyter和
DataLab
的
Google
DataProc
集群?
jupyter-notebook
、
google-cloud-dataproc
、
google-cloud-datalab
我想在
DataProc
中创建一个同时安装了Jupyter和
DataLab
的
集群(我知道它们非常相似,但团队成员有不同
的
偏好)。我可以用它们中
的
任何一个来创建集群: 使用Jupyter
的
集群: gcloud
dataproc
clusters create $
DATAPROC
_CLUSTER_NAME_JUPYTER \ --project=$JUPYTER_PORT,JUPYTER_CONDA_PACKAGES=numpy:scipy:pandas:s
浏览 36
提问于2019-04-05
得票数 1
回答已采纳
2
回答
如何用云壳中
的
木星笔记本连接到
dataproc
集群?
jupyter-notebook
、
google-cloud-dataproc
、
google-cloud-platform
我在这里看到了使用
dataproc
设置木星笔记本
的
说明,但我不知道如何修改过程,以便使用Cloud,而不是在本地创建SSH隧道。我已经能够通过运行然后使用预览功能。我想做一些类似的事情,但是使用木星笔记本和一个
dataproc
集群。
浏览 2
提问于2017-04-13
得票数 1
回答已采纳
1
回答
如何在Google
Dataproc
集群中安装和运行pip
python
、
pip
、
jupyter-notebook
、
google-cloud-dataproc
-${REGION}/connectors/connectors.sh,gs://goog-
dataproc
-initialization-actions-${REGION}/
datalab
/
datalab
.sh\--metadata
bigquery
-connector-version=1.0.0 \ --scopes cloud-platform/spark-
浏览 10
提问于2020-01-29
得票数 2
回答已采纳
2
回答
/
datalab
/notebook目录是在
Dataproc
主服务器
上
创建
的
吗?
google-cloud-dataproc
、
google-cloud-datalab
但是,我希望将在/
datalab
/notebook目录中创建
的
笔记本持久化,然后在创建新集群时将它们复制到同一目录中,这样在前一个集群
上
创建
的
所有笔记本都可用。我可以在关机前将笔记本复制到GCS存储桶中,但
无法
在创建新集群后将它们从GCS复制回/
datalab
/network,因为目录/
datalab
/notebook是在我
的
启动脚本运行时或初始化脚本
datalab
.sh这个
浏览 12
提问于2019-04-30
得票数 2
1
回答
如何对应GCP组件或如何理解?
google-cloud-platform
我正在研究如何使用GCP,特别是大
数据
和分析函数,我不太确定它们
的
功能。我做了一些映射来理解这些组件。你能帮我查一下我
的
理解吗?云Pub/Sub: Apache Kafka 云SQL: MySQL,Postg
浏览 3
提问于2019-02-10
得票数 0
1
回答
将
BigQuery
和/或云存储GCS中
的
数据
读入
Dataproc
google-bigquery
、
google-cloud-storage
、
google-cloud-dataproc
我正在将
数据
从
BigQuery
读取
到
dataproc
火花集群中。如果在我
的
示例中,
BigQuery
表中
的
数据
最初是从GCS加载
的
,那么从GCS直接
读取
数据
到星火集群是否更好,因为用于
dataproc
(newAPIHadoopRDD)
的
BigQuery
连接器首先会将
数据
下载到中吗
浏览 2
提问于2017-09-29
得票数 0
回答已采纳
1
回答
在
Dataproc
集群
上
安装
Datalab
/木星
apache-spark
、
google-cloud-platform
、
google-cloud-dataproc
、
google-cloud-datalab
我试图在我
的
Dataproc
集群
上
安装木星笔记本/
Datalab
,但是没有效果。--initialization-actions 'gs://
datalab
-init-bucket-001/
datalab
.sh'启动
Dataproc
,整个命令如下所示: gcloud
dataproc
(原生方法)(UNIXProcess.java:247)
上
没有这样
的
文件或
浏览 1
提问于2018-03-19
得票数 1
回答已采纳
1
回答
无法
在
dataproc
上
运行
datalab
作业
google-cloud-dataproc
、
google-cloud-datalab
我使用
datalab
初始化操作将
datalab
设置为在
dataproc
主节点
上
运行:--initialization-actionsgs://<GCS_BUCKET>/
datalab
/
datalab
.sh \从历史上看,这是可行
的
。我只是得到
浏览 0
提问于2017-05-31
得票数 2
1
回答
用DataprocCreateClusterOperator (气流2.0)传递元
数据
场面临
的
问题
python
、
airflow
、
google-cloud-dataproc
、
airflow-2.x
invalid: [('
bigquery
-connector-version', '1.1.1'), ('spark-
bigquery
-connector-version', '0.17.2'), (('x-goog-api-client', 'gl-python/3.8.12 grpc/1.39.0 gax/1.31.1 gccl/airflow_v2.1.2+composer')] 在进一步<e
浏览 6
提问于2021-12-21
得票数 1
回答已采纳
3
回答
如何在本地linux服务器
上
运行?
google-cloud-datalab
我已在谷歌开发者控制台注册,但我
的
项目不是一个收费项目。我做了“初始化环境”
的
步骤。以及和所描述
的
“构建和运行”。但是,当我在部署在本地linux服务器
上
的
笔记本中运行代码时,会遇到以下错误:bq.Query('SELECT * FROM samples:httplogs.log_20140615极限3').results()/usr/local/lib/py
浏览 0
提问于2015-10-26
得票数 1
1
回答
云
Dataproc
使用
BigQuery
连接器
读取
BigQuery
视图
google-bigquery
、
google-cloud-dataproc
是否有可能让Cloud使用
BigQuery
连接器
读取
BigQuery
视图?另外,对于用户来说,比如在Apache (
Dataproc
)中运行了一些工作负载,在相同
的
数据
上
运行一些工作负载(
BigQuery
)-- =>是否更好地将
数据
保存在(GCS)中,作为avro编码格式(或),是否最好仅以
BigQuery
格式保存这些
数据
,如果可以使用Cloud使用
BigQuery
连
浏览 0
提问于2019-02-01
得票数 0
回答已采纳
2
回答
google.
datalab
.
bigquery
与google.cloud.
bigquery
的
区别
google-cloud-platform
、
google-bigquery
、
google-cloud-datalab
我正在Google平台上使用
Datalab
,并且试图用google.
datalab
.
bigquery
创建一个
BigQuery
数据
集,这时我发现我需要只在google.cloud.
bigquery
库中
的
.
bigquery
库
的
datalab
版本和云版本有什么不同?
datalab
是云库
的
精简版本,还是有不同
的
用途?
浏览 0
提问于2018-06-24
得票数 3
回答已采纳
2
回答
将批
数据
从
BigQuery
读入
Datalab
pandas
、
google-bigquery
、
google-cloud-datalab
我在
BigQuery
表中有一个大
的
数据
集(大约45m行,13 of
的
数据
)。我想在我
的
中处理这些
数据
,以便对熊猫做一些基本
的
统计,然后在
Datalab
单元中使用matplotlib来可视化
数据
。我认为尝试将所有
数据
集加载到熊猫
的
Dataframe中不是一个好主意(至少我会有RAM问题)。 是否可以从
BigQuery
(例如10K行)批量
读取
<em
浏览 1
提问于2017-04-10
得票数 3
回答已采纳
3
回答
google云
上
的
存储
hadoop
、
google-bigquery
我有以下用例:需要使用PySpark分析大量结构化
数据
。
数据
当前为CSV格式。我正在尝试找出在谷歌云
上
存储
数据
的
最佳方式。我
的
理解是HDFS不会工作,因为每次集群关闭,HDFS
数据
都会消失,所以我每次都必须从CSV转换到HDFS,这很耗时。似乎正确
的
策略是使用
BigQuery
,但是我不能确定
BigQuery
是否是持久性
的
?
浏览 20
提问于2017-06-28
得票数 0
回答已采纳
1
回答
如果使用python计算k均值聚类,使用
BigQuery
作为ndarray
的
数据
源是否有优势
google-bigquery
、
pyspark
、
k-means
、
google-cloud-dataproc
我从
Dataproc
的
文档中了解到,可以使用pyspark从
BigQuery
读取
数据
,但是与从CloudStorage
读取
文件表示相比,在具有形状(xxxxxxx )
的
ndarray
上
运行kmeans聚类有优势吗
浏览 2
提问于2016-07-21
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
自学14天后,我毁掉了自己的数据工程师面试
Google AI在现场比赛期间预测NCAA Final Four的获胜者
机器学习人工学weekly-12/24/2017
谷歌发布了用于探测以太坊区块链的工具!
谷歌数据工具支持ETH,可读取、分析以太坊上所有数据
热门
标签
更多标签
云服务器
ICP备案
实时音视频
对象存储
即时通信 IM
活动推荐
运营活动
广告
关闭
领券