云 Spark - 腾讯云开发者社区

、、

如何在安装自定义版本的Spark的同时保持与Cloud Dataproc工具的兼容性？

浏览 3提问于2018-04-12得票数 3

2回答

随着Dataproc img版本2.0.39-ubuntu18 18的增加，GCP云日志记录成本增加

、、

我有一个带有映像版本- 2.0.39-ubuntu18 18的Dataproc集群，它似乎将所有日志都放入了云日志记录中，这大大增加了我们的成本。=gs://dataproc-spark-logs/joblogs 若要停止使用云日志记录，请执行以下操作。日志也被重新定向到云日志记录。(映像版本1.4.37-ubuntu18 18，类似于映像版本2.0-ubuntu18 18)，它具有类似的配置，但似乎没有那么多地使用云日志记录。我需要更改什么来确保Dataproc作业(吡火花

浏览 16提问于2022-05-30得票数 1

回答已采纳

2回答

用于NRT数据应用的Google

、、、、

客户端根据数据包(Kafka)发布不同主题的数据，并将其传递给流式分析管道(Spark)。Kafka、Spark和HDFS可以通过亚马逊EC2 (或Google使用连接器)进行可选部署。我读到了谷歌云DataFlow，云存储，BigQuery和Pub。此外，它还将利用DataFlow管道进行分析和云存储，并使用cloudera火花连接器进行数据流分析，并使用spark for ML (预测API有点限制性)。可以在Google云上部署Kafka/Sp

浏览 2提问于2016-02-16得票数 0

1回答

使用spark将拼图数据从谷歌云存储加载到BigQuery

、、

如何从谷歌云存储加载拼图数据到spark，并将其保存到BigQuery？

浏览 13提问于2019-12-04得票数 0

3回答

如何从电子病历连接到GCS

、、、

我们有一个在EMR集群上运行的火花流应用程序，我们需要将流数据存储到中。

浏览 2提问于2019-02-28得票数 0

4回答

Google Dataproc支持Apache Impala吗？

、、

我刚开始使用云服务，在谷歌的云平台上导航是非常可怕的。当涉及到Google Dataproc时，他们确实在宣传Hadoop、Spark和Hive。我的问题是，Impala到底有没有？我想做一些基准项目使用所有这四个工具，我需要Apache Impala以及Spark/Hive。

浏览 1提问于2019-05-31得票数 2

2回答

我怎样才能逃避地形上的真假？

、

" { spark_driver_port = "${var.spark_driver_port}"

浏览 1提问于2019-01-04得票数 1

回答已采纳

1回答

写入minio (s3)分区失败

、、、、

设置： "fs.s3a.impl", "org.apache.hadoop.fs.s3a.S3AFileSystem" spark_session.sparkContext_jsc.hadoopConfiguration().set( "fs.s3a.path.style.access"

浏览 4提问于2021-11-17得票数 0

3回答

如何从oracle数据库中提取数据并保存到Google云平台

、

需要从oracle数据库中提取数据并存储在Google云平台中。数据大小约为10 TB。有没有可能通过Spark？数据必须每月传输一次。在GCP中存储和处理的数据如下： Oracle数据库到云存储(不必做CSV导出)，然后它将是干净的，并准备在Dataprep中，这将通过数据流进一步处理，最后它将被存储在Big Query下(从大查询数据科学家将使用数据来创建他们的模型我正在考虑从spark中提取数据(通过将DataProc用于spark作业)，并将其存储在GCP (任何一个云存储或大表

浏览 2提问于2019-11-17得票数 0

1回答

火花斯威夫特集成地板

、、、、

我已经使用Spark1.3.0，并使用它来编写Parquet文件到Openstack对象商店一段时间。我使用了大约12个parquet文件，它写在斯威夫特上的几个部分的地板文件。写文件没问题。(ExternalSorter.scala:210) at org.apache.spark.scheduler.ShuffleMapTask.runTask(Shuf

浏览 4提问于2015-09-04得票数 6

回答已采纳

1回答

无法连接火花-云彩

、、、、

我试图使用Java代码从Cloudant获取数据并获取错误，火花2.0.1， package spark.cloudant.connecter; import org.apache.spark.api.java.JavaSparkCont

浏览 5提问于2016-12-02得票数 0

回答已采纳

1回答

如何将RStudio云与星火连接？

、、

我使用的是RStudio云，我想使用sparklyr包连接到Spark。我试过一个本地的主人和一个yarn的主人。代码如下。library(sparklyr)sc <- spark_connect(master = "local")# Error in system2(file.path(spark_home, "bin", &

浏览 5提问于2022-03-13得票数 2

回答已采纳

1回答

Spark二进制数据源与sc.binaryFiles

、、、

Spark 3.0支持使用新的data source读取二进制数据 val df = spark.read.format(“binaryFile”).load("/path/to/data") 使用以前的spark版本，您可以使用以下方式云加载数据： val rdd = sc.binaryFiles("/path/to/data") 除了可以选择使用High-Level API (Dataset)访问二进制数据之外，

浏览 75提问于2020-06-26得票数 1

2回答

如何将spark中的数据保存到Google云平台？

、、

我将通过Spark从oracle数据库中提取数据，然后我想将这些数据从spark存储到Google云平台的任何存储中。有可能吗？数据大小约为10TB。

浏览 2提问于2019-11-19得票数 0

2回答

下线Node.js 8后，Firebase云函数会发生什么变化？

、、

我在使用Node.js 8的应用程序中使用Spark计划。在Spark计划中禁用此版本后，云函数会发生什么情况？我是否必须升级计划才能使用该模块？

浏览 22提问于2020-12-19得票数 0

2回答

PySpark ML: LinearSVC的OnevsRest策略

、、、、

我在Windows10上安装了Spark 2.3.0。我想使用线性支持向量机分类器进行交叉验证的训练，但对于有3个类的数据集。因此，我正在尝试应用Spark ML的一种vs Rest策略。

浏览 2提问于2018-05-15得票数 2

1回答

无法使用dataproc API创建具有属性的群集。

、

gceClusterConfig': { }, 'properties' : {'string' : {'spark:spark.executor.memory' : '10gb'}}, },result = dataproc \ .regions()

浏览 2提问于2017-08-19得票数 0

回答已采纳

1回答

任务在community.cloud.databricks中不可序列化

、、

Databricks社区云抛出了一个org.apache.spark.SparkException: Task not serializable异常，我的本地机器没有抛出执行相同的代码。为了避免额外的混洗，包含雇员列表的变量被广播，然而，当返回排名的时候，databricks社区云抛出异常。import org.apache.spark.sql.SparkSession.

浏览 40提问于2019-10-06得票数 1

1回答

想购买云服务做大数据计算及数据分析，如何选择满足个人日常学习的配置？

想购买云服务做大数据计算和分析，如何选择满足个人日常学习的配置？我是小白，从未用过云服务，现在需要用到Hadoop、Hbase、Mysql、Hive、Spark、zookeeper等，只是学习使用

浏览 153提问于2018-06-21

1回答

不允许EMR主SSH

、、

为了运行Scala spark作业和运行spark shell查询……我已经SSHing进入电子病历的主节点，现在负责管理云的团队不允许我通过SSH进入电子病历主节点。可以利用的替代模式有哪些？

浏览 21提问于2018-09-07得票数 0

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

如何在Cloud Dataproc上安装Apache Spark的自定义版本

随着Dataproc img版本2.0.39-ubuntu18 18的增加，GCP云日志记录成本增加

用于NRT数据应用的Google

使用spark将拼图数据从谷歌云存储加载到BigQuery

如何从电子病历连接到GCS

Google Dataproc支持Apache Impala吗？

我怎样才能逃避地形上的真假？

写入minio (s3)分区失败

如何从oracle数据库中提取数据并保存到Google云平台

火花斯威夫特集成地板

无法连接火花-云彩

如何将RStudio云与星火连接？

Spark二进制数据源与sc.binaryFiles

如何将spark中的数据保存到Google云平台？

下线Node.js 8后，Firebase云函数会发生什么变化？

PySpark ML: LinearSVC的OnevsRest策略

无法使用dataproc API创建具有属性的群集。

任务在community.cloud.databricks中不可序列化

想购买云服务做大数据计算及数据分析，如何选择满足个人日常学习的配置？

不允许EMR主SSH

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐