腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
hadoop和
spark
有什么区别?
hadoop
、
apache-spark
随着see在市场上的增长,我可以看到
spark
在Hadoop上的主要用例如下: 而且处理得很快。 火花会在未来几天取代Hadoop吗?
浏览 0
提问于2015-07-08
得票数 3
回答已采纳
1
回答
有人能解释一下吗:"
Spark
支持与Hive不同的用例。“
hadoop
、
hive
、
apache-spark
、
shark-sql
我指的是以下链接: Hive是使用星火优化器还是构建自己的优化器?
浏览 4
提问于2014-08-27
得票数 1
回答已采纳
1
回答
错误火花-装配-1.4.1-hadoop2.6.0.jar不存在
apache-spark
我正在尝试提交一个星火应用程序从本地
机器
终端到我的集群。我在用我也需要在集群上运行驱动程序,而不是在我提交应用程序的
机器
上,即我的本地
机器
上。我在用--class com.my.application.XApp
Spark
1.4.1.2.3 Apache
浏览 3
提问于2015-12-21
得票数 0
2
回答
SparkSQL到底是什么?
apache-spark
、
mapreduce
、
apache-spark-sql
、
bigdata
或者是某种技术允许您连接到SQL数据库并使用
Spark
查询它?在这种情况下,这里的火花有什么意义--为什么不直接使用SQL?还是您可以将结构化SQL数据与平面数据结合使用?
浏览 0
提问于2016-01-18
得票数 3
回答已采纳
1
回答
将火花数据转换为R数据
r
、
apache-spark
、
apache-spark-sql
、
apache-zeppelin
、
sparkr
我在工作中使用齐柏林飞艇上的R来开发
机器
学习模型。我使用%sparkr, sql(Constring, 'select * from table')从Hive表中提取数据,默认情况下,它生成一个包含9,400万条记录的
spark
数据帧。但是,我不能在这个
Spark
上执行所有的R
数据处理
任务,所以我尝试使用Collect(), as.data.frame()将其转换为R数据帧,但是我遇到了内存节点/超时问题。我想知道堆栈溢出社区是否知道通过避免超时问题将
Spark
转换为R的其他
浏览 0
提问于2018-08-09
得票数 0
2
回答
如何在Cloud Dataproc上安装Apache
Spark
的自定义版本
apache-spark
、
google-cloud-platform
、
google-cloud-dataproc
如何在安装自定义版本的
Spark
的同时保持与Cloud Dataproc工具的兼容性?
浏览 3
提问于2018-04-12
得票数 3
2
回答
YARN没有使用Google Dataproc实例中的所有可用内存
out-of-memory
、
google-cloud-platform
、
hadoop-yarn
、
google-cloud-dataproc
我正在使用h1-highmem-16
机器
运行
数据处理
作业,每台
机器
都有104 GB的内存。为什么YARN没有使用全部104 GB的内存?
浏览 21
提问于2017-01-19
得票数 3
回答已采纳
1
回答
如何使用python对数千行数据执行ETL?
python
、
etl
、
data-processing
、
data-management
、
python-datamodel
我有一个pgAdmin数据库,它在geojson format.Using中包含数百万行,这个表是我创建的Tableau仪表板。由于行包含geojson格式的数据,所以我必须这样查询:jsondata -> 'properties' ->> 'qq',,jsondata -> 'properties' -&g
浏览 4
提问于2020-04-10
得票数 0
1
回答
如何在Apache
Spark
中实现递归算法?
apache-spark
、
bigdata
、
apache-flink
、
data-pipeline
我有一个问题,我想在
Spark
中实现一个递归算法,并希望了解是否有任何建议可以在
Spark
中构建它,或者探索其他可能更适合的数据分析框架。构建一个在单个节点上运行的解决方案是很简单的(例如,
spark
master),但假设目录结构非常
大
,具有O(十亿)个叶节点。对于使用
Spark
或其他框架/
数据处理
技术构建递归/迭代类型的数据管道,有什么建议吗?
浏览 37
提问于2021-06-24
得票数 0
2
回答
Apache
Spark
处理能力和资格
json
、
mongodb
、
python-3.x
、
apache-spark
我是Apache
Spark
的新手,不知道它是否适合我的特定场景。在我的例子中,我正在抓取小的数据集(作为MongoDB的JSON文件)。我正在尝试的是对这些数据文件运行
机器
学习(分类/回归)算法,并从中获取信息。 当你考虑这种情况时,你认为
Spark
有资格在集群环境中通过并行处理来加速吗?或者你认为我应该收敛到一些其他的选择?
浏览 5
提问于2017-06-11
得票数 0
1
回答
将
Spark
处理的中间数据复制到目标S3时出现的AWS性能问题
amazon-emr
目前我正在使用AWS电子病历进行
数据处理
。S3被用作着陆区域和最终处理的数据。来自S3的最终处理数据将被加载到Redshift中,以便客户运行Analytics。
Spark
创建了一个用于
数据处理
的中间文件夹,我们从该文件夹将最终处理的数据压缩到另一个S3 Bucket。
spark
.conf.set('
spark
.sql.sources.partitionOverwriteMode', 'dynamic
浏览 2
提问于2020-10-04
得票数 0
1
回答
Pyspark能否使用JDBC传递Alter Table
postgresql
、
jdbc
、
pyspark
、
databricks
我知道我可以使用
spark
.read.jdbc传递查询,但在本例中,我想在数据加载后添加一个唯一约束。其目的是通过减少创建唯一索引的时间来加速到db中的数据加载过程。
浏览 22
提问于2020-06-02
得票数 0
回答已采纳
1
回答
我在哪里运行
spark
- Standalone、Hadoop或Mesos
hadoop
、
apache-spark
、
hadoop-yarn
、
mesos
我正在学习
Spark
,但如果我必须在Hadoop/Yarn或Mesos上运行
spark
,我会感到困惑。 如果我在Hadoop/Mesos上运行,会有什么性能提升吗?
浏览 0
提问于2015-07-24
得票数 1
1
回答
弗林克还是火花?当流不重要时
apache-spark
、
apache-flink
非常流行,并广泛部署在非常
大
的生产系统。顺便说一下,我读过。这不能给我一个好的答案。
浏览 5
提问于2017-05-19
得票数 3
回答已采纳
1
回答
PC上的大量数据?
python-3.x
、
database
、
apache-spark
我能用
spark
来做这个吗?有什么建议可以在我的电脑上处理吗? 谢谢
浏览 11
提问于2019-10-23
得票数 0
1
回答
:它是为了激发sql还是火花流?
apache-spark
、
dataframe
、
apache-spark-sql
、
spark-streaming
星星之火的概念是否进入了
spark
或
Spark
。传统上,数据访问似乎属于
Spark
。但是,纠正我的错误,
数据处理
似乎也能够处理实时数据,所以我进入了这个问题。
浏览 2
提问于2017-06-29
得票数 0
回答已采纳
2
回答
pyspark和
spark
之间的记忆差异?
apache-spark
、
pyspark
、
rdd
我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD,然后我使用flatMap操作将二进制
数据处理
成一堆行。所以我打开了
spark
-shell和PySpark,并使用默认设置运行了REPL/shell中的命令,唯一的附加参数是--master yarn.
spark
-shell版本可以工作,而PySpark版本显示了相同的运行PySpark有那么
大
的开销吗?或者这是binaryFiles是新的问题吗?我使用的是
Spark
版本2.2.0.2.6.4.0-91。
浏览 1
提问于2018-08-11
得票数 0
1
回答
选择google云工具来执行要求苛刻的python脚本
google-cloud-platform
、
google-cloud-datalab
我应该分配一台
大
机器
吗?我不知道需要多大的
机器
(资源)。以防万一,数据流不能用于这种
数据处理
浏览 13
提问于2018-02-21
得票数 1
1
回答
DC/OS上的Mesos主配置
mesos
、
mesosphere
、
dcos
我正在为运行Kafka->
Spark
->Cassandra工作负载在AWS上创建DC/OS集群。我可能会使用m3.size或r3
大
型实例。
浏览 3
提问于2016-05-17
得票数 2
回答已采纳
1
回答
Flask + Pyspark:重复的
spark
会话
python
、
apache-spark
、
flask
、
pyspark
import col, udf
spark
= SparkSession \ .appName("app") \ .config("
spark
.cores.max", 4) \
浏览 49
提问于2019-02-11
得票数 1
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark计算引擎:Spark数据处理模式详解
Waterdrop帮你快速玩转Spark数据处理
基于Spark的机器学习经验
Spark机器学习库之线性回归
Spark MLlib基础入门_LS-Spark MLlib 机器学习算法与源码解析
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券