腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
如何在Apache
Spark
中实现递归算法?
、
、
、
我有一个问题,我想在
Spark
中实现一个递归算法,并希望了解是否有任何建议可以在
Spark
中构建它,或者探索其他可能更适合的数据分析框架。构建一个在单个节点上运行的解决方案是很简单的(例如,
spark
master),但假设目录结构非常
大
,具有O(十亿)个叶节点。对于使用
Spark
或其他框架/
数据处理
技术
构建递归/迭代类型的数据管道,有什么建议吗?
浏览 37
提问于2021-06-24
得票数 0
1
回答
Spark
vs Hadoop
、
、
、
、
我有一个使用Hadoop或
Spark
编写大
数据处理
应用程序的要求。我知道Hadoop对于批处理应用来说是最好的
技术
,而
Spark
对于分析应用来说是最好的
技术
。应用程序将获得一个输入文件和几个配置文件。现在,利益相关者建议使用
Spark
,因为他们认为
Spark
比MapReduce更快。但是我认为
Spark
不适合这个场景,因为它适用于分析应用,而不是批处理。此外,我只能在
Spark
中看到类似聚合函数的API,无法找到任何内置的API来按记
浏览 0
提问于2015-01-06
得票数 1
1
回答
“部分数据负载”术语
、
、
、
在我的例子中,我有一个非常
大
的文件,即“环境A”。为了改进我的
数据处理
(并阻止我的PC崩溃),我只一次加载这个环境的一小部分。我不会将数据分割成不同的文件。是否有一个术语更简洁地描述了这种
数据处理
技术
,而不是“部分负载”?
浏览 0
提问于2022-10-18
得票数 0
2
回答
如何在Cloud Dataproc上安装Apache
Spark
的自定义版本
、
、
如何在安装自定义版本的
Spark
的同时保持与Cloud Dataproc工具的兼容性?
浏览 3
提问于2018-04-12
得票数 3
1
回答
在不同数据库上使用SparkSQL处理查询
、
我希望将
Spark
(安装在机器1上)与连接器一起用于不同的数据存储,如HBase、Hive、Cassandra和MySQL (安装在机器2上以执行Min/Max、averaging等简单的分析)。我的问题是:这些查询是在Machine1或
Spark
上处理的,只是作为一个接口来执行不同的分析,而是在数据存储端(即。机器2)?
浏览 1
提问于2021-08-25
得票数 1
回答已采纳
1
回答
WCF与
Spark
的集成
、
、
、
、
对于一些时间和资源密集型任务,我们正在尝试将WCF服务与Apache
Spark
集成。WCF服务应该调用Apache
Spark
来执行任务。Apache
Spark
支持java而不是C#。我们需要一些方法来从WCF服务调用
Spark
来进行
数据处理
。我们正在尝试以插入式山墙方式添加
spark
。如果在不久的将来出现任何新
技术
,那么我们可以很容易地用它来取代
spark
。一种方法是使用消息队列,其中WCF将任务放在队列中,
spark
从队列中获
浏览 0
提问于2015-12-23
得票数 2
1
回答
如何使用python对数千行数据执行ETL?
、
、
、
、
我有一个pgAdmin数据库,它在geojson format.Using中包含数百万行,这个表是我创建的Tableau仪表板。由于行包含geojson格式的数据,所以我必须这样查询:jsondata -> 'properties' ->> 'qq',,jsondata -> 'properties' -&g
浏览 4
提问于2020-04-10
得票数 0
2
回答
单通计算与多通计算的区别
、
我正在读一篇关于Apache
Spark
的文章,我发现了以下几句话: Hadoop作为一种大型
数据处理
技术
已经存在了10年,并已被证明是处理大数据集的首选解决方案。但是,我不太确定答案是否也适用于
数据处理
。有人能解释一下什么是单通计算和多通计算吗?为什么后者更好,因而在火花中使用?
浏览 5
提问于2019-10-16
得票数 1
回答已采纳
1
回答
将
Spark
处理的中间数据复制到目标S3时出现的AWS性能问题
目前我正在使用AWS电子病历进行
数据处理
。S3被用作着陆区域和最终处理的数据。来自S3的最终处理数据将被加载到Redshift中,以便客户运行Analytics。
Spark
创建了一个用于
数据处理
的中间文件夹,我们从该文件夹将最终处理的数据压缩到另一个S3 Bucket。
spark
.conf.set('
spark
.sql.sources.partitionOverwriteMode', 'dynamic
浏览 2
提问于2020-10-04
得票数 0
1
回答
Pyspark能否使用JDBC传递Alter Table
、
、
、
我知道我可以使用
spark
.read.jdbc传递查询,但在本例中,我想在数据加载后添加一个唯一约束。其目的是通过减少创建唯一索引的时间来加速到db中的数据加载过程。
浏览 22
提问于2020-06-02
得票数 0
回答已采纳
1
回答
弗林克还是火花?当流不重要时
、
非常流行,并广泛部署在非常
大
的生产系统。顺便说一下,我读过。这不能给我一个好的答案。
浏览 5
提问于2017-05-19
得票数 3
回答已采纳
1
回答
PC上的大量数据?
、
、
我能用
spark
来做这个吗?有什么建议可以在我的电脑上处理吗? 谢谢
浏览 11
提问于2019-10-23
得票数 0
1
回答
:它是为了激发sql还是火花流?
、
、
、
星星之火的概念是否进入了
spark
或
Spark
。传统上,数据访问似乎属于
Spark
。但是,纠正我的错误,
数据处理
似乎也能够处理实时数据,所以我进入了这个问题。
浏览 2
提问于2017-06-29
得票数 0
回答已采纳
2
回答
pyspark和
spark
之间的记忆差异?
、
、
我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD,然后我使用flatMap操作将二进制
数据处理
成一堆行。所以我打开了
spark
-shell和PySpark,并使用默认设置运行了REPL/shell中的命令,唯一的附加参数是--master yarn.
spark
-shell版本可以工作,而PySpark版本显示了相同的运行PySpark有那么
大
的开销吗?或者这是binaryFiles是新的问题吗?我使用的是
Spark
版本2.2.0.2.6.4.0-91。
浏览 1
提问于2018-08-11
得票数 0
1
回答
DC/OS上的Mesos主配置
、
、
我正在为运行Kafka->
Spark
->Cassandra工作负载在AWS上创建DC/OS集群。我可能会使用m3.size或r3
大
型实例。
浏览 3
提问于2016-05-17
得票数 2
回答已采纳
1
回答
读取Avro文件,一次一行。Python
、
上下文:我想把Avro文件读入
Spark
作为RDD。我想知道,如果我可以访问Avro数据模式,是否可以一次解析一行Avro文件。 我正在使用pyspark来编写我的
spark
作业。
浏览 1
提问于2015-12-12
得票数 1
1
回答
Spark
streaming每小时00:00运行处理
我正在尝试使用
Spark
每小时执行一次流
数据处理
,但我希望它开始时接近xx:00:00 (xx是小时id)。这是可能的,还是违背了
Spark
的意识形态?
浏览 1
提问于2018-08-09
得票数 0
1
回答
Akka在SMACK架构中的作用
、
、
当我们已经有
Spark
的时候,Akka在SMACK架构中的作用是什么?SMACK是由
Spark
提供的关于
数据处理
的,那么我们为什么需要Akka呢?
浏览 0
提问于2016-11-04
得票数 0
1
回答
Apache
Spark
与MapReduce
、
、
我一直在查找
Spark
和MapReduce之间的区别,我真正发现的是
Spark
在内存和磁盘上运行,这使得它的速度大大加快。但想必,使用
Spark
,您无论如何都会在内存和磁盘之间移动数据,因此如果内存空间不足,您可以将一些数据移回磁盘,然后引入新数据进行处理。 基本上,还有没有真正的理由继续使用MapReduce?
浏览 0
提问于2018-05-02
得票数 0
1
回答
如何在
spark
2-submits之间保持
Spark
集群的活力?
、
我需要在输入数据文件到达时通过执行
spark
2-submit来处理它们,以通过pyspark脚本处理输入文件。我观察到的是,对于每个
spark
2--submit,
spark
在进行最新输入文件的
数据处理
之前都会进行大量的初始化。这会导致延迟。如何在
spark
2提交之间保持
Spark
集群的活动状态?单独但相关的问题:除了
spark
2-submit之外,还有什么机制可以用来向
spark
提交有效负载? 提前感谢你的见解。
浏览 2
提问于2017-12-06
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Spark计算引擎:Spark数据处理模式详解
Waterdrop帮你快速玩转Spark数据处理
Spark的数据处理模型是什么,它与传统MapReduce有何不同?
大数据技术,Spark详细介绍,Spark和Hadoop的区别
大数据之谜Spark基础篇,我们为什么选择Spark技术
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券