腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
如何使用python对数千行
数据
执行ETL?
python
、
etl
、
data-processing
、
data-management
、
python-datamodel
我有一个pgAdmin
数据
库,它在geojson format.Using中包含数百万行,这个表是我创建的Tableau仪表板。由于行包含geojson格式的
数据
,所以我必须这样查询:jsondata -> 'properties' ->> 'qq',, jsondata'updatedAt'as bigint)/1000 as int) * INTERVAL
浏览 4
提问于2020-04-10
得票数 0
2
回答
如何在Cloud Dataproc上安装Apache
Spark
的自定义版本
apache-spark
、
google-cloud-platform
、
google-cloud-dataproc
如何在安装自定义版本的
Spark
的同时保持与Cloud Dataproc工具的兼容性?
浏览 3
提问于2018-04-12
得票数 3
1
回答
如何在Apache
Spark
中实现递归算法?
apache-spark
、
bigdata
、
apache-flink
、
data-pipeline
我有一个问题,我想在
Spark
中实现一个递归算法,并希望了解是否有任何建议可以在
Spark
中构建它,或者探索其他可能更适合的
数据
分析框架。例如:作业需要递归地列出目录结构/树,并处理节点,结合map/reduce模式将路径或文件组映射到派生
数据
中,递归地对这些派生
数据
进行分组/合并。构建一个在单个节点上运行的解决方案是很简单的(例如,
spark
master),但假设目录结构非常
大
,具有O(十亿)个叶节点。对于使用
Spark</em
浏览 37
提问于2021-06-24
得票数 0
1
回答
将
Spark
处理的中间
数据
复制到目标S3时出现的AWS性能问题
amazon-emr
目前我正在使用AWS电子病历进行
数据处理
。S3被用作着陆区域和最终处理的
数据
。来自S3的最终处理
数据
将被加载到Redshift中,以便客户运行Analytics。一旦源文件在着陆区可用,
数据
需要在15分钟内按SLA显示在Redshift中。订单表的最后一桶是800 is .pySpark用于处理。
数据
清理在2-3分钟的中完成。
Spark
创建了一个用于
数据处理
的中间文件夹,我们从该文件夹将最终处理的
数据
压缩到另一个S3 Bucket
浏览 2
提问于2020-10-04
得票数 0
1
回答
Pyspark能否使用JDBC传递Alter Table
postgresql
、
jdbc
、
pyspark
、
databricks
在使用pyspark从Databricks笔记本加载
数据
后,我希望将alter table命令传递给我的PostgreSQL
数据
库。我知道我可以使用
spark
.read.jdbc传递查询,但在本例中,我想在
数据
加载后添加一个唯一约束。其目的是通过减少创建唯一索引的时间来加速到db中的
数据
加载过程。
浏览 22
提问于2020-06-02
得票数 0
回答已采纳
1
回答
PC上的大量
数据
?
python-3.x
、
database
、
apache-spark
你好,我想处理10亿行,23列的大量
数据
。但在熊猫身上,我甚至无法读取
数据
。那么,如何在我的Dell XPS 9570计算机上处理这些
数据
呢?我能用
spark
来做这个吗?
浏览 11
提问于2019-10-23
得票数 0
1
回答
:它是为了激发sql还是火花流?
apache-spark
、
dataframe
、
apache-spark-sql
、
spark-streaming
星星之火的概念是否进入了
spark
或
Spark
。传统上,
数据
访问似乎属于
Spark
。但是,纠正我的错误,
数据处理
似乎也能够处理实时
数据
,所以我进入了这个问题。
浏览 2
提问于2017-06-29
得票数 0
回答已采纳
1
回答
读取Avro文件,一次一行。Python
pyspark
、
avro
上下文:我想把Avro文件读入
Spark
作为RDD。我想知道,如果我可以访问Avro
数据
模式,是否可以一次解析一行Avro文件。 我正在使用pyspark来编写我的
spark
作业。
浏览 1
提问于2015-12-12
得票数 1
1
回答
DC/OS上的Mesos主配置
mesos
、
mesosphere
、
dcos
我正在为运行Kafka->
Spark
->Cassandra工作负载在AWS上创建DC/OS集群。我可能会使用m3.size或r3
大
型实例。
浏览 3
提问于2016-05-17
得票数 2
回答已采纳
1
回答
Spark
与Hive的区别
apache-spark
、
hive
、
apache-spark-sql
你能帮我理解星火SQl和蜂巢的区别吗?
浏览 2
提问于2017-06-04
得票数 1
2
回答
pyspark和
spark
之间的记忆差异?
apache-spark
、
pyspark
、
rdd
我一直在尝试使用一个PySpark作业来创建包含一堆二进制文件的RDD,然后我使用flatMap操作将二进制
数据处理
成一堆行。所以我打开了
spark
-shell和PySpark,并使用默认设置运行了REPL/shell中的命令,唯一的附加参数是--master yarn.
spark
-shell版本可以工作,而PySpark版本显示了相同的运行PySpark有那么
大
的开销吗?或者这是binaryFiles是新的问题吗?我使用的是
Spark
版本2.2.0.2.6.4.0-91。
浏览 1
提问于2018-08-11
得票数 0
1
回答
Spark
streaming每小时00:00运行处理
apache-spark
我正在尝试使用
Spark
每小时执行一次流
数据处理
,但我希望它开始时接近xx:00:00 (xx是小时id)。这是可能的,还是违背了
Spark
的意识形态?
浏览 1
提问于2018-08-09
得票数 0
2
回答
hadoop和
spark
有什么区别?
hadoop
、
apache-spark
随着see在市场上的增长,我可以看到
spark
在Hadoop上的主要用例如下: 而且处理得很快。 火花会在未来几天取代Hadoop吗?
浏览 0
提问于2015-07-08
得票数 3
回答已采纳
1
回答
Akka在SMACK架构中的作用
scala
、
akka
、
smack
当我们已经有
Spark
的时候,Akka在SMACK架构中的作用是什么?SMACK是由
Spark
提供的关于
数据处理
的,那么我们为什么需要Akka呢?
浏览 0
提问于2016-11-04
得票数 0
1
回答
如何在
spark
2-submits之间保持
Spark
集群的活力?
apache-spark
、
pyspark
我需要在输入
数据
文件到达时通过执行
spark
2-submit来处理它们,以通过pyspark脚本处理输入文件。我观察到的是,对于每个
spark
2--submit,
spark
在进行最新输入文件的
数据处理
之前都会进行大量的初始化。这会导致延迟。如何在
spark
2提交之间保持
Spark
集群的活动状态?单独但相关的问题:除了
spark
2-submit之外,还有什么机制可以用来向
spark
提交有效负载? 提前感谢你的见解。
浏览 2
提问于2017-12-06
得票数 2
1
回答
谷歌的
数据
流和谷歌的
数据处理
有什么不同?
google-cloud-dataflow
、
google-cloud-dataproc
DataFlow本身就有ETL,计算和流处理,为什么我们需要google的Dataproc?
浏览 15
提问于2017-08-16
得票数 1
1
回答
可空字段在写入时更改
dataframe
、
apache-spark
、
apache-spark-sql
); sparkConf.setMaster(master); sparkConf.setAppName("Local
Spark
浏览 3
提问于2016-09-26
得票数 3
回答已采纳
1
回答
Apache
Spark
与MapReduce
apache-spark
、
hadoop
、
mapreduce
我一直在查找
Spark
和MapReduce之间的区别,我真正发现的是
Spark
在内存和磁盘上运行,这使得它的速度大大加快。我还读到,MapReduce对于非常庞大的
数据
集更好,这仅仅是因为你可以将更多的
数据
加载到磁盘上而不是内存中?但想必,使用
Spark
,您无论如何都会在内存和磁盘之间移动
数据
,因此如果内存空间不足,您可以将一些
数据
移回磁盘,然后引入新
数据
进行处理。 基本上,还有没有真正的理由继续使用MapReduce?
浏览 0
提问于2018-05-02
得票数 0
1
回答
星火创建空avro文件的100个
apache-spark
我正在处理一个非常
大
的
数据
集使用火花。
数据
以avro文件的形式存储。
数据
还组织在目录结构中(/ data /yyyy/MM/dd/HH/)。现在,如果我处理最后两年的
数据
,有许多avro文件被处理。
数据处理
代码如下val outp
浏览 3
提问于2016-03-18
得票数 1
回答已采纳
1
回答
是分布式文件存储(HDFS/Cassandra/S3等)是否强制
spark
在群集模式下运行?若有,原因为何?
apache-spark
、
hadoop
、
hdfs
是分布式文件存储(HDFS/Cassandra/S3等)是否强制
spark
在群集模式下运行?若有,原因为何?
Spark
是用于计算海量
数据
的分布式
数据处理
引擎。假设我在mysql中存储了大量
数据
,我想对这些
数据
进行处理。
Spark
从mysql读取
数据
,并在集群节点本身上执行内存(或磁盘)计算。我仍然不能理解为什么在集群模式下运行
spark
需要分布式文件存储?
浏览 3
提问于2021-03-25
得票数 0
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
对象存储
云点播
即时通信 IM
活动推荐
运营活动
广告
关闭
领券