腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
1
回答
使用
apache
spark
或
flink
的
基于
S3
的
流媒体
解决方案
、
、
、
、
我们有批处理管道将文件(主要是csv)写入到
s3
存储桶中。有些流水线每分钟写入一次,有些每5分钟写入一次。目前,我们有一个批处理应用程序,它每小时运行一次,处理这些文件。取而代之
的
是,我们决定
使用
apache
spark
结构化流式处理,并实时处理数据,而不是每5分钟运行一次批处理作业。我
的
问题是,这个
解决方案
的
生产有多容易/多难?我唯一担心
的
是,如果检查点位置损坏,删除检查点目录将重新处理过去1年
的
数据。有
浏览 27
提问于2019-06-29
得票数 0
回答已采纳
2
回答
Apache
Flink
vs Twitter Heron?
、
、
、
、
比较
Flink
和
Spark
Streaming,
Flink
和Storm,Storm和Heron有很多问题。这个问题
的
来源是
Apache
Flink
和Twitter Heron都是真正
的
流处理框架(而不是像
Spark
Streaming这样
的
微批处理框架)。在
Flink
和
Flink
vs
Spark
上有斯利姆·巴尔塔吉
的
精彩演讲: Ilya Ganelin对各种<e
浏览 27
提问于2016-06-05
得票数 9
1
回答
窗口(固定、滑动等)&
Spark
SQL DSL中
的
水印支持
、
、
Spark
SQL ( DSL而不是API)是否支持结构化流中
的
窗口功能?
Flink
中类似的内容如下所示: SELECT user, SUM(amount) FROM Orders GROUP BY TUMBLE(proctime,
sp
浏览 24
提问于2019-03-08
得票数 0
1
回答
Apache
结构化流与
Apache
:有什么区别?
、
、
我们讨论了以下问题: 但是
Spark
Structured Streaming是在
Spark
2.2上添加
的
,它给
流媒体
带来了很多变化,而且它是非常出色
的
。我们可以说
Spark
Strutured Streaming是流处理,还是仍然是批处理?现在
Apache
Flink
和
Apache
Spark
Structured Streaming
的
最大区别是什么?
浏览 3
提问于2017-09-01
得票数 13
1
回答
消费500个Kafka主题并编写拼图最好
的
策略是什么?
、
、
其中有些是TB级
的
;有些是每小时MB级
的
。 我想将它们缓冲五分钟,并将它们作为拼图文件写入到
S3
上
的
特定位置。我正在尝试为我
的
Spark
或
Flink
的
问题找到最佳
的
解决方案
。 对于
Spark
,我可以
使用
结构化
流媒体
来消费Kafka,并按主题编写逻辑。如果我每个主题都有应用程序,我会浪费大量
的
资源给应用程序主机(驱动程序),如果我
浏览 13
提问于2020-04-18
得票数 0
1
回答
Flink
文件系统支持
博士说“一个不完整
的
列表”。我在哪里可以找到一个完整
的
?
浏览 5
提问于2018-08-08
得票数 0
2
回答
推荐,
Flink
,星火MLLib,“灰色盒子”
、
、
我理解摒弃了许多MapReduce算法,它将
基于
Apache
或
Spark
或
其他引擎,比如h2o (
基于
"
Apache
: Beyond MapReduce“
的
介绍)。我想尝试一些推荐算法,但我不太确定什么是新
的
,什么是“不推荐
的
”。我看到了以下链接, 指
spark
-rowsimilarity和
spark
-itemsimilarity。同时,
Ap
浏览 5
提问于2016-05-14
得票数 0
回答已采纳
1
回答
弗林克还是火花?当流不重要时
、
最近,我一直在比较火花和
Flink
的
一个全新
的
项目。在这个项目中,流功能不是那么重要。对~(90) is数据进行批量分析是最重要
的
。稍后,我将在数据分析中应用ML和数据挖掘。在搜索时,我发现很多文章,演示和视频声称
Flink
是下一代
的
分析
解决方案
。没有多少文章能为火花辩护。另一方面,星火是(
或
曾经?)非常流行,并广泛部署在非常大
的
生产系统。我
的
问题是:对于我
的
用例来说,流并不重要,我是拥抱
F
浏览 5
提问于2017-05-19
得票数 3
回答已采纳
1
回答
Spark
streaming scala窗口长度(按对象数量)
、
、
我
使用
spark
和scala,我想创建一个窗口操作,在对象
的
数量中设置长度,即窗口开始为空,因为流启动时,对象一直存储在窗口中,直到它容纳10个对象,当第11个对象到来时,第一个对象被丢弃。这是可能
的
吗?或者我必须
使用
其他结构,如列表
或
数组?文档()和一些谷歌搜索仅涉及
基于
时间
的
窗口(长度和间隔)。 提前谢谢你。
浏览 2
提问于2016-04-19
得票数 1
1
回答
BucketingSink与S3A在AWS电子病历中引起
的
Flink
- AWSS3IOException
、
、
、
我有一个在AWS EMR中运行
的
高度并行(400)
的
Flink
应用程序。它
使用
BucketingSink源码Kafka并汇入
S3
(
使用
RocksDb后端设置检查点)。目的地
使用
"s3a://“前缀定义。
Flink
作业是一个持续运行
的
流媒体
应用程序。在任何给定
的
时间,所有工作进程加在一起都有可能生成/写入400个文件(由于400个并行度)。(Service:
浏览 4
提问于2018-12-05
得票数 0
2
回答
如何
使用
火花转轮运行云数据流管道?
、
、
、
我读过管道,它
基于
Apache
,可以与
Spark
或
Flink
一起运行。谢谢。
浏览 0
提问于2018-06-20
得票数 0
回答已采纳
2
回答
卡夫卡沉入无汇流数据湖存储
、
我试图找到开源卡夫卡
的
选择,直接写到Azure数据湖存储Gen2。我似乎没有什么选择,主要是在汇合点周围盘旋,如下所示: 是否可以
使用
开源卡夫卡直接将数据写入ADLS Gen2?如果是,我们如何实现这一点,任何有用
的
信息共享?
浏览 4
提问于2021-06-08
得票数 1
1
回答
访问
S3
接入点时出现带有AWS
S3
插件
的
Flink
主机抛出错误- "null uri FileSync“
、
、
、
、
在遵循之后,我能够通过接入点+ VPC端点从AWS CLI完全访问
S3
存储桶。基本上我用
的
是和我
使用
的
方法一样所有的aws
s3
...命令都运行得很好。然而,对于我
的</e
浏览 46
提问于2021-11-27
得票数 0
4
回答
Apache
S3
Sink是否需要Hadoop进行本地测试?
、
、
、
我对
Apache
比较陌生,我正在尝试创建一个简单
的
项目,该项目生成一个AWS
S3
桶文件。根据文档,似乎需要安装Hadoop才能做到这一点。 如何设置本地环境以允许测试此功能?我已经在本地安装了
Apache
和Hadoop。我为Hadoop
的
核心-site.xml配置添加了必要
的
更改,并将我
的
HADOOP_CONF路径添加到了
flink
.yaml配置中。当我尝试通过
Flink
UI在本地提交我
的
工作时,我总是会得到一个
浏览 0
提问于2016-12-29
得票数 4
回答已采纳
1
回答
在HDFS
或
S3
以外
的
分布式文件系统上运行
Spark
或
Flink
、
有没有一种方法可以在分布式文件系统上运行
Spark
或
Flink
,比如lustre,或者除了HDFS或者
S3
之外
的
任何东西。因此,我们可以
使用
Unix集群创建分布式文件系统框架,我们是否可以在集群模式下运行
spark
/
flink
,而不是独立运行。
浏览 1
提问于2020-03-31
得票数 0
1
回答
来自一个流
的
几个不同字段
的
平均值
、
、
、
、
我还没有选择一个
流媒体
框架,但我现在正在摆弄
Flink
。但是,我对
使用
Beam,
Spark
Streaming持开放态度,无论我发现什么适合我
的
用例。对于
Flink
来说,求平均值似乎是通过AggregateFunction https://github.com/
apache
/
flink
/blob/master/
flink
-core/src/mai
浏览 6
提问于2019-04-16
得票数 0
1
回答
处理日志文件:
Apache
Storm
或
Spark
、
、
我有一个处理日志文件数据
的
要求。这是相对微不足道
的
。我有4台服务器,每个服务器上运行2个web应用程序,总共有8个日志文件。这些会定期轮换。我将以下格式
的
数据写入这些日志文件其中数字是数据存储中
的
标识符。我想设置一个进程来读取这些日志,对于每个id,它将根据其id被记录
的
次数来更新计数。它可以是实时
的
,也可以是批处理
的
。我
的
数据存储接口语言是Java。我最初
的
浏览 7
提问于2016-05-15
得票数 0
2
回答
FLink
中
的
主成分分析
有没有办法在
Apache
Flink
中
使用
PCA? 当我在谷歌上搜索它进行研究时,我认为找不到任何实现
的
代码。 如果是这样的话,我应该自己开发吗? 谢谢。
浏览 14
提问于2019-02-13
得票数 0
回答已采纳
1
回答
如何测量
Apache
Spark
和
Flink
的
能耗
、
、
、
如何测量
Apache
Spark
和
Flink
的
能耗有没有什么工具
或
技术可以测量
Spark
和
Flink
的
能耗
浏览 1
提问于2020-09-01
得票数 0
1
回答
什么是窗口标准?
、
、
、
Apache
Spark
是
基于
时间
的
窗口标准,而
Flink
是
基于
记录
的
窗口标准。 任何人都可以详细解释什么是窗口标准?
浏览 2
提问于2020-08-26
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
我们为什么从Kafka迁移至Pulsar?
一文读懂Apache Spark
大数据Hadoop之——Apache Hudi 数据湖实战操作(Spark,Flink与Hudi整合)
什么是 Apache Spark?大数据分析平台详解
Apache Zeppelin 一文打尽
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券