使用apache spark或flink的基于S3的流媒体解决方案_使用Apache Spark DataFrame或SQL的非重复计数_如何在spark shell中的Apache Spark2.2中使用s3 - 腾讯云开发者社区

、、、、

我们有批处理管道将文件(主要是csv)写入到s3存储桶中。有些流水线每分钟写入一次，有些每5分钟写入一次。目前，我们有一个批处理应用程序，它每小时运行一次，处理这些文件。取而代之的是，我们决定使用apache spark结构化流式处理，并实时处理数据，而不是每5分钟运行一次批处理作业。我的问题是，这个解决方案的生产有多容易/多难？我唯一担心的是，如果检查点位置损坏，删除检查点目录将重新处理过去1年的数据。有

浏览 27提问于2019-06-29得票数 0

回答已采纳

2回答

Apache Flink vs Twitter Heron？

、、、、

比较Flink和Spark Streaming，Flink和Storm，Storm和Heron有很多问题。这个问题的来源是Apache Flink和Twitter Heron都是真正的流处理框架(而不是像Spark Streaming这样的微批处理框架)。在Flink和Flink vs Spark上有斯利姆·巴尔塔吉的精彩演讲： Ilya Ganelin对各种<e

浏览 27提问于2016-06-05得票数 9

1回答

窗口(固定、滑动等)& Spark SQL DSL中的水印支持

、、

Spark SQL ( DSL而不是API)是否支持结构化流中的窗口功能？Flink中类似的内容如下所示： SELECT user, SUM(amount) FROM Orders GROUP BY TUMBLE(proctime, sp

浏览 24提问于2019-03-08得票数 0

1回答

Apache结构化流与Apache :有什么区别？

、、

我们讨论了以下问题：但是Spark Structured Streaming是在Spark2.2上添加的，它给流媒体带来了很多变化，而且它是非常出色的。我们可以说Spark Strutured Streaming是流处理，还是仍然是批处理？现在Apache Flink和Apache Spark Structured Streaming的最大区别是什么？

浏览 3提问于2017-09-01得票数 13

1回答

消费500个Kafka主题并编写拼图最好的策略是什么？

、、

其中有些是TB级的；有些是每小时MB级的。我想将它们缓冲五分钟，并将它们作为拼图文件写入到S3上的特定位置。我正在尝试为我的Spark或Flink的问题找到最佳的解决方案。对于Spark，我可以使用结构化流媒体来消费Kafka，并按主题编写逻辑。如果我每个主题都有应用程序，我会浪费大量的资源给应用程序主机(驱动程序)，如果我

浏览 13提问于2020-04-18得票数 0

1回答

Flink文件系统支持

博士说“一个不完整的列表”。我在哪里可以找到一个完整的？

浏览 5提问于2018-08-08得票数 0

2回答

弗林克还是火花？当流不重要时

、

最近，我一直在比较火花和Flink的一个全新的项目。在这个项目中，流功能不是那么重要。对~(90) is数据进行批量分析是最重要的。稍后，我将在数据分析中应用ML和数据挖掘。在搜索时，我发现很多文章，演示和视频声称Flink是下一代的分析解决方案。没有多少文章能为火花辩护。另一方面，星火是(或曾经？)非常流行，并广泛部署在非常大的生产系统。我的问题是：对于我的用例来说，流并不重要，我是拥抱F

浏览 5提问于2017-05-19得票数 3

回答已采纳

1回答

Spark streaming scala窗口长度(按对象数量)

、、

我使用spark和scala，我想创建一个窗口操作，在对象的数量中设置长度，即窗口开始为空，因为流启动时，对象一直存储在窗口中，直到它容纳10个对象，当第11个对象到来时，第一个对象被丢弃。这是可能的吗?或者我必须使用其他结构，如列表或数组？文档()和一些谷歌搜索仅涉及基于时间的窗口(长度和间隔)。提前谢谢你。

浏览 2提问于2016-04-19得票数 1

1回答

BucketingSink与S3A在AWS电子病历中引起的Flink* - AWSS3IOException*

、、、

我有一个在AWS EMR中运行的高度并行(400)的Flink应用程序。它使用BucketingSink源码Kafka并汇入S3 (使用RocksDb后端设置检查点)。目的地使用"s3a://“前缀定义。Flink作业是一个持续运行的流媒体应用程序。在任何给定的时间，所有工作进程加在一起都有可能生成/写入400个文件(由于400个并行度)。(Service:

浏览 4提问于2018-12-05得票数 0

2回答

如何使用火花转轮运行云数据流管道？

、、、

我读过管道，它基于Apache，可以与Spark或Flink一起运行。谢谢。

浏览 0提问于2018-06-20得票数 0

回答已采纳

2回答

卡夫卡沉入无汇流数据湖存储

、

我试图找到开源卡夫卡的选择，直接写到Azure数据湖存储Gen2。我似乎没有什么选择，主要是在汇合点周围盘旋，如下所示：是否可以使用开源卡夫卡直接将数据写入ADLS Gen2？如果是，我们如何实现这一点，任何有用的信息共享？

浏览 4提问于2021-06-08得票数 1

1回答

访问S3接入点时出现带有AWS S3插件的Flink主机抛出错误- "null uri FileSync“

、、、、

在遵循之后，我能够通过接入点+ VPC端点从AWS CLI完全访问S3存储桶。基本上我用的是和我使用的方法一样所有的aws s3 ...命令都运行得很好。然而，对于我的</e

浏览 46提问于2021-11-27得票数 0

4回答

Apache S3 Sink是否需要Hadoop进行本地测试？

、、、

我对Apache比较陌生，我正在尝试创建一个简单的项目，该项目生成一个AWS S3桶文件。根据文档，似乎需要安装Hadoop才能做到这一点。如何设置本地环境以允许测试此功能？我已经在本地安装了Apache和Hadoop。我为Hadoop的核心-site.xml配置添加了必要的更改，并将我的HADOOP_CONF路径添加到了flink.yaml配置中。当我尝试通过Flink UI在本地提交我的工作时，我总是会得到一个

浏览 0提问于2016-12-29得票数 4

回答已采纳

1回答

在HDFS或S3以外的分布式文件系统上运行Spark或Flink

、

有没有一种方法可以在分布式文件系统上运行Spark或Flink，比如lustre，或者除了HDFS或者S3之外的任何东西。因此，我们可以使用Unix集群创建分布式文件系统框架，我们是否可以在集群模式下运行spark/flink，而不是独立运行。

浏览 1提问于2020-03-31得票数 0

1回答

来自一个流的几个不同字段的平均值

、、、、

我还没有选择一个流媒体框架，但我现在正在摆弄Flink。但是，我对使用Beam，Spark Streaming持开放态度，无论我发现什么适合我的用例。对于Flink来说，求平均值似乎是通过AggregateFunction https://github.com/apache/flink/blob/master/flink-core/src/mai

浏览 6提问于2019-04-16得票数 0

1回答

处理日志文件: Apache Storm或Spark

、、

我有一个处理日志文件数据的要求。这是相对微不足道的。我有4台服务器，每个服务器上运行2个web应用程序，总共有8个日志文件。这些会定期轮换。我将以下格式的数据写入这些日志文件其中数字是数据存储中的标识符。我想设置一个进程来读取这些日志，对于每个id，它将根据其id被记录的次数来更新计数。它可以是实时的，也可以是批处理的。我的数据存储接口语言是Java。我最初的

浏览 7提问于2016-05-15得票数 0

2回答

FLink中的主成分分析

有没有办法在Apache Flink中使用PCA？当我在谷歌上搜索它进行研究时，我认为找不到任何实现的代码。如果是这样的话，我应该自己开发吗？谢谢。

浏览 14提问于2019-02-13得票数 0

回答已采纳

1回答

如何测量Apache* Spark和*Flink的能耗

、、、

如何测量Apache Spark和Flink的能耗有没有什么工具或技术可以测量Spark和Flink的能耗

浏览 1提问于2020-09-01得票数 0

1回答

什么是窗口标准？

、、、

Apache Spark是基于时间的窗口标准，而Flink是基于记录的窗口标准。任何人都可以详细解释什么是窗口标准？

浏览 2提问于2020-08-26得票数 1

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云