大数据架构怎么做流批一体 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

PyFlink性能与Scala的比较

pyspark、apache-flink、spark-streaming、pyflink

大照片。我们的目标是建立冷和热层的Lambda架构。冷(批)层将用Apache (PySpark)实现。但是对于热(流)层有不同的选择:火花流或Flink。因此，Apache是纯流的，而不是Spark的微批，我倾向于选择Apache。但我唯一关心的是PyFlink的性能。PySpark流的延迟会更少吗？它比Scala编写的Flink代码慢吗？

浏览 3提问于2021-11-05得票数 1

回答已采纳

1回答

箭流端到端是免费的吗？

apache-arrow

我对箭流很困惑。描述Arrow的许多来源都只是转述了然而，据我所知，

浏览 1提问于2019-12-13得票数 1

回答已采纳

1回答

移动-消费者集群

amazon-kinesis

我有一个运动流，用来排任务队列，比如发送电子邮件。我有一群消费者，他们应该阅读队列，然后发送电子邮件。

浏览 4提问于2016-04-08得票数 0

回答已采纳

1回答

如何在Spark Streaming中累积数据帧？

apache-spark、dataframe、apache-spark-sql、spark-streaming

我知道Spark Streaming会产生批量的RDDs，但我想积累一个大的Dataframe，随着每一批的更新(通过将新的dataframe附加到末尾)。有没有办法像这样访问所有的历史流数据？我见过mapWithState()，但还没有看到它专门积累数据帧。

浏览 12提问于2018-08-01得票数 1

2回答

Spark Streaming -计数状态中的不同元素

python、scala、apache-spark、spark-streaming、spark-dataframe

我有一个包含VideoID-UserID的键值对的数据流，按VideoID计算不同的UserID组的最佳做法是什么？foo,1如上所述，我想随时通过删除冗余的foo,1和bar,2来获得VideoID-CountUserID，所以结果应该是：bar: 2该怎么做呢？我正在开发Spark 1.6，但是后续

浏览 2提问于2017-03-07得票数 2

1回答

限制ApacheSpark3.0结构化流- MicroBatchStream中的批处理大小

scala、apache-spark、spark-structured-streaming

我正在编写一个定制的结构化流源，不知道如何限制批处理大小。然后，它返回数据的分区，直到在单个批处理中提供的最新偏移量为止。当我开始一个新的流查询时，会产生一个非常大的第一批，因为所有的历史数据都会被塞进一个批中。是否有一种(明显的)方法来限制流批量大小？

浏览 8提问于2022-05-21得票数 1

回答已采纳

1回答

我正在经历一个问题，开始在一个非常大的卡夫卡主题上启动流媒体，这个话题中已经有大约1.5亿个数据，而且这个话题正在快速增长。当我试图通过设置kafka参数("auto.offset.reset“->”最小值“)从本主题开始触发流和读取数据时，它总是尝试完成第一批中的所有1.5亿个数据处理，并返回一个"java.lang.OutOfMemoryError然而，在这个火花流应用程序中并没有太多的计算。我能有一种方法来处理这个主题中的历史数

浏览 0提问于2016-06-13得票数 1

回答已采纳

2回答

如何在Spark结构化流中使用流数据更新静态数据

apache-spark、apache-spark-sql、spark-structured-streaming

，都会形成一个流DataFrame，其中包含id和更新后的time_stamp，如下所示。第一批：id|time_stamp||1|1540527888||3|1530529784|现在，在每个批处理中，我都希望使用流数据访问的更新值更新静态DataFrame，如下所示。怎么做？第一批之后的静态DF：id|time_stamp|

浏览 0提问于2018-10-26得票数 5

回答已采纳

2回答

如何避免Lambda体系结构中的代码冗余？

apache-spark、hadoop、spark-streaming

数据被从文件或RDMBS中摄取服务层将创建视图，这些视图将流和批处理的聚合数据结合在一起

浏览 2提问于2018-09-18得票数 1

1回答

哪种免费的嵌入式web服务器可以处理非常大的POST请求？

post、file-upload、webserver、embedded-linux、large-files

我有一个嵌入式Linux设备，没有大量的RAM，但有相当大的磁盘空间，但没有交换。它需要通过web接口接受大文件上传(可能是GB)。我遇到的大多数web服务器都会在内存中保存所有流数据，然后将其移动到磁盘上，从而处理大型POST请求。有没有web服务器可以通过将大量POST请求流式传输到磁盘上来处理它们，而不是需要内存，或者我是否必须使用应用程序直接处理文件上传http流？我仍然希望保持应用程序代码已经在使用的CGI接口，所以一个一体化的服务器和应用程序是不可能的。它也应该是免费的。谢谢大家！

浏览 1提问于2012-10-15得票数 1

1回答

什么是Azure数据浏览器？一份数据蛋糕？数据仓库？

azure、azure-data-explorer

正如标题所述，我对Azure数据资源管理器在Azure数据生态系统中的作用感到困惑。文档指出，它是一个分析工具，但从技术上讲，它从不同的来源(如kafka )获取数据，然后继续运行。是某种增强的数据仓库吗？提亚

浏览 4提问于2022-10-11得票数 0

1回答

火花流缓存和转换

apache-spark、spark-streaming

我是新来的火花，我使用星火流与卡夫卡..。假设我在第一批中得到100条记录，在第二批中得到120条记录，在第三批中得到80条记录。--> {sec 1 1,2,...100} --> {sec 2 1,2..120} --> {sec 3 1,2,..80}我想在处理第二批时使用result1，并将第二批的result1和120个记

浏览 1提问于2014-10-20得票数 3

回答已采纳

2回答

将Datadog数据集成到雪花中

snowflake-cloud-data-platform、datadog

我的团队正试图将datadog的朗姆酒数据集成到雪花中，供我们的数据科学家使用。这个是可能的吗？如果是的话，怎么做？到目前为止，我已经找到了关于如何将来自雪花的数据集成到datadog仪表板中的文档，但没有找到相反的方法。

浏览 15提问于2022-04-11得票数 -1

5回答

对于同一体系结构上的数据类型，指针大小不同。

c、pointers、sizeof

对我来说似乎很合理(例如:32位架构上的4字节指针，64位上的8字节指针，完全有意义)。谢谢!

浏览 5提问于2014-06-18得票数 6

回答已采纳

1回答

如何在Spark结构化流中将JSON数据转换为DataFrame

apache-spark、spark-streaming、spark-structured-streaming

我正在使用星火结构化流处理来自卡夫卡的数据。我将每条消息转换为JSON。但是，spark需要一个显式的模式才能从JSON获得列。使用DStreams的火花流允许执行以下操作其中jsons是RDD[String]。在星火结构流的情况下类似的方法(jsons是DataSet[String])Exception in thread

浏览 1提问于2018-02-05得票数 2

1回答

火花流reduceByKeyAndWindow示例

java、apache-spark、spark-streaming

在中，它说reduceByKeyAndWindow“返回一个新的单元素流，它是通过使用func将流中的元素聚合在一个滑动间隔上创建的”。给出的例子是，如果我们想在最后30秒的数据中生成字数，每10秒一次。我对此感到困惑的部分是reduceByKeyAndWindow到底是如何工作的。因为加窗的流由多个RDD组成。在这种情况下，reduceByKeyAndWindow不是只返回一个RDD流而不是一个RDD吗？

浏览 0提问于2018-03-01得票数 3

回答已采纳

3回答

在星火中RDDs和批次的区别？

apache-spark、spark-streaming、rdd

批处理： SparkStreaming API简单地将数据划分为批处理，这些批处理还包含相同的流对象/元素集合。根据需求，一组批处理定义在基于表单时间的批处理窗口和基于集中在线活动的批处理窗口中。Rdd和批之间到底有什么区别？

浏览 5提问于2015-10-30得票数 4

2回答

具有到增量湖的多个相同密钥的流写入

apache-spark、spark-streaming、delta-lake

我正在通过spark structured向delta写入数据流。每个流批次包含key - value (还包含作为一列的时间戳)。delta lake不支持在源(蒸汽批)上使用多个相同的键进行更新，所以我只想用最新的时间戳记录来更新delta lake。我该怎么做呢？

浏览 27提问于2020-06-19得票数 2

回答已采纳

1回答

使用ksqlDB在一个主题中使用多个事件类型来实现CDC？

apache-kafka、ksqldb、cdc

据我所知，Debezium和其他CDC连接器也从一个单一的主题中获取数据，因此我至少知道这是可能的。我阅读汇流文档已经有一段时间了，但是我似乎找不到任何与我的用例相关的东西(CDC使用现有的主题)。

浏览 13提问于2022-06-27得票数 0

回答已采纳

2回答

让一列模型火车进行大量的划时代有什么坏处吗？

neural-network、time-series、overfitting、rnn、data-augmentation

我有一个有限的时间序列，我可以用它来训练模型，所以我决定增加数据。我使用的数据增强策略是非常基本的，但已经证明了提高了我的模型的准确性。从本质上讲，它接受了我所拥有的整个训练数据集，对所有的时间序列进行洗牌，并且增强过程在每一批中具体进行。在每一批中，我随机挑选，每批中的每个时间序列，开始点和结束点，使每一批包含不同长度的每个系列在批内的切片。这显然会创建一个几乎无穷无尽的数据流，但它完全依赖于模型运行的时代数，因为数据</e

浏览 0提问于2019-01-27得票数 2

回答已采纳

点击加载更多

PyFlink性能与Scala的比较

箭流端到端是免费的吗？

移动-消费者集群

如何在Spark Streaming中累积数据帧？

Spark Streaming -计数状态中的不同元素

限制ApacheSpark3.0结构化流- MicroBatchStream中的批处理大小

如何利用火花流更好地处理卡夫卡主题中的大量历史数据

如何在Spark结构化流中使用流数据更新静态数据

如何避免Lambda体系结构中的代码冗余？

哪种免费的嵌入式web服务器可以处理非常大的POST请求？

什么是Azure数据浏览器？一份数据蛋糕？数据仓库？

火花流缓存和转换

将Datadog数据集成到雪花中

对于同一体系结构上的数据类型，指针大小不同。

如何在Spark结构化流中将JSON数据转换为DataFrame

火花流reduceByKeyAndWindow示例

在星火中RDDs和批次的区别？

具有到增量湖的多个相同密钥的流写入

使用ksqlDB在一个主题中使用多个事件类型来实现CDC？

让一列模型火车进行大量的划时代有什么坏处吗？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐