腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(777)
视频
沙龙
1
回答
PyFlink性能与Scala的比较
pyspark
、
apache-flink
、
spark-streaming
、
pyflink
大
照片。我们的目标是建立冷和热层的Lambda
架构
。冷(
批
)层将用Apache (PySpark)实现。但是对于热(
流
)层有不同的选择:火花
流
或Flink。因此,Apache是纯
流
的,而不是Spark的微
批
,我倾向于选择Apache。但我唯一关心的是PyFlink的性能。PySpark
流
的延迟会更少吗?它比Scala编写的Flink代码慢吗?
浏览 3
提问于2021-11-05
得票数 1
回答已采纳
1
回答
箭
流
端到端是免费的吗?
apache-arrow
我对箭
流
很困惑。描述Arrow的许多来源都只是转述了 然而,据我所知,
浏览 1
提问于2019-12-13
得票数 1
回答已采纳
1
回答
移动-消费者集群
amazon-kinesis
我有一个运动
流
,用来排任务队列,比如发送电子邮件。我有一群消费者,他们应该阅读队列,然后发送电子邮件。
浏览 4
提问于2016-04-08
得票数 0
回答已采纳
1
回答
如何在Spark Streaming中累积
数据
帧?
apache-spark
、
dataframe
、
apache-spark-sql
、
spark-streaming
我知道Spark Streaming会产生批量的RDDs,但我想积累一个
大
的Dataframe,随着每一
批
的更新(通过将新的dataframe附加到末尾)。 有没有办法像这样访问所有的历史
流
数据
?我见过mapWithState(),但还没有看到它专门积累
数据
帧。
浏览 12
提问于2018-08-01
得票数 1
2
回答
Spark Streaming -计数状态中的不同元素
python
、
scala
、
apache-spark
、
spark-streaming
、
spark-dataframe
我有一个包含VideoID-UserID的键值对的
数据
流
,按VideoID计算不同的UserID组的最佳做法是什么?foo,1如上所述,我想随时通过删除冗余的foo,1和bar,2来获得VideoID-CountUserID,所以结果应该是:bar: 2该
怎么做
呢? 我正在开发Spark 1.6,但是后续
浏览 2
提问于2017-03-07
得票数 2
1
回答
限制ApacheSpark3.0结构化
流
- MicroBatchStream中的批处理大小
scala
、
apache-spark
、
spark-structured-streaming
我正在编写一个定制的结构化
流
源,不知道如何限制批处理大小。然后,它返回
数据
的分区,直到在单个批处理中提供的最新偏移量为止。 当我开始一个新的
流
查询时,会产生一个非常
大
的第一
批
,因为所有的历史
数据
都会被塞进一个
批
中。是否有一种(明显的)方法来限制
流
批量大小?
浏览 8
提问于2022-05-21
得票数 1
回答已采纳
1
回答
如何利用火花
流
更好地处理卡夫卡主题中的大量历史
数据
apache-kafka
、
spark-streaming
我正在经历一个问题,开始在一个非常
大
的卡夫卡主题上启动流媒体,这个话题中已经有大约1.5亿个
数据
,而且这个话题正在快速增长。当我试图通过设置kafka参数("auto.offset.reset“->”最小值“)从本主题开始触发
流
和读取
数据
时,它总是尝试完成第一
批
中的所有1.5亿个
数据
处理,并返回一个"java.lang.OutOfMemoryError然而,在这个火花
流
应用程序中并没有太多的计算。 我能有一种方法来处理这个主题中的历史
数
浏览 0
提问于2016-06-13
得票数 1
回答已采纳
2
回答
如何在Spark结构化
流
中使用
流
数据
更新静态
数据
apache-spark
、
apache-spark-sql
、
spark-structured-streaming
,都会形成一个
流
DataFrame,其中包含id和更新后的time_stamp,如下所示。第一
批
:id|time_stamp||1|1540527888||3|1530529784|现在,在每个批处理中,我都希望使用
流
数据
访问的更新值更新静态DataFrame,如下所示。
怎么做
?第一
批
之后的静态DF:id|time_stamp|
浏览 0
提问于2018-10-26
得票数 5
回答已采纳
2
回答
如何避免Lambda体系结构中的代码冗余?
apache-spark
、
hadoop
、
spark-streaming
数据
被从文件或RDMBS中摄取 服务层将创建视图,这些视图将
流
和批处理的聚合
数据
结合在一起
浏览 2
提问于2018-09-18
得票数 1
1
回答
哪种免费的嵌入式web服务器可以处理非常
大
的POST请求?
post
、
file-upload
、
webserver
、
embedded-linux
、
large-files
我有一个嵌入式Linux设备,没有大量的RAM,但有相当
大
的磁盘空间,但没有交换。它需要通过web接口接受大文件上传(可能是GB)。我遇到的大多数web服务器都会在内存中保存所有
流
数据
,然后将其移动到磁盘上,从而处理大型POST请求。有没有web服务器可以通过将大量POST请求流式传输到磁盘上来处理它们,而不是需要内存,或者我是否必须使用应用程序直接处理文件上传http
流
?我仍然希望保持应用程序代码已经在使用的CGI接口,所以一个
一体
化的服务器和应用程序是不可能的。它也应该是免费的。 谢谢大家!
浏览 1
提问于2012-10-15
得票数 1
1
回答
什么是Azure
数据
浏览器?一份
数据
蛋糕?
数据
仓库?
azure
、
azure-data-explorer
正如标题所述,我对Azure
数据
资源管理器在Azure
数据
生态系统中的作用感到困惑。文档指出,它是一个分析工具,但从技术上讲,它从不同的来源(如kafka )获取
数据
,然后继续运行。是某种增强的
数据
仓库吗? 提亚
浏览 4
提问于2022-10-11
得票数 0
1
回答
火花
流
缓存和转换
apache-spark
、
spark-streaming
我是新来的火花,我使用星火
流
与卡夫卡..。假设我在第一
批
中得到100条记录,在第二
批
中得到120条记录,在第三
批
中得到80条记录。--> {sec 1 1,2,...100} --> {sec 2 1,2..120} --> {sec 3 1,2,..80}我想在处理第二
批
时使用result1,并将第二
批
的result1和120个记
浏览 1
提问于2014-10-20
得票数 3
回答已采纳
2
回答
将Datadog
数据
集成到雪花中
snowflake-cloud-data-platform
、
datadog
我的团队正试图将datadog的朗姆酒
数据
集成到雪花中,供我们的
数据
科学家使用。这个是可能的吗?如果是的话,
怎么做
?到目前为止,我已经找到了关于如何将来自雪花的
数据
集成到datadog仪表板中的文档,但没有找到相反的方法。
浏览 15
提问于2022-04-11
得票数 -1
5
回答
对于同
一体
系结构上的
数据
类型,指针大小不同。
c
、
pointers
、
sizeof
对我来说似乎很合理(例如:32位
架构
上的4字节指针,64位上的8字节指针,完全有意义)。谢谢!
浏览 5
提问于2014-06-18
得票数 6
回答已采纳
1
回答
如何在Spark结构化
流
中将JSON
数据
转换为DataFrame
apache-spark
、
spark-streaming
、
spark-structured-streaming
我正在使用星火结构化
流
处理来自卡夫卡的
数据
。我将每条消息转换为JSON。但是,spark需要一个显式的模式才能从JSON获得列。使用DStreams的火花
流
允许执行以下操作其中jsons是RDD[String]。在星火结构
流
的情况下类似的方法(jsons是DataSet[String])Exception in thread
浏览 1
提问于2018-02-05
得票数 2
1
回答
火花
流
reduceByKeyAndWindow示例
java
、
apache-spark
、
spark-streaming
在中,它说reduceByKeyAndWindow“返回一个新的单元素
流
,它是通过使用func将
流
中的元素聚合在一个滑动间隔上创建的”。给出的例子是,如果我们想在最后30秒的
数据
中生成字数,每10秒一次。 我对此感到困惑的部分是reduceByKeyAndWindow到底是如何工作的。因为加窗的
流
由多个RDD组成。在这种情况下,reduceByKeyAndWindow不是只返回一个RDD
流
而不是一个RDD吗?
浏览 0
提问于2018-03-01
得票数 3
回答已采纳
3
回答
在星火中RDDs和批次的区别?
apache-spark
、
spark-streaming
、
rdd
批处理: SparkStreaming API简单地将
数据
划分为批处理,这些批处理还包含相同的
流
对象/元素集合。根据需求,一组批处理定义在基于表单时间的批处理窗口和基于集中在线活动的批处理窗口中。Rdd和
批
之间到底有什么区别?
浏览 5
提问于2015-10-30
得票数 4
2
回答
具有到增量湖的多个相同密钥的
流
写入
apache-spark
、
spark-streaming
、
delta-lake
我正在通过spark structured向delta写入
数据
流
。每个
流
批次包含key - value (还包含作为一列的时间戳)。delta lake不支持在源(蒸汽
批
)上使用多个相同的键进行更新,所以我只想用最新的时间戳记录来更新delta lake。我该
怎么做
呢?
浏览 27
提问于2020-06-19
得票数 2
回答已采纳
1
回答
使用ksqlDB在一个主题中使用多个事件类型来实现CDC?
apache-kafka
、
ksqldb
、
cdc
据我所知,Debezium和其他CDC连接器也从一个单一的主题中获取
数据
,因此我至少知道这是可能的。 我阅读汇流文档已经有一段时间了,但是我似乎找不到任何与我的用例相关的东西(CDC使用现有的主题)。
浏览 13
提问于2022-06-27
得票数 0
回答已采纳
2
回答
让一列模型火车进行大量的划时代有什么坏处吗?
neural-network
、
time-series
、
overfitting
、
rnn
、
data-augmentation
我有一个有限的时间序列,我可以用它来训练模型,所以我决定增加
数据
。我使用的
数据
增强策略是非常基本的,但已经证明了提高了我的模型的准确性。从本质上讲,它接受了我所拥有的整个训练
数据
集,对所有的时间序列进行洗牌,并且增强过程在每一
批
中具体进行。在每一
批
中,我随机挑选,每批中的每个时间序列,开始点和结束点,使每一
批
包含不同长度的每个系列在
批
内的切片。这显然会创建一个几乎无穷无尽的
数据
流
,但它完全依赖于模型运行的时代数,因为
数据</e
浏览 0
提问于2019-01-27
得票数 2
回答已采纳
点击加载更多
热门
标签
更多标签
云服务器
对象存储
ICP备案
云点播
腾讯会议
活动推荐
运营活动
广告
关闭
领券