可以在每个微批次中查找Cassandra_是否可以将JobParameter放在微线程步骤中？(春季批次)_在现有cassandra集群中查找令牌 - 腾讯云开发者社区

apache-spark、join、cassandra、spark-structured-streaming、spark-cassandra-connector

如果id列在20天内重复，我们需要插入最早的事件时间。20天可能有100-150亿行。我们不想使用dropDuplicates，因为状态可能很大。我们正在考虑使用Cassandra表来存储状态(比如目前为止的id和min time )。每次触发微批次时，我们使用微批次中的in查找存储状态的Cassandra表。20天的Ids也在100-150亿级别，换句话说，Cassandra的状态表在</

浏览 7提问于2019-10-13得票数 0

1回答

有没有办法用pyspark设置从Kafka到Cassandra的结构化流？

python、apache-spark、pyspark、spark-structured-streaming

而且我不能设置从Kafka到Cassandra的流。当它是一个数据时，它是可以的，但当它是流时，它就不起作用了。有人能在我的脚本中帮助我了解一下foreachBatch吗？我只想有人向我展示在这个脚本上的foreachBatch在Pyspark的例子，如果它是可以尝试。文档中写道： # Transform and

浏览 0提问于2019-08-23得票数 0

2回答

如何在结构化流中创建列的所有值的列表？

scala、apache-spark、elasticsearch、spark-structured-streaming

我需要字符串(set(该列‘ElasticSearch’中的所有值))才能在查询中使用这个字符串。

浏览 0提问于2019-08-30得票数 4

1回答

在每次作业中查找Cassandra中1.5亿条记录中的大约40k条记录？

cassandra、apache-kafka

我正在构建一个接近实时/微批处理的数据应用程序，使用Cassandra作为查找存储。每次增量运行有大约40K条记录，而Cassandra表有大约1.5亿条记录。在每次运行中，我需要查找id字段并从Cassandra获取一些属性。这些查找可以是随机的(不是任何时间/地区/国家的依赖)，因此没有明确的分区方案。我应该如何对Cassandra表进行分区，以确保良好/

浏览 19提问于2019-09-19得票数 0

1回答

分布式培训术语:微型批次和每个副本的批次大小

amazon-sagemaker、distributed-training

我正在阅读关于分布式培训的，并对术语感到困惑：我了解到，在数据并行中，模型将有多个副本，每个副本将接收大小=“每个副本批次大小”的数据。有人可以ELI5微批处理在这种情况下如何适合吗？这是术语中常用的术语，还是专门用于AWS Sagemaker的？

浏览 9提问于2022-08-04得票数 1

1回答

在同一集群中同时执行火花流和火花批处理作业的最佳实践

apache-spark、cassandra、apache-kafka、spark-streaming

我有很长一段时间运行在星火流中的应用程序，其中包括处理卡夫卡的Avro消息。根据消息的性质，我可以做一些不同的案例，并最终在Cassandra中保存一个记录，所以只是这些技术的一个基本用例。我有第二个工作，它包含一个火花作业，它在Cassandra中得到一些数据，做一些转换.我还没有定义工作的频率，但它将从每小时1次到每天1次，因此通常是一个大批量作业。所以我在寻找执行批次作业的最佳实践。由于星火流作业在运行时占用集群中的所有资源，我

浏览 2提问于2015-08-12得票数 4

1回答

默认(未指定的)触发器如何确定结构化流中微批的大小？

apache-spark、spark-structured-streaming

当Spark结构化流中的查询执行不设置触发器时，比方说。这是否意味着，第一批微批次将是一个

浏览 0提问于2019-08-22得票数 3

回答已采纳

1回答

spark streaming是否能够在数据库中存储每个批次的数据？

database、scala、apache-spark、spark-streaming

是否有可能将数据库保持在spark中，执行者在其中写入和读取一批数据，然后清除数据库以重新启动下一批处理。如果我们谈论的是每批100k个条目，这是不是很快？对于初学者，我应该使用哪个数据库？

浏览 14提问于2018-08-26得票数 0

回答已采纳

1回答

理解流应用程序的Spark

apache-spark、spark-streaming、spark-ui

我试图理解我的星火UI中的条目意味着什么。调用一个操作会导致创建一个作业。我发现很难理解新StreamingContext(sparkSession.sparkContext，秒(50))

浏览 0提问于2018-03-21得票数 1

2回答

如何从计数素描中获得最高K元素？

stream、real-time、distributed-computing、frequency、count-min-sketch

我正在阅读概率数据结构count-min-sketch是如何用于在数据流中查找顶部k元素的。但我似乎不能把我的头绕在我们维持一堆得到最终答案的那一步上。我的理解是，这可以用微批次来完成，在这个过程中，我们在开始做一些真正的工作之前积累了N个项目。 hashmap+heap方法很容易让我理解。我们遍历微批次并通过计数元素建立一个频率图(例如{B:34, D: 65, C: 9, A:84, ...})。然后，我们通过遍历频率映射来维护大

浏览 12提问于2020-07-08得票数 8

1回答

如何在spark结构化流的一次微批量中设置批量大小

apache-spark、pyspark、apache-kafka、spark-structured-streaming

我正在读取来自Kafka源的流数据，但所有来自kafka的数据都是在单个微批次中读取的。bootstrap_servers).option("subscribe", topics).option("startingOffsets", "earliest").load() 哪个参数或选项用于设置spark结构化流的一个微批次的最大批量大小

浏览 2提问于2020-06-01得票数 1

1回答

如何使用scala从spark中的数据集中提取字段值？

scala、apache-spark、apache-kafka、functional-programming

我有一个数据帧，它从kafka中读取流作为源，然后在应用模式后将其转换为数据集，现在如何从数据集中获取特定的字段值来使用它？

浏览 0提问于2019-08-19得票数 0

1回答

在火花流应用程序中连接数据的最佳方法是什么？

cassandra、apache-spark-sql、spark-structured-streaming、datastax-enterprise、spark-cassandra-connector

问题：本质上意味着，与其为每个流记录运行C*表的连接，还会对火花流中的每个微批记录(微批处理)运行连接吗?但是在下面的场景中，有一个关于效率的基本问题。对于流数据记录(即streamingDataSet )，我需要从Cassandra(C*)表中查找现有记录(即cassandraDataset)。要查找数据，我需要加入上面的数据集。在上面的场景中，我的理解是，对于从kafka流接收到的每一条记录，

浏览 4提问于2019-12-26得票数 1

回答已采纳

1回答

Kafka星火流动态模式

apache-spark、dynamic、apache-kafka

我从卡夫卡(KafkaUtils.createDirectStream)消费每个消息/JSON字段可以嵌套，每个字段可以出现在一些消息中，有时不出现。

浏览 10提问于2017-07-10得票数 0

1回答

我的大量表(2k+)是否会导致我的写入超时异常？

cassandra、datastax-java-driver

每当我收到发送到端点的新POST请求时，我都会解析该对象并将其插入到相应的Cassandra表中。我还将插入放到每个相应的查找表中。(每个对象10-20个) 在向系统中注入大量数据时，我在驱动程序中遇到了WriteTimeoutExceptions。我尝试将insert请求序列化到查找表中，方法是引入Apache Camel并将所有语句放入会话可以处理的队列中，但

浏览 2提问于2021-02-20得票数 3

1回答

跳过的阶段对Spark作业有性能影响吗？

scala、apache-spark、spark-streaming、spark-structured-streaming、spark-streaming-kafka

我正在运行一个spark结构的流作业，其中包括创建一个空数据帧，使用每个微批处理更新它，如下所示。每次微批处理执行时，阶段数增加4。为了避免重新计算，我在循环内的每个更新之后将更新后的StaticDF持久化到内存中。这有助于跳过每个新的微批次创建的那些额外的阶段。我的问题是-2)当某些缓存的R

浏览 5提问于2020-04-14得票数 0

1回答

检查数据是否已存在于大量数据中

cassandra、cql

我获取csv文件，读取这些文件并将它们写入Cassandra。我对大量数据(每天大约1000万行)执行此操作，文件本身非常小(从100到1000行)。我要做的是在将它们写入数据库之前检查我要插入的主键是否已经存在。我知道我可以用Select count(*) from table where primary key1 = something and key2 is something else做到。但这很慢，我想在一次检查整个文件，如果它将影响已在Cassandra中的数据，我希望(需要)它是快的。有没有

浏览 0提问于2016-06-28得票数 0

1回答

如何在写入Cassandra时控制Spark任务的数量

apache-spark、spark-streaming、spark-cassandra-connector

在mesos上使用spark与kafka和cassandra ( spark- cassandra -connector)结合使用spark-streaming我正在听一个kafka主题，然后使用.saveToCassandra插入到cassandra中我有60个CPU分配给spark (30个spark节点和5个cassandra节点)，我正在尝试遵循apache spark的建议“一般来说，我们建议集群中每个CPU核心2示例(我的流水批次

浏览 0提问于2015-09-17得票数 1

2回答

批量插入溢出

cassandra、datastax-java-driver

我正在使用Cassandra 3.10，并试图遵循最佳实践，即每个查询都有一个表，因此我使用批插入代号将多个表作为一个事务插入，但是我在cassandra日志中得到以下错误。

浏览 4提问于2017-10-29得票数 0

2回答

使用Apache将批量记录从Db2插入到Cassandra

cassandra、apache-nifi

我使用Apache Nifi将DB2加载数据连接到Cassandra。我的Db2表有超过200+k的记录，但是只有400no被插入到cassandra target中。为剩余的cassandra批处理语句获取错误，不能插入超过65535条记录。尝试在yaml文件中进行一些更改，但没有帮助，得到相同的错误。我可以在Nifi中将批次更改为批量吗？或者，如果我需要从Db2加载所有记录，那么在Nifi或Cassandra<e

浏览 16提问于2019-04-02得票数 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云