什么数据需要批流一体分析 - 腾讯云开发者社区

文章/答案/技术大牛

发布

1回答

HDFS的批量分析

apache-spark、hadoop、hive、hdfs、batch-processing

我正在实时获取点击流数据。所有发送给卡夫卡的数据都被吃掉了。速度层：我们可以使用clickstream / Flink等实时分析点击流数据中的会话。将数据发送到HDFS之后，假设使用Hive或Spark对其进行分析。我每隔30分钟配置一次作业。这份工作一般与流分析相同。但是它每30分钟运行一次，并分析用户会话(用户行为)。Question2:如何才能从HDFS(上一批之

浏览 1提问于2019-08-31得票数 0

3回答

火花流无法读取从hdfs中的水槽中创建的文件

hadoop、apache-spark、hdfs、spark-streaming、flume-ng

我创建了一个实时应用程序，在这个应用程序中，我使用flume从weblog中将数据流写入hdfs，然后使用火花流处理该数据。但是，尽管flume正在hdfs中编写和创建新文件，但spark流无法处理这些文件。如果我使用put命令将这些文件放到hdfs目录中，火花流就能够读取和处理这些文件。

浏览 9提问于2015-06-09得票数 2

回答已采纳

1回答

CUFFT计算多幅图像上二维FFT的策略

image、matlab、cuda、cufft

在MATLAB上，做一个2D FFT需要0.3毫秒，而对所有128幅图像做FFT需要大约128倍的毫秒数。cudaMemcpy( out_complex, *odata, 128 * 128 * sizeof(cufftDoubleComplex), cudaMemcpyDeviceToHost ); 在我的机器上大约需要

浏览 2提问于2016-04-06得票数 1

回答已采纳

2回答

Google BigQuery流-插入时间

json、ssis、google-bigquery

我首次在客户端项目上使用Google BigQuery，并使用SSIS插件(CData)在SSIS中创建包，将数据插入到表中(这是一个奇怪的组合，但我的客户需要这样的组合)。我希望将大约100 k行插入到BigQuery表中，但是，当我想对该表执行进一步的更新查询时，无法执行这些查询，因为数据仍然在缓冲区中。人们如何知道在BigQuery中需要多长时间，以及是否有方法来加快这一过程？

浏览 1提问于2017-11-29得票数 1

1回答

Azure流分析输入blob存储动态路径模式

azure、azure-blob-storage、azure-stream-analytics

我们在这个Blob存储中创建目录来标识批处理，如下所示：我尝试将“批处理-*”放在输入路径模式中，以便动态分配目录，但这是不允许的。这和流分析有什么关系吗？谢谢你提前帮助我。

浏览 3提问于2020-04-10得票数 2

回答已采纳

2回答

制造业调度与工作流分析中的图形数据库建模

database-design、neo4j、time-series、graph-databases

我们希望应用图形数据库来帮助我们理解制造生产线中与工作流相关的瓶颈、资源利用率、延迟问题和其他与时间相关的问题。还有更多吗？

浏览 3提问于2019-09-10得票数 0

1回答

WSO2物联网:如何使用事件存储存储设备历史记录

wso2、iot、wso2-cep

我想知道WSO2 CEP是如何工作的，Event Stream很简单，但是Event Store是什么呢？它可以存储设备历史，但在哪里？我想到的是Spark，它只在内存中存储数据，对吗？如果我想将设备历史记录存储在RDMS中，我能做什么？谢谢

浏览 1提问于2016-06-07得票数 0

回答已采纳

1回答

最佳服装管理系统或库存软件系统

windows、inventory

报告选项(书面报告、分析、枢轴、视图、图表、查询)网络接口-第三方或内部开发销售/成本报告矩阵需求分析与规划多维定价模块，制造路径模板会计核算一体化每个用户可自定义工作流库存管理

浏览 0提问于2014-05-02得票数 3

1回答

风暴式间歇加工

apache-kafka、apache-storm、trident

我是风暴的新手，几乎没有什么基本问题。我对风暴的用例是流处理和批处理。用例2:风暴拓扑应该将元组作为一批元组进行处理。问:有没有办法，我可以说，一个特定的元组是结束的溪流和风暴应该告诉我什么时候处理完所有的元组？是否Storm不是这样做的正确框架，因为它是用于流处理的(用例1)。风暴三叉戟对用例#2有帮助吗？

浏览 3提问于2015-09-22得票数 0

1回答

创建需要流并提供批处理的Kapacitor UDF (Python)

user-defined-functions、influxdb、kapacitor、influxdb-python

我在创建一个需要流并提供批处理的UDF方面遇到了困难。我在网络上搜索(foruns，documentation)，但是所有的例子都是批处理BACH，流流或批处理流。

浏览 0提问于2018-07-04得票数 0

回答已采纳

1回答

tensorflow验证监视器流auc

python、tensorflow

在tensorflow验证监视器流auc中，它对流意味着什么？案例1:每次调用验证监视器时，都会重置auc状态，因为在每个验证步骤中，对10个批进行流处理。案例2: auc状态没有重置，因此流auc是从验证监视器的第一次调用中计算出来的。即，第一输出( 100步)从10批计算

浏览 5提问于2017-06-09得票数 1

回答已采纳

1回答

是否有一个变量来识别火花流中的每一批数据？

apache-spark、spark-streaming

在火花流中，数据按批间隔进行处理。is first batch of data10s~15s is third batch of data是否有一个变量来识别火花流中的每一批数据如果有这样的变量：我可以获得batchID的值来识别哪一批数据，也可以通过batchID (如：window(……).filter(_.batchId == 1) )过滤<

浏览 6提问于2016-02-02得票数 3

回答已采纳

1回答

将火花流连接到流集输入

streaming、spark-streaming、streamsets

我想知道是否有可能提供输入来激发来自StreamSets的流。我注意到在StreamSets连接器目的地中不支持火花流。我将探讨是否有其他方法将它们连接到一个示例POC。

浏览 3提问于2016-07-06得票数 3

回答已采纳

1回答

具有周期性更新静态数据集的结构化流

scala、apache-spark、spark-structured-streaming

流和静态数据集的合并是结构化流的一个很好的特点。但是每一批数据集都会从数据源中刷新。由于这些源并不总是动态的，因此在指定的时间段(或批数)缓存静态数据集将是一种性能增益。在指定的批处理期间/批数之后，数据集将从源重新加载，否则将从缓存中检索。在星火流中，我使用缓存的数据集来管理它，并在指定数量的批处理运行后取消它的持久化，但是由于某种原因，这不再适用于结构化流<

浏览 1提问于2017-12-13得票数 9

1回答

火花流-我如何通知消费者一旦生产者完成？

scala、apache-kafka、spark-streaming、kafka-producer-api

一旦notify Consumer将所有数据发布到Kafka topic，Producer是否有可能有什么有效的方法来解决这个问题吗？更新：每隔十五分钟，生产者就会得到数据，并开始将

浏览 0提问于2016-11-12得票数 2

回答已采纳

2回答

如何将流数据与更新较慢的表连接起来(例如一天一次)？

apache-spark、spark-structured-streaming

在结构化流中，我需要将流数据与一些变化缓慢的数据连接起来。变化缓慢的数据每天都会更新，并且可能不会在固定的时间更新。然而，流数据是秒级别的。如果我不想加载每个微批中变化缓慢的数据，并且还希望在更新后获得变化缓慢的数据的最新版本，有什么方法可以做到这一点吗？谢谢

浏览 0提问于2019-12-05得票数 0

1回答

Azure服务织物路由

azure、azure-service-fabric、azureservicebus、azure-eventhub

我真的需要一个事件中心来使这个过程脱钩吗，或者说，将消息从“路由应用程序”直接发送到不同的“类型应用程序”有意义吗？你好，马库斯

浏览 0提问于2017-05-23得票数 2

回答已采纳

4回答

在R中的方差和置信区间内和之间计算

r、statistics

作为开发一种新的分析化学方法的一部分，我需要计算一些数据的批内和批间方差。我还需要使用R语言从这个数据中获得置信区间> variance1 1 1 9.853 1 3 10.00 4 2 1 9.90

浏览 1提问于2009-09-09得票数 7

回答已采纳

1回答

火花结构化流作业如何处理流-静态DataFrame连接？

apache-spark、pyspark、spark-streaming、spark-structured-streaming

我有一个火花结构化流作业，它从cassandra和deltalake读取映射表，并加入流df。我想了解这里的确切机制。星火是否击中了这些数据来源(卡桑德拉和德尔塔雷克)的每一个周期的微批？

浏览 2提问于2020-12-02得票数 1

回答已采纳

1回答

如何在星火流中仅在新批次上重新训练模型(不使用以前的训练数据集)？

apache-spark、pyspark、spark-streaming、apache-spark-mllib

让我通过一个例子来解释：当一个新元素到达时，第二批应该执行培训(在增量模式下？！)没有加载所有的200000元素之前，但只是与模型和一个新的元素。

浏览 6提问于2016-11-25得票数 1

回答已采纳

点击加载更多

HDFS的批量分析

火花流无法读取从hdfs中的水槽中创建的文件

CUFFT计算多幅图像上二维FFT的策略

Google BigQuery流-插入时间

Azure流分析输入blob存储动态路径模式

制造业调度与工作流分析中的图形数据库建模

WSO2物联网:如何使用事件存储存储设备历史记录

最佳服装管理系统或库存软件系统

风暴式间歇加工

创建需要流并提供批处理的Kapacitor UDF (Python)

tensorflow验证监视器流auc

是否有一个变量来识别火花流中的每一批数据？

将火花流连接到流集输入

具有周期性更新静态数据集的结构化流

火花流-我如何通知消费者一旦生产者完成？

如何将流数据与更新较慢的表连接起来(例如一天一次)？

Azure服务织物路由

在R中的方差和置信区间内和之间计算

火花结构化流作业如何处理流-静态DataFrame连接？

如何在星火流中仅在新批次上重新训练模型(不使用以前的训练数据集)？

热门标签

活动推荐

运营活动

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐