在不停止进程的情况下刷新Spark实时流中的数据帧

文章/答案/技术大牛

发布

2回答

apache-spark、amazon-s3、spark-streaming、spark-dataframe、snappydata

在我的应用程序中，我从Kafka队列中获得了一个帐户流(使用Spark streaming和kafka) 我需要从S3获取与这些帐户相关的属性，因此我计划缓存S3结果数据帧，因为S3数据目前至少一天不会更新，它可能很快会更改为1小时或10分钟.So问题是如何在不停止进程的情况下定期刷新缓存的数据</em

浏览 18提问于2017-07-24得票数 3

1回答

星火流填充的Cassandra表上的星火SQL

apache-spark、cassandra、apache-spark-sql、spark-streaming

我有一个星火流的过程，是在实时填充卡桑德拉表。我想对Cassandra表进行查询，以访问底层数据。斯尔詹

浏览 1提问于2016-02-24得票数 3

回答已采纳

1回答

如何在spark流作业中查找数据帧的大小

python、scala、apache-spark、spark-structured-streaming

我正在尝试在每批spark streaming作业中查找数据帧的大小。我能够成功地在批处理作业中找到大小，但当涉及到流时，我无法做到这一点。我一直在数据库上开发spark应用程序，并尝试在流式作业中使用'df.queryExecution.optimizedPlan.stats.sizeInBytes‘。forEachBatch()函数中： data.writeStrea

浏览 26提问于2019-01-18得票数 0

1回答

使用while循环中的Spark处理日志文件

apache-spark、pyspark

我有一个服务器，每1秒生成一些日志文件，我想使用Apache Spark处理这个文件。我的问题是，对于这种无限运行并处理批量或一组生成文件的应用程序，最好的方法是什么。我应该使用一个无限的while循环，还是应该在cron job甚至像airflow这样的调度框架<

浏览 0提问于2017-04-18得票数 0

1回答

Tableau实时连接操作筛选器

tableau-api、action-filter

我有一个仪表板，它使用实时数据连接来提取数据，基于带有嵌入式参数的自定义SQL (完整的数据太重，无法提取)。此控制面板包含操作筛选器。当我加载仪表板时，由于实时连接，数据正在刷新。在此刷新之后，我希望在不触发实时连接提取的情况下与操作过滤器交互。尽管我选择了“暂停自动更新”，但数据源在每次

浏览 1提问于2015-07-15得票数 0

2回答

DirectShow停止/恢复直播

c++、directshow

我使用DirectShow在我的应用程序中播放音频/视频文件。我使用构建过滤器图形，并使用接口播放/暂停/停止媒体。这适用于本地媒体文件，但会导致实时mms流出现问题。如果我在直播流上调用，该流将按预期停止播放。但是，如果我调用来恢复流，什么也不会发生。图形会生成一个EC_COMPLETE事件，但视频不再播放。在调用之后调用将从它停止的地方恢复<em

浏览 0提问于2009-06-26得票数 1

回答已采纳

2回答

将数据写入文件: fflush()需要很长时间

c、optimization、io、video-processing、buffering

我有一个要求，我必须缓冲大量的数据(在GBs)，以便将来使用。由于没有足够的RAM来缓冲如此庞大的数据，所以我决定将数据存储在一个文件中。现在这里的缺陷是，当我将数据写入文件时，其他线程可能需要“缓冲”数据，所以每次向它写入什么东西时，我都必须刷新文件流。准确地说，数据是视频帧，作为预先记录的

浏览 3提问于2011-07-07得票数 3

回答已采纳

1回答

AWS SNS SDK不工作于火花流

apache-spark、spark-streaming、amazon-sns

采用火花流的实时异常检测系统。在每个流间隔中，如果数据点异常，AWS SNS会发送一封电子邮件给订阅帐户。但是AWS SNS java sdk喜欢在火花流中不工作。下面是错误消息 Error StreamingContext:错误启动上下文，将其标记为已停止的java.io.NotSerializableException: DStream检查点已启用，但具有其

浏览 1提问于2016-01-04得票数 0

回答已采纳

1回答

如何在不阻塞的情况下将进程的stdout作为流使用？

java、processbuilder

在Java (或clojure)中，我希望旋转一个外部进程，并将它的stdout作为一个流使用。理想情况下，每次外部进程刷新它时，我都想使用进程的输出流，但不确定如何实现，以及如何在不阻塞的情况下完成输出流。在使用Java ProcessPipeInputStream作为输出进程(例如)时，我

浏览 4提问于2017-07-03得票数 3

1回答

将星火流数据流加载到MongoDB中

mongodb、apache-spark、pyspark、spark-structured-streaming

我正在从事一个项目，在该项目中，我拥有以下数据管道：我能够利用Tweepy获得推特流到卡夫卡制片人然后我使用卡夫卡消费者的Twitter Stream作为数据源，我在星火(PySpark)中创建了一个“流数据框架”，进行了实时的预处理和情感分析，由此产生的</e

浏览 19提问于2022-11-21得票数 0

1回答

数据流无法捕获来自源.csv azure的行更改

azure、csv、azure-data-factory、dataflow

我的想法是使用upsert将csv文件作为源& synapse表作为接收器。每当我在数据流源预览中更改csv文件的行时，它都会显示旧数据。这是我的源文件，我将最后一个指示器更改为FALSE，并将其上传到blob。我再次运行了源静态指示器的预览，它引用了旧数据我的源设置数据集设置-

浏览 0提问于2021-07-07得票数 0

2回答

Python子进程从stdout块读取数据(实时读取输出)

python、subprocess

我正在尝试使用子进程与应用程序交互。我使用Popen创建了进程，但是在不阻塞整个线程的情况下，我无法访问输出流。但是，写入输入流似乎很好(使用通信测试它，但是我以后可能无法使用它，因为我需要实时数据)。我注意到，有时如果进程终止，输出就会被刷新。我相信这个问题可能是因为没有发生冲厕事件(而且在关闭时，所有数据都是同

浏览 3提问于2021-10-13得票数 0

回答已采纳

1回答

spark structured streaming批量数据刷新问题(partition by子句)

apache-spark、apache-spark-sql、spark-structured-streaming

我在连接spark结构化流数据帧和批数据帧时遇到了一个问题，在我的场景中，我有一个S3流，它需要与历史数据进行左反连接，它返回历史中不存在的记录(计算出新的记录)，并将这些记录作为新的追加写入历史(按列分区磁盘数据分区而不是内存当我刷新已分区的历史数

浏览 14提问于2021-04-02得票数 0

回答已采纳

1回答

如何通过spark* streaming处理多个.gz文件？*

spark-streaming

我一直在尝试通过火花流从hadoop文件系统中读取多个.gz文件。有可能做到这一点吗？如果是，你能给我一个解决方案吗？

浏览 1提问于2016-12-26得票数 0

3回答

Apache如何在Hadoop MapReduce上实现100倍的加速，以及在什么情况下？

hadoop、apache-spark、bigdata、distributed-computing

它是如何实现这种惊人的加速的呢？这种加速比只适用于迭代机器学习算法，也适用于ETL (提取-转换-负载)任务，如联接和GROUPBY？Spark的RDDs (弹性分布式数据集)和DataFrames都能提供这种加速吗？对于上述一些场景，星火社区是否获得了任何基准测试结果？

浏览 2提问于2015-12-05得票数 1

1回答

用烧瓶的实时数据？

python、python-2.7、flask、real-time

你好，我正在尝试使用烧瓶和twitter流API构建一个应用程序。我最终想做的是根据附加的地理位置数据，用tweet实时更新地图。对于我来说，在不刷新页面的情况下向用户发送实时数据的最佳选择是什么？我还调查了现在似乎被贬值的神像。任何帮助引导我向正确的方向将不胜感激。

浏览 1提问于2014-08-17得票数 1

回答已采纳

1回答

以Kafka为源的结构化流中的JSON模式推理

apache-spark、apache-kafka

我目前正在使用从Kafka主题中读取json数据。json作为字符串存储在主题中。为了实现这一点，我提供了一个硬编码的JSON模式作为StructType。我正在寻找一种在流过程中动态推断主题模式的好方法。这是我的代码：(这是Kotlin，而不是通常使用的Scala) .readStream() .option("kafka.boots

浏览 2提问于2020-10-21得票数 1

回答已采纳

1回答

Windows网络插件中的流停止

javascript、plugins、safari、vlc

在Windows中，vlc插件上的视频流有问题。我在嵌入标签中添加了windowless="true“属性，这样我就可以在vlc插件上显示透明的DIV，以便在视频上绘图。在添加此标签之后，停止视频，不接收视频帧。但是当我点击视频或在视频上画一些东西时，视频帧会刷新一段时间。即使当我删除windowless=“真”属性视频时也是有效<em

浏览 5提问于2015-09-08得票数 1

回答已采纳

1回答

如何从超文本标记语言调用clearInterval()来停止setInterval()，它位于Google Chart JS图中，并保留当前的图和数据？

javascript、html、flask、google-visualization、clearinterval

原因是Google Chart JS使用Ajax从flask提供的API获取数据。函数setInterval()帮助我获得一个正在被flask数据更新的实时图形。这样做的目的是另外增加一个按钮，该按钮可以停止这个实时进程，但保留当前图形和当前数据(不刷新页面)。到目前为止，我已经成功地完成了实时图形，但正在努力停止使用当前数据<

浏览 0提问于2021-01-09得票数 0

1回答

使用InputStream - Java执行JAR并读取控制台输出。

java、logging、inputstream

我有一个myfile.jar文件，我正在通过另一个ProcessBuilder程序执行该文件，并尝试使用InputStream读取jar的控制台输出，如下所示：过去三天我都快疯了。解决这个问题<

浏览 3提问于2014-12-29得票数 2

回答已采纳

点击加载更多