foreachRDD在Twitter API的J8 Spark Streaming中为每个RDD提取平均单词数和字符数

apache-spark、java-8、spark-streaming、twitter-streaming-api

我正在尝试使用Java8中的spark从Twitter API中获取每个RDD中的平均单词数和字符数。然而，我在使用streams来实现这一点时遇到了问题。我的代码如下： //Create the stream.pulled during streaming</em

浏览 16提问于2021-05-02得票数 2

回答已采纳

3回答

值registerAsTable不是org.apache.spark.rdd.RDD[Tweet]的成员

twitter、apache-zeppelin、twitter-rest-api

我正在尝试使用zeppelin中的rest提取twitter数据。同时尝试了registerAsTable和registerTempTable选项，这两种方法都不起作用。请帮助我解决错误。在执行齐柏林飞艇教程代码时出错：错误: value registerAsTable不是org.apache.spark.rdd.RDDTweet ).foreachRDD(rdd=> rdd.regist

浏览 3提问于2016-02-10得票数 4

1回答

将BsonDocument写入MongoDB Spark* Scala*

mongodb、scala、apache-spark

DStream中的每个RDD都包含带有值的ArrayString，所以我为这些值设置了键，并将它们包装到org.bson.document中。Spark MongoDB连接器，所以下面是我的build.sbt文件中的依赖项： libraryDependencies ++= Seq("org.apache.kafka

浏览 2提问于2018-05-27得票数 0

7回答

java.lang.NoClassDefFoundError:运行TwitterPopularTags时的org/apache/spark/streaming/twitter/TwitterUtils$

scala、maven、apache-spark、noclassdeffounderror、spark-streaming

我是Spark streaming和Scala的初学者。对于一个项目需求，我尝试在github中运行TwitterPopularTags example。在经历了许多最初的问题之后，我终于能够创建jar文件了。但是当我尝试执行它的时候，我得到了以下错误。有人能帮我解决这个问题吗？Exception in thread "main" java.lang.NoClassDefFoundError: org/a

浏览 3提问于2015-01-27得票数 17

1回答

如何在火花流中以多批处理间隔传送数据流

apache-spark、spark-streaming、dstream

这两个数据流包含K/V字符串，并通过使用textFileStream()周期性地从HDFS中摄取。最初，我以这种方式为剩馀的键创建两个空流(这只是一个流，但是生成第二个流的代码类似)： JavaRDD<String> empty_rdd = sc.emptyRDD(); //sc = Java Spark，我从stream1和call window()中添加剩余的键。同样<e

浏览 0提问于2016-05-20得票数 5

回答已采纳

2回答

在scala火花流中使用foreach时，不希望字符串作为类型？

scala、utf-8、deserialization、spark-streaming、avro

默认情况下，当使用上述代码时，avroRecord是一个字符串。string在scala中默认使用UTF-16编码。我需要avroRecord是纯字节，而不是，而不是获取字符串，然后转换为字节(内部字符串将执行utf-16编码)。/sparkStreaming.scala:34:重载的方法值为createStr

浏览 5提问于2017-06-27得票数 1

回答已采纳

4回答

将分析数据从Spark插入到Postgres

java、postgresql、cassandra、apache-spark、apache-spark-sql

现在我想将分析过的数据插入到PostgreSQL中。除了使用PostgreSQL驱动程序(我使用postREST和驱动程序实现它，我想知道是否有类似于saveToCassandra()的方法)，还有什么方法可以直接实现吗？

浏览 10提问于2015-02-03得票数 9

回答已采纳

3回答

如何在cassandra中保存火花流数据

scala、apache-spark、cassandra、spark-streaming、spark-cassandra-connector

=127.0.0.1 –jars spark-streaming-kafka-assembly_2.10-1.6.3.jar本节包括在REPL会话的各种情况下使用的要导入的库。job 1504376717000 ms.0 from job set of time 1504376717000 ms 在Cassandra:中转换kafkaStream

浏览 5提问于2017-09-02得票数 2

2回答

spark-streaming和连接池实现

apache-spark、spark-streaming

上的spark流媒体网站提到了以下代码： rdd.foreachPartition { partitionOfRecords => }我曾尝试使用org.apache.commons.pool2实现此功能，但使用预期的java.io.NotSerializable

浏览 3提问于2015-05-26得票数 9

回答已采纳

2回答

用Gremlin求图的最长圈路径

graph、datastax、gremlin、tinkerpop

我正在尝试构建Gremlin查询，以便在启用了地理搜索的DSE Graph中使用(在Solr中索引)。问题是图是如此密集地相互连接，以至于循环路径遍历超时。现在，我正在处理的原型图有大约1600个顶点和大约35K条边。还总结了通过每个顶点的三角形的数量：|，但我会将对循环的

浏览 0提问于2018-03-02得票数 1

8回答

如何为Kafka主题编写火花流DF

scala、apache-spark、apache-kafka、spark-streaming、spark-streaming-kafka

我正在使用火花流处理两个卡夫卡队列之间的数据，但我似乎找不到一个好的方式来写卡夫卡从火花。我试过这样做： rdd.foreachPartition(partition => caseProducerRecord[String, String]("output", null, x) }

浏览 3提问于2015-07-23得票数 37

回答已采纳

2回答

将sql窗口函数迁移到RDD以获得更好的性能

scala、apache-spark、apache-spark-sql、rdd

应该对数据帧中的多列执行一个函数。-SQL和一个for循环。currentDF, colName) => handleBias(currentDF, colName)我如何使用RDD.join(pre1_1, Seq(col), "left") .na.fill(0)此图像为<

浏览 7提问于2017-01-03得票数 4

回答已采纳

1回答

es.scroll.limit和es.scroll.size有什么区别？

apache-spark、elasticsearch

我完全搞不懂这两个参数，es.scroll.limit es.scroll.limit = es.scroll.size * num_of_scrolls ???

浏览 2提问于2017-11-09得票数 2

2回答

将函数应用于Spark* DataFrame中的所有单元格*

python、pandas、apache-spark、pyspark、apache-spark-sql

我正在尝试将一些Pandas代码转换为Spark以进行缩放。myfunc是一个复杂应用程序接口的包装器，它接受一个字符串并返回一个新的字符串(这意味着我不能使用矢量化函数)。attribute] = valuemyfunc获取一个DataSeries，将其拆分成多个单元格，为每个单元格调用API，然后使用相同的</em

浏览 2提问于2019-02-02得票数 1

回答已采纳

5回答

申请、工作、阶段和任务的概念是什么？

apache-spark

我的理解对吗？帮助想要提高这种理解。

浏览 3提问于2017-02-16得票数 73

3回答

与reduceByKey相比，groupByKey是否更受欢迎

apache-spark、rdd

当我需要在RDDs中分组数据时，我总是使用reduceByKey，因为它在混洗数据之前执行map端reduce，这通常意味着较少的数据被混洗，因此我可以获得更好的性能。即使Map端的reduce函数收集了所有的值，实际上并没有减少数据量，我仍然使用reduceByKey，因为我假设reduceByKey的性能永远不会比groupByKey差。然而，我想知道这个假设是否正确，或者是否确实存在应该首选groupByKey的情况？

浏览 0提问于2015-10-20得票数 19

回答已采纳

11回答

Spark get集合按值排序

sorting、apache-spark、word-count

我尝试了这个教程我首先从一个文件中创建了一个集合然后，我尝试了一个命令来计算单词：打印集合的步骤： wordCounts.collect我想知道怎么可能做同样的事情来按值排序，在本例中</em

浏览 1提问于2014-07-09得票数 38

5回答

PCA在Java中的实现

java、pca

我需要在Java中实现PCA。我感兴趣的是找到一些记录良好的，实用的和易于使用的东西。有什么建议吗？

浏览 6提问于2012-05-15得票数 11

1回答

PySpark马尔可夫模型的算法/编码帮助

python、algorithm、machine-learning、apache-spark、pyspark

对于那些不熟悉马尔可夫模型的人来说，这就是它的要点。我不确定它是否相关，但是序列中每个位置的值都是有限的。第1位(H/M/ L)，第2位(M/L)，第3位(H，M，L)。然后，我将该字典与它的ID号一起包装在另一个字典中(结果是第二个代码块，上面的代

浏览 1提问于2015-09-17得票数 5

回答已采纳

13回答

用PySpark加载CSV文件

python、csv、apache-spark、pyspark、apache-spark-sql

我是新来的火花，我试图从一个文件读取CSV数据与火花。以下是我正在做的事情： .map(lambda line: (line.split(',')[0], line.split(',')[1])).collect() 文件""，第1行，在IndexError中:列出超

浏览 31提问于2015-02-28得票数 125

回答已采纳

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

值registerAsTable不是org.apache.spark.rdd.RDD[Tweet]的成员

将BsonDocument写入MongoDB Spark* Scala*

java.lang.NoClassDefFoundError:运行TwitterPopularTags时的org/apache/spark/streaming/twitter/TwitterUtils$

如何在火花流中以多批处理间隔传送数据流

在scala火花流中使用foreach时，不希望字符串作为类型？

将分析数据从Spark插入到Postgres

如何在cassandra中保存火花流数据

spark-streaming和连接池实现

用Gremlin求图的最长圈路径

如何为Kafka主题编写火花流DF

将sql窗口函数迁移到RDD以获得更好的性能

es.scroll.limit和es.scroll.size有什么区别？

将函数应用于Spark* DataFrame中的所有单元格*

申请、工作、阶段和任务的概念是什么？

与reduceByKey相比，groupByKey是否更受欢迎

Spark get集合按值排序

PCA在Java中的实现

PySpark马尔可夫模型的算法/编码帮助

用PySpark加载CSV文件

扫码

相关资讯

热门标签

活动推荐

运营活动

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐