腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(49)
视频
沙龙
2
回答
foreachRDD
在
Twitter
API
的
J8
Spark
Streaming
中
为
每个
RDD
提取
平均
单
词数
和
字符
数
apache-spark
、
java-8
、
spark-streaming
、
twitter-streaming-api
我正在尝试使用Java8
中
的
spark
从
Twitter
API
中
获取
每个
RDD
中
的
平均
单
词数
和
字符
数
。然而,我
在
使用streams来实现这一点时遇到了问题。我
的
代码如下: //Create the stream.pulled during
streaming</em
浏览 16
提问于2021-05-02
得票数 2
回答已采纳
3
回答
值registerAsTable不是org.apache.
spark
.
rdd
.
RDD
[Tweet]
的
成员
twitter
、
apache-zeppelin
、
twitter-rest-api
我正在尝试使用zeppelin
中
的
rest
提取
twitter
数据。同时尝试了registerAsTable
和
registerTempTable选项,这两种方法都不起作用。请帮助我解决错误。
在
执行齐柏林飞艇教程代码时出错: 错误: value registerAsTable不是org.apache.
spark
.
rdd
.RDDTweet ).
foreachRDD
(
rdd
=>
rdd
.regist
浏览 3
提问于2016-02-10
得票数 4
1
回答
将BsonDocument写入MongoDB
Spark
Scala
mongodb
、
scala
、
apache-spark
DStream
中
的
每个
RDD
都包含带有值
的
ArrayString,所以我
为
这些值设置了键,并将它们包装到org.bson.document
中
。
Spark
MongoDB连接器,所以下面是我
的
build.sbt文件
中
的
依赖项: libraryDependencies ++= Seq("org.apache.kafka
浏览 2
提问于2018-05-27
得票数 0
7
回答
java.lang.NoClassDefFoundError:运行TwitterPopularTags时
的
org/apache/
spark
/
streaming
/
twitter
/TwitterUtils$
scala
、
maven
、
apache-spark
、
noclassdeffounderror
、
spark-streaming
我是
Spark
streaming
和
Scala
的
初学者。对于一个项目需求,我尝试
在
github
中
运行TwitterPopularTags example。
在
经历了许多最初
的
问题之后,我终于能够创建jar文件了。但是当我尝试执行它
的
时候,我得到了以下错误。有人能帮我解决这个问题吗?Exception in thread "main" java.lang.NoClassDefFoundError: org/a
浏览 3
提问于2015-01-27
得票数 17
1
回答
如何在火花流
中
以多批处理间隔传送数据流
apache-spark
、
spark-streaming
、
dstream
这两个数据流包含K/V
字符
串,并通过使用textFileStream()周期性地从HDFS
中
摄取。最初,我以这种方式
为
剩馀
的
键创建两个空流(这只是一个流,但是生成第二个流
的
代码类似): JavaRDD<String> empty_
rdd
= sc.emptyRDD(); //sc = Java
Spark
,我从stream1
和
call window()
中
添加剩余
的
键。同样<e
浏览 0
提问于2016-05-20
得票数 5
回答已采纳
2
回答
在
scala火花流中使用foreach时,不希望
字符
串作为类型?
scala
、
utf-8
、
deserialization
、
spark-streaming
、
avro
默认情况下,当使用上述代码时,avroRecord是一个
字符
串。string
在
scala
中
默认使用UTF-16编码。我需要avroRecord是纯字节,而不是,而不是获取
字符
串,然后转换为字节(内部
字符
串将执行utf-16编码)。/sparkStreaming.scala:34:重载
的
方法值
为
createStr
浏览 5
提问于2017-06-27
得票数 1
回答已采纳
4
回答
将分析数据从
Spark
插入到Postgres
java
、
postgresql
、
cassandra
、
apache-spark
、
apache-spark-sql
现在我想将分析过
的
数据插入到PostgreSQL
中
。除了使用PostgreSQL驱动程序(我使用postREST
和
驱动程序实现它,我想知道是否有类似于saveToCassandra()
的
方法),还有什么方法可以直接实现吗?
浏览 10
提问于2015-02-03
得票数 9
回答已采纳
3
回答
如何在cassandra中保存火花流数据
scala
、
apache-spark
、
cassandra
、
spark-streaming
、
spark-cassandra-connector
=127.0.0.1 –jars
spark
-
streaming
-kafka-assembly_2.10-1.6.3.jar本节包括
在
REPL会话
的
各种情况下使用
的
要导入
的
库。job 1504376717000 ms.0 from job set of time 1504376717000 ms
在
Cassandra:中转换kafkaStream
浏览 5
提问于2017-09-02
得票数 2
2
回答
spark
-
streaming
和
连接池实现
apache-spark
、
spark-streaming
上
的
spark
流媒体网站提到了以下代码:
rdd
.foreachPartition { partitionOfRecords => }我曾尝试使用org.apache.commons.pool2实现此功能,但使用预期
的
java.io.NotSerializable
浏览 3
提问于2015-05-26
得票数 9
回答已采纳
2
回答
用Gremlin求图
的
最长圈路径
graph
、
datastax
、
gremlin
、
tinkerpop
我正在尝试构建Gremlin查询,以便在启用了地理搜索
的
DSE Graph中使用(
在
Solr
中
索引)。问题是图是如此密集地相互连接,以至于循环路径遍历超时。现在,我正在处理
的
原型图有大约1600个顶点
和
大约35K条边。还总结了通过
每个
顶点
的
三角形
的
数量:|,但我会将对循环
的
浏览 0
提问于2018-03-02
得票数 1
8
回答
如何为Kafka主题编写火花流DF
scala
、
apache-spark
、
apache-kafka
、
spark-streaming
、
spark-streaming-kafka
我正在使用火花流处理两个卡夫卡队列之间
的
数据,但我似乎找不到一个好
的
方式来写卡夫卡从火花。我试过这样做:
rdd
.foreachPartition(partition => caseProducerRecord[String, String]("output", null, x) }
浏览 3
提问于2015-07-23
得票数 37
回答已采纳
2
回答
将sql窗口函数迁移到
RDD
以获得更好
的
性能
scala
、
apache-spark
、
apache-spark-sql
、
rdd
应该对数据帧
中
的
多列执行一个函数。-SQL
和
一个for循环。currentDF, colName) => handleBias(currentDF, colName)我如何使用
RDD
.join(pre1_1, Seq(col), "left") .na.fill(0)此图像
为
<
浏览 7
提问于2017-01-03
得票数 4
回答已采纳
1
回答
es.scroll.limit
和
es.scroll.size有什么区别?
apache-spark
、
elasticsearch
我完全搞不懂这两个参数,es.scroll.limit es.scroll.limit = es.scroll.size * num_of_scrolls ???
浏览 2
提问于2017-11-09
得票数 2
2
回答
将函数应用于
Spark
DataFrame
中
的
所有单元格
python
、
pandas
、
apache-spark
、
pyspark
、
apache-spark-sql
我正在尝试将一些Pandas代码转换为
Spark
以进行缩放。myfunc是一个复杂应用程序接口
的
包装器,它接受一个
字符
串并返回一个新
的
字符
串(这意味着我不能使用矢量化函数)。attribute] = valuemyfunc获取一个DataSeries,将其拆分成多个单元格,
为
每个
单元格调用
API
,然后使用相同
的</em
浏览 2
提问于2019-02-02
得票数 1
回答已采纳
5
回答
申请、工作、阶段
和
任务
的
概念是什么?
apache-spark
我
的
理解对吗? 帮助想要提高这种理解。
浏览 3
提问于2017-02-16
得票数 73
3
回答
与reduceByKey相比,groupByKey是否更受欢迎
apache-spark
、
rdd
当我需要在RDDs中分组数据时,我总是使用reduceByKey,因为它在混洗数据之前执行map端reduce,这通常意味着较少
的
数据被混洗,因此我可以获得更好
的
性能。即使Map端
的
reduce函数收集了所有的值,实际上并没有减少数据量,我仍然使用reduceByKey,因为我假设reduceByKey
的
性能永远不会比groupByKey差。然而,我想知道这个假设是否正确,或者是否确实存在应该首选groupByKey
的
情况?
浏览 0
提问于2015-10-20
得票数 19
回答已采纳
11
回答
Spark
get集合按值排序
sorting
、
apache-spark
、
word-count
我尝试了这个教程我首先从一个文件
中
创建了一个集合然后,我尝试了一个命令来计算单词:打印集合
的
步骤: wordCounts.collect我想知道怎么可能做同样
的
事情来按值排序,
在
本例
中</em
浏览 1
提问于2014-07-09
得票数 38
5
回答
PCA
在
Java
中
的
实现
java
、
pca
我需要在Java
中
实现PCA。我感兴趣
的
是找到一些记录良好
的
,实用
的
和易于使用
的
东西。有什么建议吗?
浏览 6
提问于2012-05-15
得票数 11
1
回答
PySpark马尔可夫模型
的
算法/编码帮助
python
、
algorithm
、
machine-learning
、
apache-spark
、
pyspark
对于那些不熟悉马尔可夫模型的人来说,这就是它
的
要点。我不确定它是否相关,但是序列
中
每个
位置
的
值都是有限
的
。第1位(H/M/ L),第2位(M/L),第3位(H,M,L)。然后,我将该字典与它
的
ID号一起包装在另一个字典
中
(结果是第二个代码块,上面的代
浏览 1
提问于2015-09-17
得票数 5
回答已采纳
13
回答
用PySpark加载CSV文件
python
、
csv
、
apache-spark
、
pyspark
、
apache-spark-sql
我是新来
的
火花,我试图从一个文件读取CSV数据与火花。以下是我正在做
的
事情: .map(lambda line: (line.split(',')[0], line.split(',')[1])).collect() 文件"",第1行,
在
IndexError
中
:列出超
浏览 31
提问于2015-02-28
得票数 125
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
英雄惜英雄-当Spark遇上Zeppelin之实战案例
Spark Streaming 2.2.0 Example
Flume-Kafka-SparkStreaming实战2
Spark Streaming和Kafka集成深入浅出
Waterdrop帮你快速玩转Spark数据处理
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券