腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
4
回答
理解
RDDs
的
Spark
中
的
lambda
函数
输入
、
、
、
我正在上一门关于
Spark
的
课程,我有点困惑。 所以这里有下面的代码。我知道第1行正在创建元组(word,1)。然后,第2行按字分组并对计数求和。我不明白
的
是,第2行
中
的
X和y是什么,lamda
函数
只有一个数字
输入
,那就是wordcounts
中
的
count列(全部为1),那么为什么是y呢?wordCounts = words.map(
lambda
x: (x, 1)) #outputs [('self
浏览 45
提问于2019-10-22
得票数 3
回答已采纳
1
回答
这个RDD是什么样子
的
?
、
、
是否有任何
spark
streaming文档来解释流中使用以下方法获得
的
RDDs
的
内容:lines = kvs.map(
lambda
x: x[1])(None,<line>)(None,<line>)
浏览 0
提问于2015-10-22
得票数 0
1
回答
如何解决火花放电
中
的
org.apache.kafka.clients.producer.KafkaProducer.flush()V错误java.lang.NoSuchMethodError
、
、
、
我从一个Kafka主题中读到了一些消息,对于每个rdd,都执行
函数
proccess_
rdds
。x: x) lines.foreachRDD(
lambda
y: proccess_
rdds
(:
spark
_streaming_online()) ssc.awaitTermination() 我不能在这里发布来自proccess_
rdds<
浏览 6
提问于2020-06-02
得票数 1
1
回答
将用户
函数
应用于整个
Spark
DataFrame列
、
、
Spark
DataFrame模式:root |-- Close:double (nullable = true)我希望在testtbl列
中
应用标量值
函数
。假设我想要计算“Close”列
的
平均值。对于rdd,我会这样做但是testtbl
浏览 1
提问于2016-07-26
得票数 1
2
回答
Pyspark使用saveAsNewAPIHadoopFile将DStream数据写入Elasticsearch
、
、
、
、
我正在尝试将Kafka Stream转换为
RDDs
,并将这些
RDDs
插入到Elasticsearch数据库
中
。这是我
的
代码:sc = SparkContext(conf=conf) "es.nodes(
lambda
a, b: a+b) val
浏览 0
提问于2016-12-30
得票数 1
2
回答
partitionBy和groupBy在火花中有什么区别?
、
我有一个pyspark,它可以收集成一个元组列表,如下所示: (("good", "
spark
"), 7), ((&q
浏览 2
提问于2020-06-17
得票数 2
回答已采纳
1
回答
从技术角度看RDD与Dataset/Dataframe
的
关系
我试图从技术角度
理解
RDDs
和Dataframes/Datesets之间是否存在关系。
RDDs
通常被描述为
Spark
中
的
基本数据抽象。在我
的
理解
中
,这意味着Dataframes/Datasets也应该基于它。在原始
Spark
SQL Paper
中
,图1和图3指向此连接。但是,我还没有找到任何关于这个连接
的
文档(如果它存在的话)。所以我
的
问题是:
浏览 10
提问于2020-07-24
得票数 0
回答已采纳
1
回答
spark
中
的
迭代过滤器似乎不起作用
、
、
、
我试图逐个删除RDD
的
元素,但这不起作用,因为元素重新出现。下面是我
的
代码
的
一部分: rdd =
spark
.sparkContext.parallelize([0,1,2,3,4]) rdd=rdd.filter(
lambda
x:x!我在想,在这个循环之后,rdd应该是空
的
。 然而,我不明白为什么,每次我将filter获得
的
新rdd保存在"rdd“
中
时,它不应该保留所有的转换吗?如果没有,我应
浏览 27
提问于2021-01-20
得票数 1
回答已采纳
2
回答
如何使用
Spark
Dstream进行简单
的
随机采样?(使用
spark
1.6.1
的
pyspark)
、
我想从数据流
中
的
rdds
中提取样本。import SparkConf conf=SparkConf()pairs = words.map(
lambda
word: (word , 1)) wordCount = pairs.reduceByKey(
lambda</e
浏览 8
提问于2016-08-19
得票数 0
回答已采纳
1
回答
Apache
Spark
:意外
的
过滤结果
、
、
我在本地模式下使用Apache
Spark
v1.2。我已经创建了一个RDD并将其持久化在内存
中
。
Spark
Web UI显示,此RDD
的
85%存储在内存
中
。我在RDD中有一个特性/变量,它
的
值为0,1,正如我通过运行下面的脚本得到
的
结果所示:现在,当我基于此运行筛选器时,我得不到相同<em
浏览 3
提问于2015-05-04
得票数 3
2
回答
通过thrift服务器从web浏览器访问
Spark
RDDs
- java
、
、
我们已经使用
Spark
1.2.1和Java处理了我们
的
数据,并存储在Hive表
中
。我们希望通过web浏览器以
RDDs
的
形式访问这些数据。 我阅读了文档,并
理解
了完成任务
的
步骤。我无法找到通过thrift服务器与
Spark
SQL
RDDs
进行交互
的
方法。我找到
的
示例在代码中有以下行,但我在
Spark
1.2.1Java API文档
中
找不到对应
的
浏览 1
提问于2015-04-24
得票数 3
1
回答
Spark
的
缓存似乎不起作用,因为在上没有RDD
、
、
我将通过在PythonPageRank 7上运行CentOS 7来测试
Spark
的
RDD缓存: links =但是,当我查看
Spark
的
存储页面时,我无法找到任何关于缓存
的</e
浏览 1
提问于2020-09-14
得票数 1
1
回答
spark
.sql.shuffle.partitions到底指的是什么?
、
spark
.sql.shuffle.partitions到底指的是什么?我们是在谈论一个宽转换
的
结果
的
分区
的
数量,还是在中间发生
的
事情,比如在宽转换
的
结果分区之前发生
的
某种中间分区?因为根据我
的
理解
,根据一个广泛
的
转变
spark
.sql.shuffle.parti
浏览 3
提问于2018-09-24
得票数 1
回答已采纳
3
回答
我们应该什么时候使用
Spark
-sql,什么时候使用
Spark
RDD
、
、
、
在哪种场景下,我们应该更倾向于使用
spark
RDD来编写解决方案,在哪种场景下,我们应该选择使用
spark
-sql。我知道
spark
-sql提供了更好
的
性能,它对结构和半结构数据
的
处理效果最好。但是,在选择
spark
Rdd和
spark
-sql时,我们还需要考虑哪些因素。
浏览 1
提问于2020-05-29
得票数 0
2
回答
中
跨多行json字符串
的
统一模式
、
对于包含一系列json字符串
的
PySpark DataFrame
中
的
行,我有一个困难
的
问题。问题
的
核心是每一行可能包含与另一行不同
的
模式,所以当我想将上述行转换为PySpark
中
的
可订阅数据类型时,我需要有一个“统一”模式。json_3 = '{"c": 300, "b": "3000", "d": 100.0, "f": {"som
浏览 1
提问于2020-05-08
得票数 5
回答已采纳
1
回答
如何删除星火(SCALA)
中
的
整个数据帧?
有一些
函数
可以删除
Spark
(SCALA)
中
的
列和行,但是却找不到任何
函数
来删除整个数据frame.Is,有一种方法可以删除
Spark
(SCALA)
中
的
数据帧吗?
浏览 0
提问于2016-10-15
得票数 3
1
回答
将RDD拆分为较小
的
RDD并将其存储在列表
中
时出现奇怪
的
行为
、
由于资源
的
限制,我需要能够将一个大
的
RDD拆分为n个较小
的
RDD,并在它们上作为单独
的
作业调用
spark
-submit。= item[0], item[1] filt_rdd = input_rdd.filter(
lambda
(filt_rdd) 上面的代码在生成时打印每个较小
的
rdd<e
浏览 0
提问于2017-10-18
得票数 0
2
回答
如何克隆RDD对象[Pyspark]
、
、
、
3)我知道我需要将巨大
的
数据转换为
RDDs
,但我是否也需要将单个int值转换为
RDDs
?如果我只声明一个int变量,它会跨节点分布吗?
浏览 2
提问于2017-06-28
得票数 0
2
回答
运算符图形生成
例如,我从一个1MB
的
textFile创建一个RDD,并执行flatMap转换,但在调用操作.collect之前,我将本地文件系统
中
的
文件替换为具有相同名称
的
100MB textFile。既然Operator Graph是在动作调用之后生成
的
,那么DAG不是应该从大文件中计算出来吗?/ Replace the textfile SampleData.txt(1 MB size) with SampleData (100 MB size)但是当我尝试这样做
的</e
浏览 1
提问于2017-10-06
得票数 0
1
回答
在吡火花RDD上执行map/减时出错
、
、
、
我只是想学习PySpark,但对下面两个
RDDs
之间
的
区别感到困惑,我知道一个是类型集,一个是列表,但都是
RDDs
。:priceMap.reduceByKey(add).take(10) 我可以很容易地对第二个rdd数据执行map /还原
函数
,但是当我试图执行映射或减少时,我会得到以下错误:那么我们如何将第一个rdd数
浏览 1
提问于2020-11-12
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Python中的lambda函数
Python中的lambda函数是什么
Python 中的输入函数:概念和示例|Linux 中国
Spark Streaming和Kafka集成深入浅出
编程思维-通过生活中的绑鞋带,让孩子理解函数-分组任务
热门
标签
更多标签
云服务器
ICP备案
实时音视频
即时通信 IM
对象存储
活动推荐
运营活动
广告
关闭
领券