腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(5030)
视频
沙龙
2
回答
如
何在
PySpark
中
从
单个
元素
的
RDD
创建
成对
RDD
?
、
、
、
这是实际
的
管道。我正在将文本加载到
RDD
中
。然后我把它清理干净。=
rdd
1.flatMap(Func)
rdd
3 =
rdd
2.filter(lambda x: x notin stopwords) # filter out stopwords Out:['a',
浏览 21
提问于2019-04-27
得票数 0
1
回答
如何通过在python
中
添加2个
RDD
的
对应
元素
来
创建
RDD
、
、
所以我有两个
RDD
1 (假设是
RDD
1和
RDD
2),每个都有一个数字列表。这两个列表
的
大小相同。我想
创建
一个
RDD
3,其中
RDD
3
中
的
每个
元素
都是
RDD
1和
RDD
2
的
相应
元素
的
相加。如
何在
python中使用
pyspark
函数完成此操作?
浏览 12
提问于2020-07-10
得票数 0
1
回答
如何批量收集
RDD
中
的
元素
、
、
我有一个
pyspark
RDD
,它有大约200万个
元素
。我不能一次收集它们,因为它会导致OutOfMemoryError异常。 如何批量采集?这是一个潜在
的
解决方案,但我怀疑还有更好
的
方法:收集一个批处理(使用take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/
pyspark
.
RDD
.take.html
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
2
回答
使用
pyspark
将两个csv文件连接到键值
rdd
中
、
、
、
我正在尝试使用
pyspark
将两个没有共同之处(没有键是公共
的
)
的
csv文件组合成一个键值
成对
的
rdd
让我们假设A.csv有 ac 而B.csv有 13 在
pyspark
中有没有一个选项可以通过连接这两个来获得一个
rdd
,就像这样 a:1c:3 当然,两个csv文件
中
的
行数应该匹配。这是在
pyspark
中
很容易做
的
事情,还是应该首先在常规<
浏览 13
提问于2019-12-17
得票数 0
1
回答
当实现
RDD
时,
PySpark
作业似乎被卡住了。
、
我有一个SparkJob,它从在N项之间
创建
一个
成对
的
分数矩阵开始。虽然密集,这是相当快-到大约20K
元素
,之后,它似乎被困了很长时间。我在多次尝试中看到
的
最后一个日志行是“清除累加器”,我将下面的代码块附加到下面,以便用随机
创建
的
50K
元素
数据集来重现这个问题。笛卡尔产品
的
速度相当快,结果
的
RDD
计数会在几分钟内(25亿行)返回,但是第二次计数会停留两个多小时,日志或Spark
中
浏览 2
提问于2016-06-29
得票数 1
1
回答
reduceByKey:它是如
何在
内部工作
的
?
、
、
我是Spark和Scala
的
新手。我对reduceByKey函数在Spark
中
的
工作方式感到困惑。pairs = lines.map(s => (s, 1))映射函数很清晰:s是键,它指向data.txt
中
的
行但是,我不知道reduceByKey在内部是如何工作
的
?"a“是否指向关键字?或者,"a“是否指向"s"?那么a+ b代表什么呢?它
浏览 42
提问于2015-05-10
得票数 66
回答已采纳
1
回答
星图变换
、
、
为什么Map转换将单行作为
单个
元素
?是否有任何方法来改变这一点,以便它将匹配一个模式,而不是默认
的
单行?示例: 映射是Apache
中
的
一个转换操作,它应用于
RDD
的
每个
元素
,并将结果作为新
的
RDD
返回。
浏览 5
提问于2017-05-20
得票数 2
回答已采纳
1
回答
如何
从
任何数据库表
创建
PySpark
RDD
?
由于我是星火社区
的
新手,任何人都能解释如何
从
数据库表
创建
PySpark
RDD
吗?我可以使用
PySpark
方法
的
textFile()方法
从
CSV文件
创建
SparkContext
RDD
。但我不知道
从
数据库表
中
创建
PySpark
RDD
。
浏览 0
提问于2018-02-10
得票数 1
回答已采纳
1
回答
在使用
PySpark
时,如
何在
Spark
中
实现Python数据结构?
、
、
、
我目前正在自学Spark programming,并试图用
PySpark
重新编写一个现有的Python应用程序。然而,我仍然对如
何在
PySpark
中使用常规Python对象感到困惑。我了解Spark
中
的
分布式数据结构,
如
RDD
、DataFrame、Datasets、vector等。Spark有自己
的
转换操作和动作操作,
如
.map()、.reduceByKey()来操作这些对象。但是,如果我在
PySpark
中<
浏览 34
提问于2017-03-01
得票数 1
回答已采纳
1
回答
Neo4j作为火花放电
的
数据源
、
、
、
、
我有一个要求,我必须
从
Neo4j中提取数据,并从这些数据
中
创建
Spark。我在我
的
项目中使用Python。连接器具有相同
的
用途,但它是用Scala编写
的
。所以我现在可以想出解决办法- 以小块/批
的
形式
从
neo4j查询数据,使用parallize()方法将每个块转换为Spark。最后,使用union()方法合并/合并所有的
RDD
,以获得
单个
RDD
。如果有更好
的
浏览 7
提问于2018-01-09
得票数 2
4
回答
RDD
和Pair
RDD
的
区别和用例
我刚开始接触spark,并试图理解普通
RDD
和配对
RDD
之间
的
区别。使用
成对
RDD
而不是普通
RDD
的
用例有哪些?如果可能,我想通过一个例子来了解pair
RDD
的
内部结构。谢谢
浏览 1
提问于2016-05-06
得票数 15
2
回答
如
何在
火花放电中将密集向量
的
关系式转换成DataFrame?
、
、
、
、
我有这样
的
DenseVector
RDD
[DenseVector([1.0, 0.0, 1.0, 1.0, 0.0, 0.0,我试过像这样它会产生这样
的
错误 Traceback/sql/session.py", line 520,
浏览 3
提问于2016-12-26
得票数 11
回答已采纳
2
回答
对
RDD
的
每个
元素
使用sparkcontext函数
、
、
我需要使用
Pyspark
从
Elasticsearch读取数据。我正在尝试在
pyspark
中
设计一个流,如下所示-ii) foreach -in-
rdd
1"org.elasticsearch.hadoop.mr.LinkedMapWritable",
rdd
2 = sc.newAPIHadoopRDD("org.
浏览 0
提问于2016-07-11
得票数 0
1
回答
传递由:
PySpark
引起
的
函数错误
的
java.io.EOFException映射转换
当我试图将一个函数传递给Spark
的
map方法时,我遇到了一些问题。我
的
问题似乎是在功能,但不确定它。我
的
功能是这样
的
: rowDict = row.asDict() rowDicthash_column返回一个Row()对象,或者通过将函数简化为只返回("Hello"),但仍然收到相同
的
错误。/sql/session.py"
浏览 34
提问于2022-10-28
得票数 0
2
回答
如何使用
pyspark
在cassandra数据上
创建
RDD
对象
、
、
、
、
我正在使用cassandra 2.0.3,我想使用
pyspark
(Apache Spark Python API)
从
cassandra数据
创建
一个
RDD
对象。请注意:我不想做导入CQL,然后
从
pyspark
API查询CQL,而是我想
创建
一个
RDD
,我想在上面做一些转换。 我知道在Scala
中
可以做到这一点,但我不知道如
何在
pyspark
中
做到这一点。
浏览 10
提问于2013-12-30
得票数 9
1
回答
遍历
成对
的
RDD
(
Pyspark
)
的
值并替换空值
、
、
、
我正在使用Spark
RDD
API收集数据,并
创建
了一个
成对
的
RDD
,如下所示: spark = SparkSession.builder.master('local').appName('app'.map(lambda x: x.split(","))\ .map(lambda x: (x[2], [x[1], x[3],x[5]])) 以下是
成对
RDD
的
示例摘录: [('
浏览 126
提问于2021-10-14
得票数 1
回答已采纳
1
回答
使用Scala在Spark
中
创建
映射值
、
、
我是spark-scala开发
的
新手。我试图使用scala在spark
中
创建
一个映射值,但得到了类型不匹配错误。
浏览 1
提问于2015-11-08
得票数 0
4
回答
Apache Spark
RDD
值查找
我
从
Hbase加载了数据,并对这些数据进行了一些操作,然后
创建
了一个
成对
的
RDD
。我想在我
的
下一个函数中使用这个
RDD
的
数据。我在
RDD
中有50万条记录。你能建议
从
成对
的
RDD
中
按键读取数据
的
性能有效
的
方法吗?
浏览 45
提问于2016-08-01
得票数 0
1
回答
如何解压Python
中
RDD
中
每个项
的
值(列表)?
、
、
、
我有一个
RDD
,每一项都是表格。每个项目都是一个键值对,该值是一个
元素
列表。我想解压列表,这样我就可以
创建
一个新
的
RDD
,每个项目都包含一个
元素
,如下所示:(key, ele2)..(key, ele4)我试着做
RDD
.flatmap(lamb
浏览 2
提问于2015-12-13
得票数 3
回答已采纳
2
回答
测试将值插入到mongodb
中
(
pyspark
,pymongo)
、
、
、
、
我想(在本地)测试将一些值插入到mongo数据库
中
。table.find_one({}) import
pyspark
import pymongo servers=(("mong
浏览 2
提问于2019-08-20
得票数 1
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
PySpark,大数据处理的Python加速器!
遇见YI算法之初识Pyspark(二)
机器学习实践:如何将Spark与Python结合?
PySpark,一个大数据处理利器的Python库!
大数据之谜Spark基础篇,Spark RDD内幕详解
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券