腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
文章
问答
(9999+)
视频
沙龙
1
回答
过
滤出
pyspark
RDD
中
的
非
数字
值
、
、
、
、
,"Unkown"],["2213/987","City","1197", ]] 我想分别为第二个条目(City/Metro)
中
的
每个不同
值
计算每行(1000,2000等)最后一个
值
的
平均值和最大
值
。我使用以下代码来收集&quo
浏览 23
提问于2020-08-23
得票数 0
回答已采纳
1
回答
rdd
.histogram给出"can not generate bucket with non-number in
RDD
“错误
、
使用以下单列数据框架, from
pyspark
.sql import SparkSessiondf.show() | _1|| 1|| 3|| 5| +---+ 使用
rdd
df.
rdd
.histogram(2) 然后我得到一个错误:无法在
RDD</e
浏览 31
提问于2019-06-10
得票数 5
回答已采纳
1
回答
Pyspark
:“
rdd
”对象没有属性“平面映射”
、
、
、
我是刚接触
过
Pyspark
的人,我实际上是在尝试用
Pyspark
对象构建一个平面图。但是,根据文档,即使这个函数显然存在于吡火花
RDD
类
中
,我也无法使用它并得到以下错误:我在下面一行
中
调用后一个函数: my_
rdd
= my_
rdd
.flatmap(lambda r: (r[5].s
浏览 2
提问于2018-10-28
得票数 4
回答已采纳
2
回答
如何将2个RDDs
的
列从单个
RDD
中
添加到其中,然后根据
PySpark
中
的
日期数据进行行聚合
、
、
、
、
我在
PySpark
中有两个
PySpark
:[(u'2013-01-31 00:00:00', u'a', u'Pab', u'abc', u'd'),(u'2013-01-31 00:00
RDD
2:两个RDDs都有相同
的
<em
浏览 7
提问于2015-12-07
得票数 5
1
回答
使用lambda表达式理解map()函数
的
概念
、
、
rdd
.map(lambda x : (x[1],0))
浏览 2
提问于2022-04-19
得票数 -2
回答已采纳
1
回答
使用
PySpark
根据列名及其数值过滤spark
RDD
、
、
、
、
问题是我
的
RDD
有大约100万个观察
值
和大约33列。我基于数值阈值('Time')来拆分
RDD
。时间变量采用
数字
格式(double) (
非
posix)。以下是Scala
的
源代码:val splitTime = data.stat.approxQuantile("Time", Arraydata.filter(s"Time<$
浏览 6
提问于2017-12-13
得票数 0
1
回答
Scala案例方法在火花放电
中
的
应用
、
在scala
中
,当我有一个类似于:List(("a",1),("a",2),("b",3),("b",4),("b",5),("a",6))
的
RDD
列表时,我想要计算每个字符
的
avg数。与a一样,它以1+2+6 = 9
的
值
显示了3次,因此我希望得到
的
结果是(a, 3)。然而,我怎样才能向火星之火解释这个案例(
数字
/计数)?
浏览 5
提问于2021-12-24
得票数 0
回答已采纳
1
回答
pyspark
不适用于regex
、
我已经从一个带有urls列表
的
文件
中
创建了
RDD
:现在,我尝试使用包含'net.com‘
的
所有行创建另一个
RDD
,该字符串以
非
数字
或字母符号开头我
的
意思是包括带有.net.com或\tnet.com
的
行,排除internet.com或cnet.com。如何让
pyspark
shell与regex一起工作?
浏览 1
提问于2016-06-15
得票数 1
2
回答
PySpark
评价
、
、
我正在尝试下面的代码,它向
RDD
中
的
每一行添加一个
数字
,并使用
PySpark
返回
RDD
的
列表。from
pyspark
.context import SparkContextsc = SparkContextrange(4)] print splits[0].co
浏览 5
提问于2016-06-28
得票数 6
回答已采纳
1
回答
火花放电
rdd
分裂问题
、
、
我试图从
rdd
中
筛选
值
为"01-10-2019“
的
print(" ### count of
rdd
_201901001:",
rdd
_201901001.
浏览 5
提问于2020-02-08
得票数 1
回答已采纳
1
回答
电火花hive_table数据处理错误
、
、
、
我正在用Spark2.1.1用木星写东西from
pyspark
.ml.feature import MinMaxScalerbatch2 = batch1.
rdd
.map(lambda row: Vectors.dense(row.field1))for recor
浏览 2
提问于2019-10-25
得票数 0
1
回答
使用spark python按键从json字典
RDD
中选择字典条目并对其进行分组
、
、
、
、
我想从
RDD
中
的
每个条目(json对象)中选择和分组特定
的
键/
值
对,并对它们进行分组,然后收集它们。例如:
RDD
中
的
每个条目包含许多(键:
值
)对,其中,the second我想从
RDD
中
浏览 1
提问于2018-10-16
得票数 0
1
回答
声明字段类型和实际字段类型不匹配时生成空
值
的
PySpark
SQLContext.createDataFrame
、
、
在
PySpark
(v1.6.2)
中
,当使用指定
的
模式将
RDD
转换为DataFrame时,
值
类型与模式
中
声明
的
值
类型不匹配
的
字段将转换为null。from
pyspark
import SparkContextfrom
pyspark
.sql.types import StructType= sc.parall
浏览 27
提问于2016-07-27
得票数 0
回答已采纳
1
回答
如何通过在python
中
添加2个
RDD
的
对应元素来创建
RDD
、
、
所以我有两个
RDD
1 (假设是
RDD
1和
RDD
2),每个都有一个
数字
列表。这两个列表
的
大小相同。我想创建一个
RDD
3,其中
RDD
3
中
的
每个元素都是
RDD
1和
RDD
2
的
相应元素
的
相加。如何在python中使用
pyspark
函数完成此操作?
浏览 12
提问于2020-07-10
得票数 0
1
回答
超长队列
的
spark任务是如何处理
的
?
、
、
我使用
pyspark
处理多个日志文件,其中一条记录被分成多行格式,所以我选择wholeTextFiles来读取数据,然后过
滤出
我想要
的
内容。每个文件大小约800M,共有4096个文件。配置:核心代码:print file_
rdd
.getNumPartitions() out_
rdd</e
浏览 20
提问于2019-10-28
得票数 0
1
回答
将键值
rdd
转换为仅包含
值
列表
的
rdd
。
、
、
、
如何将键值
rdd
转换为只有
PySpark
中
的
值
列表
的
rdd
?假设
rdd
有(key1,“这是一个测试”)和(key2,“今天是周日”),我想将这个
rdd
转换成一个包含(“这是一个测试”,“今天是周日”)
的
rdd
。键值对是user_id和tweet,我希望首先标记这些tweet,并报告每个令牌
的
计数。然后对特定用户组执行相同
的
操作。都是
PySpark
浏览 0
提问于2018-05-20
得票数 0
回答已采纳
1
回答
从
PySpark
数据框
中
的
重复行中提取和替换
值
、
、
、
我有重复
的
行,可能包含相同
的
数据或在
PySpark
数据框中有缺失
值
。我写
的
代码非常慢,并且不能作为分布式系统工作。有谁知道如何从
PySpark
数据帧
中
的
重复行中保留单个唯一
值
,该数据帧可以作为分布式系统运行,并且具有快速
的
处理时间? 我已经写了完整
的
Pyspark
代码,这个代码工作正常。(): # Match duplicates usi
浏览 25
提问于2019-06-21
得票数 0
1
回答
传递由:
PySpark
引起
的
函数错误
的
java.io.EOFException映射转换
当我试图将一个函数传递给Spark
的
map方法时,我遇到了一些问题。我
的
问题似乎是在功能,但不确定它。我
的
功能是这样
的
: rowDict = row.asDict() rowDicthash_column返回一个Row()对象,或者通过将函数简化为只返回("Hello"),但仍然收到相同
的
错误。/sql/session.py"
浏览 34
提问于2022-10-28
得票数 0
5
回答
pyspark
: ValueError:某些类型在推断后无法确定
、
、
、
、
spark_my_df = sc.createDataFrame(my_df) 520
rdd
, schema_jvm.SerDeUtil.toJavaArray(
rdd</em
浏览 1
提问于2016-11-10
得票数 34
3
回答
PySpark
: TypeError:条件应为字符串或列
、
、
、
、
我正在尝试过滤
RDD
,如下所示:spark_df.filter(lambda r: str(r['target']).lambda r: str(r['target']).startswith('good')) /usr/local/spark-latest/python/
pyspark
浏览 2
提问于2016-10-06
得票数 18
点击加载更多
热门
标签
更多标签
云服务器
ICP备案
腾讯会议
云直播
对象存储
活动推荐
运营活动
广告
关闭
领券