腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
将数据保存到HDFS
的
格式是什么?
hadoop
、
apache-spark
、
hdfs
、
apache-spark-sql
在dataframe或
rdd
中
是否有其他格式可用于在Hadoop中保存数据?
浏览 2
提问于2017-12-21
得票数 1
2
回答
在
RDD
中
替换
多个
字符
串
python-3.x
、
apache-spark
、
pyspark
我想
替换
pyspark
rdd
中
的
多个
字符
串。我想
替换
这些
字符
串
的
长度顺序-从最长到最短。操作最终将取代大量
的
文本,因此良好
的
性能是一个考虑因素。问题示例: replace, text, is replacement1, replacement2, repla
浏览 0
提问于2018-12-22
得票数 1
1
回答
如何
使用
pyspark
替换
RDD
中
的
字符
?
apache-spark
、
pyspark
、
rdd
我有一个看起来像这样
的
RDD
: [['M5126', 'M5416', 'Z4789', 'Z01810', 'S060X6D', 'S9032XA', 'S96912A', 'S72002A', 'M25512', 'M1712', 'M25612', 'M62512', 'S39012D',
浏览 11
提问于2020-12-23
得票数 0
回答已采纳
1
回答
PySpark
RDD
与Scala
的
转换
apache-spark
、
pyspark
、
rdd
TL;DR -我在
PySpark
应用程序中有一个看起来像
字符
串
的
DStream。我想将它作为一个DStream[String] 发送到Scala库。但是,Py4j不转换
字符
串.。我正在开发一个
PySpark
应用程序,它
使用
星火流从Kafka提取数据。我
的
消息是
字符
串,我想在Scala代码
中
调用一个方法,向它传递一个DStream[String]实例。但是,我无法在Scala代码
中
接收到适当
的
JVM<
浏览 4
提问于2016-09-12
得票数 5
回答已采纳
2
回答
我
如何
才能在
PySpark
中
得到一个不同
的
数据集?
python
、
apache-spark
、
pyspark
、
rdd
我有一个字典
的
RDD
,我想得到一个只包含不同元素
的
RDD
。/
pyspark
.zip/
pyspark
/
rdd
.py", line 2346, in pipeline_funcTypeError
浏览 5
提问于2016-02-19
得票数 2
回答已采纳
1
回答
星星之火1.6:
如何
将从Scala jar生成
的
RDD
转换为吡火花
RDD
?
java
、
python
、
scala
、
apache-spark
我正在尝试创建一些POC代码,演示
如何
从
PySpark
调用Scala函数,结果是一个
PySpark
.
RDD
。以下是Scala端
的
代码: } 这就是我在
PySpark
端访问它所做
的
事情: &g
浏览 18
提问于2017-05-05
得票数 0
回答已采纳
1
回答
如何
批量收集
RDD
中
的
元素
pyspark
、
rdd
、
batch-processing
我有一个
pyspark
RDD
,它有大约200万个元素。我不能一次收集它们,因为它会导致OutOfMemoryError异常。
如何
批量采集?这是一个潜在
的
解决方案,但我怀疑还有更好
的
方法:收集一个批处理(
使用
take、https://spark.apache.org/docs/3.1.2/api/python/reference/api/
pyspark
.
RDD
.
浏览 29
提问于2021-10-12
得票数 0
回答已采纳
1
回答
在
PySpark
中
应用自定义函数时
使用
外部模块
python
、
apache-spark
、
pyspark
下面的代码片段试图将一个简单
的
函数应用于一个
PySpark
RDD
对象:conf =
pyspark
.SparkConf()
rdd
=
rdd
.map(lambda line: line.split(","))
rdd
= <em
浏览 3
提问于2016-03-20
得票数 1
回答已采纳
1
回答
如何
检测
pyspark
中
的
单调下降
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我正在
使用
spark DataFrame,我希望检测来自特定列
的
任何值,其中该值不是单调递减
的
。对于这些值,我想根据排序条件将它们
替换
为以前
的
值。下面是一个概念性
的
示例,假设我有一个值为[65, 66, 62, 100, 40]
的
列。值"100“不遵循单调下降趋势,因此应
替换
为62。因此,结果列表将是[65, 66, 62, 62, 40]。下面是我创建
的
一些代码,用于检测必须
替换
的
值,但
浏览 15
提问于2020-02-14
得票数 1
回答已采纳
2
回答
如何
在
PySpark
1.6
中
将DataFrame列从
字符
串转换为浮点型/双精度?
python
、
pyspark
、
apache-spark-sql
、
type-conversion
在Spark1.6 DataFrame
中
,目前没有
PySpark
内置函数可以将
字符
串转换为浮点型/双精度型。 假设我们有一个
RDD
('house_name','price'),两个值都是
字符
串。你想转换,价格从
字符
串到浮点数。在
PySpark
中
,我们可以应用映射和python浮点函数来实现这一点。New_
RDD
= RawDataRDD.map(lambda (house_name,
浏览 0
提问于2016-02-28
得票数 5
1
回答
如何
从任何数据库表创建
PySpark
RDD
?
pyspark
由于我是星火社区
的
新手,任何人都能解释
如何
从数据库表创建
PySpark
RDD
吗?我可以
使用
PySpark
方法
的
textFile()方法从CSV文件创建SparkContext
RDD
。但我不知道从数据库表
中
创建
PySpark
RDD
。
浏览 0
提问于2018-02-10
得票数 1
回答已采纳
1
回答
需要
RDD
的
实例,但返回了类“
pyspark
.
rdd
.PipelinedRDD”
python
、
apache-spark
、
spark-dataframe
、
rdd
df,spark):return result.
rdd
.sample(False, 0.1).map(lambda row : (row.temperature))任何帮助都将是
浏览 0
提问于2017-06-04
得票数 5
回答已采纳
1
回答
使用
map函数将Spark Dataframe转换为
RDD
apache-spark
、
dataframe
、
pyspark
我正在尝试将spark数据框
中
的
列拆分为多个值。因此,我分隔了要拆分
的
列,并检查了其类型:O:
pyspark
.sql.dataframe.DataFrame它会转换成流
浏览 0
提问于2016-06-22
得票数 0
1
回答
如何
使用
pyspark
.mllib
rdd
api度量来测量
pyspark
.ml (新数据帧api)?
pyspark
、
apache-spark-mllib
、
apache-spark-ml
MlLib
的
旧API有评估指标类:,而新
的
dataframe API没有这样
的
类: 它有计算器类,但它是有限
的
。
浏览 0
提问于2016-09-06
得票数 0
1
回答
如何
根据密钥对数据进行分组,并
使用
Spark为每个组执行一个函数?
apache-spark
、
pyspark
例如,
使用
id 1
的
所有条目都应该
使用
store_content存储。 File "/usr/local/lib/python3.7/dist-packages/
pyspark
/
浏览 3
提问于2022-11-23
得票数 0
1
回答
使用
map.reduce给火花-5063错误,但在Interactive
中
运行良好
python
、
apache-spark
、
pyspark
、
apache-spark-sql
我有一个只有一列
的
RDD
,我想用它做一个
字符
串。因此,我正在
使用
下面的代码来实现这一点,它在
中
工作得很好,但是在火花作业
中
失败。
RDD
from an action or transformation.投入完整
的
火花作业:from
pyspark
.sql import SQLContext from
pyspark</e
浏览 5
提问于2016-03-17
得票数 0
回答已采纳
2
回答
文本文件
中
的
Pyspark
对
RDD
apache-spark
、
pyspark
、
spark-dataframe
、
rdd
="zab"我试图
使用
pySpark
将其读给一对
RDD
,如下所示:sc=
RDD
?上述产出如下: [[u'A=foo', u'B=bar', u'C=baz'], [u'A
浏览 2
提问于2017-08-01
得票数 0
1
回答
行: TypeError:‘
PySpark
’对象不支持项分配
python
、
pyspark
、
apache-spark-sql
我
使用
以下代码将DataFrame行
中
的
None值
替换
为空
字符
串: row_len = len(row) if row[i] is None: return rowdata_out = df.
rdd
.map(lambda<
浏览 0
提问于2016-06-09
得票数 9
1
回答
如何
像scala .drop
中
那样删除
rdd
列
python
、
scala
、
csv
、
apache-spark
、
pyspark
文件videos.csv如下所示099acca-8888-48ca,Action,Comedy 在Scala
中
,Scala可以
使用
.drop(1)删除
RDD
列1,以便对所有行删除
rdd
列1,例如482cal-2792-48da和099acca-8888-48ca。我想知道
如何
在
PySpark
rdd
中
PySpark
中
这样做,如下所示,在第2行代码<e
浏览 2
提问于2016-12-29
得票数 3
1
回答
字符
串:+:'NoneType‘和’TypeError‘不支持
的
操作数类型“?
apache-spark
、
pyspark
我
使用
Pyspark
来编写这段代码: df.na.fill("").show()
rdd
2=df.
rdd
.map(lambda x:(x.firstName+""+x.lastName,x.street+","+x.town,x.city,x.code) #error linedf2=
rdd
2.toDF(["name,上面写着: PythonException:
浏览 16
提问于2021-09-28
得票数 0
回答已采纳
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
Rust中字符替换的11种姿势
算法题:替换字符串中的空格
如何使用SSE2指令集加速字符替换
使用 sed 命令查找和替换文件中的字符串的 16 个示例
JavaScript 中替换字符串的几种方法
热门
标签
更多标签
云服务器
即时通信 IM
ICP备案
对象存储
实时音视频
活动推荐
运营活动
广告
关闭
领券