腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(9999+)
视频
沙龙
2
回答
在
SPARK
中
操作
RDD
,
通过
行
分隔符
将
行
合
并到
块
中
、
我在下面的文件中有一份
RDD
数据的副本,我想根据
行
分隔符
合并行,这样我就可以得到RDDPerson。nurseid : 3job : policeman -------------- 请注意,数据文件很大,无法放入内存,因此您不能执行以下
操作
浏览 13
提问于2019-09-23
得票数 1
3
回答
关于Apache火花内部部件的问题- RDDs
我有几个关于星火内部的问题,特别是
RDD
。基于文档
中
的内容,RDDs的谱线图是DAG结构。 任何提及代码或说明
浏览 6
提问于2016-02-03
得票数 0
2
回答
如何
将
rdd
/数据帧/数据集转换为字符串
、
、
、
如何在
spark
scala
中
不使用collect
将
rdd
/数据帧/数据集转换为字符串/列表
浏览 0
提问于2019-09-24
得票数 0
1
回答
如何从pysark文件
中
匹配/提取多行模式
、
、
/cebcf9> <quantityAmount> "24954")和单位(<value/cebcf9> <quantityUnit> <Meter>) 通常的方法是逐行读取文件并提取上述模式
中
的每一个(使用sc.textFile('inFile').flatMap(lambda : extractFunc(x)),然后
通过
不同的连接将它们组合起来,从而提供上表。
浏览 0
提问于2019-08-14
得票数 3
回答已采纳
1
回答
如果实际数据嵌入了相同的
分隔符
,如何使用
Spark
读取分隔文件
、
、
、
我正在尝试
将
文本文件读取到
rdd
中
。"1" "Hai How are you!""56"带有Tab
分隔符
的3列。我的数据也被嵌入相同的
分隔符
(你好\tHow!)。有人能帮我在这里正确的解析数据吗?my_
Rdd
=
Spark
.SparkContext.textFile(&qu
浏览 1
提问于2020-12-10
得票数 0
回答已采纳
2
回答
如何插入或更新已从外部数据库加载的
spark
rdd
、
我
在
mongodb中有100000条记录。我已经
在
RDD
中加载了其中的一部分,一段时间后,当我获得一个与
RDD
中
已经加载的数据相匹配的新记录时。我需要将新记录直接添加到
RDD
,而不是外部数据库。
浏览 0
提问于2016-05-26
得票数 1
1
回答
Spark
cache是否会以任何时间间隔自动更新新的数据值?
、
、
我想知道cassandra
中
的数据每次更新时,缓存是否会自动更新?
浏览 0
提问于2015-08-21
得票数 3
1
回答
带验证的
Spark
read csv
、
、
我正在使用
spark
的读取功能读取csv文件sparkSession.read.option("delimiter",",").schema(schema).csv("test.csv").as[Customclass] 问题是,当某一
行
在
末尾被剪切时,或者当某些字段
在
开始时丢失时,
s
浏览 14
提问于2018-02-06
得票数 0
回答已采纳
1
回答
为什么星火不在读取时根据Parquet
块
大小创建分区?(相反,它似乎按照Parquet文件的压缩大小进行分区)
、
、
、
在下面的场景
中
,我使用
Spark
读取了一个Parquet文件:文件
中
的
块
数(
行
组):3blockSize: 195 MB, rowCount: 1395661以下是代码:println(df.
rdd
.getNumPartitions) // result is 1 parquet.block.size= 1
浏览 3
提问于2020-05-17
得票数 2
2
回答
使用自定义行/
行
分隔符
/
分隔符
将
DataFrame写入csv文件
、
、
似乎没有用于更改csv输出类型的
行
分隔符
的选项。例如: df.coalesce(1).write\.mode("overwrite")\ .option("header",
浏览 25
提问于2019-08-30
得票数 1
回答已采纳
1
回答
Spark
使用slidingRDD读取多行记录
、
、
我试图用
spark
处理一个文件,但我的输入文件只有一条信息“记录”,分布
在
3
行
上。除了知道第四
行
是新记录的开始之外,没有记录
分隔符
。我看到的所有其他与多行记录相关的问题似乎都有某种明显的记录
分隔符
,而在本例
中
我没有
分隔符
,我必须依赖于
行
计数。我的第一个想法是使用org.apache.
spark
.mllib.
rdd
.RDDFunctions
中
的sliding函数 sc.textFil
浏览 1
提问于2017-02-15
得票数 1
1
回答
我的本地火星雨少了什么?
、
我刚刚开始学习pyspark,这里似乎是一个展示器:我试图
将
一个本地文本文件加载到
spark
中
: base_df = sqlContext.read.text("/root/Downloads/SogouQ1broadcast_3存储为内存
中
的值(估计大小为212.1 KB,空闲309.7 KB) 16/12/29 11:55:36 INFO storage.MemoryStore:内存
中
存储为字节的
块
broadcast:-2回
浏览 5
提问于2016-12-29
得票数 1
2
回答
如何优化下面的星火代码(scala)?
、
、
、
、
1列对其排序 ( a)获取列子集的所有不同的记录 ( a)获取列子集的所有不同的记录)将其写入测试文件 inputTest.
rdd
.coalesce(1,false).saveAsTextFile("test.csv")/bin/
sp
浏览 1
提问于2016-11-29
得票数 1
回答已采纳
1
回答
使用
Spark
分区
、
我是
Spark
的新手,有一些关于
Spark
RDD
操作
和创建的问题:另外,为什么它比普通的map()函数快呢?既然分区
中
的每个元素都再次使用map(x => x + " -&
浏览 0
提问于2016-10-30
得票数 2
1
回答
如何分割一个巨大的
rdd
并轮流播放?
描述我们想加入两个巨大的
RDD
,其中一个带有倾斜数据。因此,火花
rdd
操作
连接可能导致内存问题。我们试着把一小
块
分割成几块,然后分批播放。
在
每次广播转弯时,我们尝试
将
较小的
rdd
的一部分收集到驱动程序,然后保存到HashMap,然后广播HashMap。每个执行者使用广播值对较大的
rdd
执行映射
操作
。我们
通过
这种方式实现我们的倾斜数据连接。 但是当它在每个回合
中
处理广播值
浏览 0
提问于2016-01-07
得票数 2
回答已采纳
2
回答
lambda
rdd
.map提供: TypeError:-的不受支持的
操作
数类型(S):“
行
”和“浮点”
、
、
、
rdd
.map提供: TypeError:-的不受支持的
操作
数类型:“
行
”和“浮点”temprdd = df.select('results').
rdd
然后,我想对它
中
的所有对象进行计算(基本上
在
我的“结果”一栏
中
,我现在认为这是它自己的
rdd
):但我得到了:
浏览 0
提问于2017-02-27
得票数 1
回答已采纳
1
回答
如何
将
<class‘class’_. How .
、
、
、
、
pyspark
中
,当它运行model = kmeans.fit(vdf)时,我得到了以下错误:
在
org.apache.
spark
.api.python.PythonRunner/lib/pyspark.zip/pyspark/worker.py",第106
行
中
,
在
process serializer.dump_stream(split_index迭代器)
中
,
浏览 2
提问于2017-03-02
得票数 5
回答已采纳
1
回答
测量时间火花
操作
(装载、处理、写入)
、
我
在
PySpark
中
编写了一些代码,
将
一些数据从MongoDB加载到,应用一些过滤器,处理数据(使用
RDD
),然后
将
结果写回MongoDB。# 1) Load the data
rdd
_to_process = df_fi
浏览 6
提问于2017-09-21
得票数 0
回答已采纳
1
回答
文本数据源只支持一列,并且有8列。
、
这是当我试图
将
数据帧保存到文本时遇到的错误: org.apache.
spark
.sql.AnalysisException: Text data source supports only a single
浏览 0
提问于2018-08-03
得票数 3
回答已采纳
1
回答
MapOutputTracker serializeMapStatuses内存
中
的火花输出错误
、
我有一个火花作业,
在
第0阶段有几十万个任务(300000个或更多的任务),然后
在
洗牌过程
中
,以下异常抛到驱动端:java.io.ObjectOutputStream.close(ObjectOutputStream.java:740) at org.apache.
spark
.MapOutputTracker$$anonfun$serializeMapStatuses$
浏览 3
提问于2017-09-30
得票数 0
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据之谜Spark基础篇,Spark RDD内幕详解
深入浅出Spark(二):血统(DAG)
Spark Streaming如何读Kafka数据 Hbase如何设计表
遇见YI算法之初识Pyspark(二)
万字长文,Spark 架构原理和RDD算子详解一网打进!
热门
标签
更多标签
云服务器
ICP备案
云直播
对象存储
腾讯会议
活动推荐
运营活动
广告
关闭
领券