腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
精选内容/技术社群/优惠产品,
尽在小程序
立即前往
文章
问答
(323)
视频
沙龙
3
回答
从
可变
长度
CSV
到
配对
RDD
的
Spark
变换
、
、
我是scala
spark
的
新手,我有一个
CSV
文件,如下所示。90R003, L, 30, M, 54, N, 67, O, 25, P, 85, Q, 100R002, GR002, JR003, MR003, OR003, Q 我试过了,它看起来没问题,但我想还有更好
浏览 10
提问于2018-03-01
得票数 3
回答已采纳
2
回答
在RDDs中操作向量和列表
、
、
、
我是
Spark
和Scala新手,在以下
RDD
转换方面我确实需要一些帮助:简而言之,我已经有一个按键(macAddress)分组
的
rdd
,其中包含成对
的
值列表。我需要将列表
的
向量转换为包含
从
列表中计算出来<em
浏览 3
提问于2016-11-08
得票数 0
回答已采纳
2
回答
火花org.apache.hadoop.mapred.InvalidInputException S3
CSV
读取返回
、
、
我
的
问题是,虽然我可以
从
spark
读取
CSV
文件,但是
从
编译
的
JAR中运行它会不断地返回一个org.apache.hadoop.mapred.InvalidInputException错误。罐子
的
粗糙过程:
从
浏览 4
提问于2017-02-03
得票数 0
2
回答
在
Spark
中对
可变
集合建模
、
我们现有的应用程序在启动时将大约一千万行
从
数据库加载到对象集合中。该集合存储在GigaSpaces缓存中。我们正在研究使用
Spark
和Scala重新设计应用程序
的
可行性和附加值。问题是,在
Spark
中建模
的
正确方式是什么。 我
的
第一个想法是
从
数据库加载到
浏览 2
提问于2016-01-25
得票数 2
3
回答
如何用模式推理将
RDD
[String]写到拼图文件中?
、
、
、
我
的
Spark
Streaming作业需要处理
RDD
[String],其中字符串对应于
csv
文件
的
一行。我事先不知道模式,所以需要从
RDD
推断模式,然后将其内容写入parquet文件。如果我
从
磁盘中读取一个
csv
文件,我只需使用模式推断将所有内容加载到DataFrame中,并立即将其写入parquet。不过,在我
的
场景中,我
的
起点是一个
RDD
[String],它是流
的
结果。
浏览 5
提问于2017-06-14
得票数 2
4
回答
RDD
和Pair
RDD
的
区别和用例
我刚开始接触
spark
,并试图理解普通
RDD
和
配对
RDD
之间
的
区别。使用成对
RDD
而不是普通
RDD
的
用例有哪些?如果可能,我想通过一个例子来了解pair
RDD
的
内部结构。谢谢
浏览 1
提问于2016-05-06
得票数 15
9
回答
把
CSV
带到
Spark
dataframe
、
我在
Spark
上使用python,并希望将
csv
转换为dataframe。
Spark
的
奇怪地没有提供
CSV
作为源
的
解释。:
spark
-
csv
_2.10:1.0.3",我真的需要增加这个论点,每次我启动火花放电或火花提交?df = sqlContext.load(source="com.databricks.
spark
.
csv
", header="true", pat
浏览 6
提问于2015-04-29
得票数 20
回答已采纳
2
回答
如何将
RDD
保存到HDFS中并在以后将其读回?
、
、
、
、
我有一个
RDD
,它
的
元素类型是(Long,String)。出于某些原因,我想将整个
RDD
保存到HDFS中,然后在
Spark
程序中读回该
RDD
。这样做有可能吗?如果是这样,又是如何做到
的
呢?
浏览 0
提问于2016-10-16
得票数 15
回答已采纳
5
回答
如何将时间戳作为额外列添加到dataframe中?
、
、
、
*大家好,val topicMaps = Map("topic" -> 1)
浏览 9
提问于2017-01-09
得票数 10
10
回答
什么是
spark
中
的
RDD
、
、
、
定义是:用户以两种方式创建RDDs :通过加载外部数据集,或者通过在其驱动程序中分发对象集合(例如,列表或集合 我对
RDD
的
理解以及与
spark
和hadoop
的
关系真的很困惑。
浏览 91
提问于2015-12-23
得票数 46
回答已采纳
2
回答
在
Spark
中创建二进制直方图
、
、
、
、
假设我有一个包含以下两列
的
dataframe (df) (Pandas)或
RDD
(
Spark
):12345.0 10 在Pandas中,我可以很容易地创建不同bin
长度
的
二进制直方图。例如,要创建一个超过1小时
的
直方图,我执行以下操作:df.r
浏览 1
提问于2015-12-29
得票数 1
3
回答
创建数据架构
的
有效方法是什么?
我是个新手,我发现有两种方法可以创建数据框架
的
模式。我有一个
RDD
: empRDD和数据(除以",")| 1| Mark| 1000| HR|val empData = empFile.map(e => e.split(",")) 创建模式
的
第一种方法是使用
浏览 9
提问于2017-06-22
得票数 0
回答已采纳
4
回答
什么是黑暗?.它与mapPartitions有何不同?
、
我在
RDD
上遇到了glom()方法。根据文件 我还想知道是否有任何
从
glom中受益
的
用例。
浏览 4
提问于2016-03-02
得票数 15
回答已采纳
2
回答
如何将多个带有双重
的
CSV
文件合并到一个具有文件名
的
RDD
中?
、
、
我有3组
CSV
文件,它们基本上是一个双值列表(每行有一个双值),每个月分割:B: bJan.
csv
, bFeb.
csv
, bMarch.
csv
C: cJan.
csv
, cFeb.
csv
, cMarch.
csv
我想计算A,B,
浏览 3
提问于2017-07-20
得票数 1
1
回答
星火本地模式-所有作业只使用一个CPU核心
、
、
、
我们在单个AWS EC2实例上以本地模式运行
Spark
,使用然而,使用New工具和一个简单
的
“top”进行分析表明,我们16台核心机器中只有一个CPU核心用于我们编写
的
三个不同
的
谢谢1)使用sqlContext
从
磁盘(S3)读取gzipped
CSV
文件1,并使用com.databricks.
spark
.
csv
(S3)读取DataFrame DF1。2)使用sqlContext
从</e
浏览 2
提问于2016-10-31
得票数 6
回答已采纳
13
回答
如何跳过星火中
CSV
文件
的
标题?
、
、
假设我为一个
Spark
上下文提供了三个要读取
的
文件路径,并且每个文件在第一行中都有一个模式。我们如何
从
标头跳过模式行?val
rdd
=sc.textFile("file1,file2,file3") 现在,我们如何从这个
rdd
跳过头行?
浏览 8
提问于2015-01-09
得票数 74
回答已采纳
2
回答
spark
中基于模式匹配
的
文件加载
、
、
我有31个输入文件,命名为
从
date=2018-01-01
到
date=2018-01-31。我能够以这种方式将所有这些文件加载到
rdd
中:但是如果我只想加载一个星期
的
文件呢?(
从
日期=2018-01-15
到
日期=2018-01-22)。
浏览 9
提问于2018-03-02
得票数 2
回答已采纳
4
回答
如何在
CSV
中使用双管道作为分隔符?
、
Spark
1.5和Scala 2.10.6 我有一个使用“π”作为分隔符
的
数据文件。我很难通过解析来创建一个数据帧。是否可以使用多个分隔符来创建数据框?代码可以处理单个断开
的
管道,但不能处理多个分隔符。我
的
代码: val customSchema_1 = StructType(Array( StructFieldStructField("CODE", StringType, true)));
浏览 93
提问于2016-12-22
得票数 7
回答已采纳
1
回答
rdd
.cache是如何工作
的
?
在下面的代码中,我创建了一个
rdd
,对其进行了缓存,并从中创建子
rdd
。vertexRDD -> newVert1 -> newVert2 -> newVert3 -> newVert4 -> newVert5.我在每个
RDD
中执行一个简单
的
增量操作。未启用缓存时,newVert1、newVert2、newVert3
RDD
的
阵列值为 0:ArrayBuffer(1, 0, 0, 0) 0:ArrayBuffer(2, 0, 0, 0) 0:ArrayB
浏览 2
提问于2017-09-19
得票数 0
1
回答
如何在
Spark
中使用Scala解析多段固定位置文件
、
、
我是stackoverflow
的
新手(老读者,但我现在想参与)。我也是Scala、
Spark
和函数式编程
的
新手。期待着在各方面做出贡献和学习。我
的
问题是: 我正在使用
可变
记录
长度
(文件中
的
多个部分)和固定位置字段(也称为固定宽度-其中格式由列宽度指定)。例如,myfile.txt布局(
从
1开始)是: 1-5 =第1列,5-6 =第2列,6-20 =第3列,20-28 =第4列;而子头-a2至子脚注-z2具有完全不同
的
布局1-3 =第1
浏览 3
提问于2015-08-06
得票数 2
点击加载更多
扫码
添加站长 进交流群
领取专属
10元无门槛券
手把手带您无忧上云
相关
资讯
大数据之谜Spark基础篇,Spark RDD内幕详解
遇见YI算法之初识Pyspark(二)
大数据之spark基础知识
Spark地基之RDD
PySpark,大数据处理的Python加速器!
热门
标签
更多标签
云服务器
ICP备案
对象存储
腾讯会议
云直播
活动推荐
运营活动
广告
关闭
领券