腾讯云

开发者社区

文档建议反馈控制台

首页

文章/答案/技术大牛

发布

社区首页 >问答首页 >将saveAsTextFile()写入多个文件，而不是一个

问将saveAsTextFile()写入多个文件，而不是一个
EN

Stack Overflow用户

提问于 2016-02-16 16:09:07

回答 1查看 18.1K关注 0票数 5

我现在正在笔记本电脑上使用Spark和Scala。

当我将RDD写入文件时，输出将被写入两个文件"part-00000“和"part-00001”。如何强制Spark / Scala向写入一个文件

我的代码是：

myRDD.map(x => x._1 + "," + x._2).saveAsTextFile("/path/to/output")

我在哪里写移除括号键，值对。

scala

apache-spark

媒体处理1元起

智能、强大、全面的多媒体数据处理服务，助您提升媒体质量、降低成本，媒体处理套餐低至1元

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-02-16 16:17:20

“问题”确实是一个特性，它是由RDD的分区方式产生的，因此它在n部件中分离，其中n是分区的数量。要解决这个问题，只需在您的再分割上使用RDD将分区的数量更改为一个。这些文件指出：

重分区(NumPartitions) 返回一个具有完全numPartitions分区的新RDD。可以增加或减少此RDD中的并行级别。在内部，这会使用洗牌来重新分发数据。如果您正在减少此RDD中的分区数量，请考虑使用合并，这样可以避免执行洗牌。

例如，这个更改应该有效。

myRDD.map(x => x._1 + "," + x._2).repartition(1).saveAsTextFile("/path/to/output")

正如文档所述，您也可以使用聚结，这实际上是在减少分区数量时推荐的选项。但是，将分区数量减少到一个分区被认为是个坏主意，因为它会导致数据被洗牌到一个节点，并失去并行性。

票数 14

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35445486

复制

Spring中的AOP——在Advice方法中获取目标方法的参数

aop spring access

访问目标方法最简单的做法是定义增强处理方法时，将第一个参数定义为JoinPoint类型，当该增强处理方法被调用时，该JoinPoint参数就代表了织入增强处理的连接点。JoinPoint里包含了如下几个常用的方法：

林老师带你学编程

2019/05/25

6.2K0

Kotlin在协程中使用Select表达式选择最快结果

腾讯云测试服务编程算法数据结构

Kotlin在1.6时增加了Select的表达式，可以同时等待多个挂起函数，并选择第一个可用的。其实就是说在并行的运算中，直接返回最快的结果。

Vaccae

2022/12/29

6480

Java中判断平年闰年最快方法

java

使用isLeap ,如果为true,那么是闰年,否则为平年 . isLeap需要Year来使用 import java.time.Year; public class Test { public static void main(String[] args) { Year year = Year.of(2000); System.out.println(year.isLeap()); } }

CaesarChang张旭

2021/03/07

1K0

最快速获取全国及全球省市区信息的方法。

xml json

最近需要做一个省市区选择的功能，突然想起之前在哪里看见过qq这个工具免费给我提供了文件的。可是想不起来在哪里，在网上找了下相关文章，似乎没有合适的，然后凭着记忆力去qq的安装路径下找了下，终于找到了。

易兒善

2018/08/21

1.2K0

在机器学习中处理大量数据！

编程算法 spark python apache

知乎｜ https://zhuanlan.zhihu.com/p/357361005

Datawhale

2021/03/26

2.3K0

getBoundingClientRect方法获取元素在页面中的相对位置

node.js http

获取元素位置可以用 offset 或 getBoundingClientRect，使用 offset 因为兼容性不好，比较麻烦，offset获取位置会形成“回溯”。而 getBoundingClientRect 方法则兼容性较好，基本所有的浏览器都支持了，且使用起来更容易和简单。

用户6167509

2019/09/04

3.9K0

分布式 kotlin java spring 大数据

and it is producing the correct results however they are not in the correct order.

一个会写诗的程序员

2020/05/18

2.6K0

BeautifulSoup解析库select方法实例——获取企业信息

其他

本文内容由浙江浦江中学方春林老师提供。 Requests 是用Python语言编写，基于urllib，采用Apache2 Licensed 开源协议的 HTTP 库。它比 urllib 更加方便，可以

Python小屋屋主

2018/04/16

8670

最快的 Hexo 博客搭建方法

hexo 腾讯云ide markdown 编程算法

使用 Cloud Studio ，就不需要再折腾 Hexo 环境，不需要再解决不同平台上的各种冲突，直接在 Cloud Studio 里面即可进行 Hexo 的写作和部署。

腾讯云 CODING

2019/09/16

1.2K0

记录GOPATH在GOLAND中的坑

ide go

这里的GOPATH已经出错了，所以编译找不到，我检查了go env也是正确的GOPATH....

超蛋lhy

2018/08/31

1.8K0

[cloc]在Windows中配置cloc的记录

html php windows

https://github.com/AlDanial/cloc/releases

逝水经年

2022/03/14

2.9K0

js：如何获取select选中的值

php http https 网络安全

<select id=”select”> <option value=”A” url=”http://www.baidu.com”>第一个option</option> <option value=”B” url=”http://www.qq.com”>第二个option</option> </select> 一：JavaScript原生的方法

全栈程序员站长

2022/11/04

26.8K0

最快的 Hexo 博客搭建方法

hexo 腾讯云ide https markdown java

使用 Cloud Studio ，就不需要再折腾 Hexo 环境，不需要再解决不同平台上的各种冲突，直接在 Cloud Studio 里面即可进行 Hexo 的写作和部署。

全栈程序员站长

2022/06/29

7880

vue中同时获取select下拉框的值和文本

vue.js

在下是首席架构师

2023/07/04

1.9K0

antd的select 的key 和value获取

key label png select 对象

*默认情况下 onChange 里只能拿到 value，如果需要拿到选中的节点文本 label，可以使用 labelInValue 属性。选中项的 label 会被包装到 value 中传递给 onChange 等函数，此时 value 是一个对象

用户4344670

2020/02/13

10.3K0

Hive中SELECT TOP N的方法(order by与sort by)

mapreduce sql hive hadoop

week

2019/03/14

3.9K0

OrientDB显示记录SELECT命令的基本语法

default limit timeout

在检索记录时，我们有不同的查询变体或选项以及select语句，以下语句是SELECT命令的基本语法。

用户4988376

2021/08/13

1.2K0

laravel-admin select、multipleSelect从api中获取选项列表

api select

select、multipleSelect从api中获取选项列表 $form->select($column[, $label])->options([1 => 'foo', 2 => 'bar', 'val' => 'Option name']); 或者从api中获取选项列表： $form->select($column[, $label])->options('/api/users'); 其中api接口的格式必须为下面格式： [ { "id": 9, "tex

友儿

2022/09/11

3.8K0

vue中获取外网IP的方法

tcp/ip vue.js

之前有篇文章js获取客户端真实IP记录了如何获取外网IP 那个只是在普通html页面当中的获取方法，在vue项目中就不能这么使用了。

薛定喵君

2020/08/12

6.3K2

点击加载更多

相似问题

在SQL中向表中插入大量记录的最快方法

在mysql中获取记录数的最快方法

使用MySQL在JDBC中运行大量SELECT查询的最快方法是什么？

137

这是在MySQL中获取记录的最快方法吗

使用ActiveRecords和Rails获取大量记录的最快方法(find_each很慢)

活动推荐

体验智能媒资降冷，云点播优惠不要错过！

添加站长进交流群

领取专属 10元无门槛券

AI混元助手 在线答疑

关注 腾讯云开发者公众号

洞察 腾讯核心技术

剖析业界实践案例