开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

Spark 2.0不推荐使用'DirectParquetOutputCommitter'，没有它怎么生活？

Spark 2.0不推荐使用'DirectParquetOutputCommitter'，这是因为'DirectParquetOutputCommitter'在写入Parquet文件时存在一些性能和稳定性方面的问题。如果不使用它，我们仍然可以通过其他方式来生活。

一种替代方案是使用默认的'ParquetOutputCommitter'。'ParquetOutputCommitter'是Spark默认的Parquet文件输出提交器，它在写入Parquet文件时提供了更好的性能和稳定性。它使用了一种基于文件的提交方式，将数据写入临时文件夹，然后在任务完成后将临时文件夹移动到最终的输出位置。这种提交方式可以保证数据的一致性和可靠性。

除了使用默认的'ParquetOutputCommitter'，还可以考虑使用其他的文件输出提交器，如'HadoopMapReduceCommitProtocol'。这个提交器是基于Hadoop MapReduce的提交协议实现的，可以在写入Parquet文件时提供更好的性能和稳定性。

总结起来，如果不推荐使用'DirectParquetOutputCommitter'，我们可以选择使用默认的'ParquetOutputCommitter'或其他适合的文件输出提交器来保证数据的可靠性和性能。在使用Spark进行数据处理和分析时，可以根据具体需求选择合适的提交器。

相关搜索:如何在单击div class a href按钮时将焦点放在输入元素上从mule 4的属性文件中读取Mule变量 Python需要安装ipykernel 关于该数字重复了多少次的程序如何测试qbasic中是否存在目录？pandas比应用lambda在每一行应用逻辑更快吗？尽管使用[]指定了项，Xpath表达式仍会拉动多个项如何检查对象数组是否具有重复的属性值并获取重复的最后一个值？如果字典出现一次，则按值排序，否则按键排序上传图像并提取文件名，而不是文件路径

相关搜索:

页面内容是否对你有帮助？

有帮助

没帮助

相关·内容

关于最近读的书的一些瞎扯

在此准备瞎扯几句，顺便推荐下自己的最近读过的书，《scala函数式编程》：个人觉得是读过的scala最好的书，因为它叙述了scala的核心，把每个程序员都当成是程序员，而不是像java假设每一个程序员都是愚蠢的...写的最容易上手的是《spark快速大数据开发》，另外就目前的实践而言，spark的DAG和RDD模型应该更像google内部应该使用的数据处理框架，极大的利用了内存。也正是因为如此，更适合于迭代计算。...其他的，我觉得和mapreduce在2.0以后并没有太大的区别，当然，在机器学习火起来之后，计算框架更可能是是spark，而不是MR。...想想，在任何一个机器学习算法里，数据的迭代计算都是最核心的内容，MR那简单粗暴的key-value拆分合并（最让人吐槽的是，join是直接把数据源放到一起，一点都没有数学的优雅，更像是工程师的产物）怎么能处理...可能是我道行太浅吧，没有品出来有价值的东西。好了下面要开始推荐真正值得回味的书了。《计算机程序的构造与解释》：神书，读了之后才发现的。

3992 0

Spark机器学习库(MLlib)指南之简介及基础统计

1.Spark机器学习库(MLlib)指南 MLlib是Spark机器学习库，它的目标是使机器学习算法可扩展和易于使用。...1.1.声明:基于DataFrame的API为首选API 基于RDD的API目前处于维护模式. spark2.0开始，基于RDD的API已经进入的维护模式.目前spark首选的机器学习API为DataFrame...在Spark2.0以后的版本中，将继续向DataFrames的API添加新功能以缩小与RDD的API差异。当两种接口之间达到特征相同时（初步估计为Spark2.3），基于RDD的API将被废弃。...1.3.Spark2.2版本亮点下面着重介绍spark2.2版本中MLlib库的一些新功能和优化交替最小二乘法(ALS)应用于推荐用户或者项目的功能(SPARK-19535) ML和mllib的性能调优...1.4.1.从2.1版本到2.2版本不兼容性更改没有不兼容性更改不推荐内容没有不推荐内容更改内容： SPARK-19787: ALS.train方法的regParam默认值由1.0改为0.1

1.8K7 0

Spark MLlib特征处理之 StringIndexer、IndexToString使用说明以及源码剖析

最近在用Spark MLlib进行特征处理时，对于StringIndexer和IndexToString遇到了点问题，查阅官方文档也没有解决疑惑。...针对训练集中没有出现的字符串值，spark提供了几种处理的方法： error，直接抛出异常 skip，跳过该样本数据 keep，使用一个新的最大索引，来表示所有未出现的值下面是基于Spark MLlib...假如处理的过程很复杂，重新生成了一个DataFrame，此时想要把这个DataFrame基于IndexToString转回原来的字符串怎么办呢?..., c, b]，然后执行transform来进行转换： val indexed = indexer.transform(df) 这个transform可想而知就是用这个数组对每一行的该列进行转换，但是它其实还做了其他的事情.../IndexToStringTest.scala 最终还是推荐详细阅读官方文档，不过官方文档真心有些粗糙，想要了解其中的原理，还是得静下心来看看源码。

2.7K0 0

科普：大数据、人工智能、机器学习与深度学习都是什么？有什么关系？

导读：大数据、人工智能是目前大家谈论比较多的话题，它们的应用也越来越广泛、与我们的生活关系也越来越密切，影响也越来越深远，其中很多已进入寻常百姓家，如无人机、网约车、自动导航、智能家电、电商推荐、人机对话机器人等等...目前好像没有，即使在机器学习的专业人士，也好像没有一个被广泛认可的定义。...Spark与Hadoop兼容，它立足于内存计算，天然的适应于迭代式计算，Spark是一个大数据计算平台，在这个平台上，有我们大家熟悉的SQL式操作组件Spark SQL;功能强大、性能优良的机器学习库Spark...与Hadoop、Hive、HBase等无缝连接：Spark可以直接访问Hadoop、Hive、Hbase等的数据，同时也可使用Hadoop的资源管理器。...延伸阅读《深度卷积网络：原理与实践》转载请联系微信：togo-maruko 点击文末右下角“写留言”发表你的观点推荐语：本书以Spark2.0为技术基础，重点讲解了如何构建机器学习系统以及如何实现机器学习流程的标准化

3.6K1 0

基于Spark的机器学习经验

事实上，中间结果可以到几百亿，一个不小心就可以把Spark跑死，但是也在这个过程中慢慢对Spark有了更深的理解。最终效果还是不错的，现在它已经作为我们的基础词库了。...这个算法可没告诉你怎么处理的，你只能自己去想办法。看到了，真正你做算法的过程中，不只是实现，你需要面对的问题特别多，我是怎么做的呢？将所有html标签替换成空格。...凡是词里面包含‘或’的，或者’就’的或者上面罗列的，我都认为这个词是没有意义的，经过这个简单规则一过滤，效果好非常多，很多没什么意义的生活词，或者不成词的词就被去掉了。...spark的时候，序列化最好使用kyro，性能确实好太多，一个worker 会同时配置可以使用的内存和cpu，这个时候一定要搭配好。...可否分享代码不啊？ A：这里是无监督分词，所以不用中文分词，按维度叠加，才能保证都是相同长度的向量，而且中文分词这块，我推荐我一个同事的 ansj分词，还是做的不错的。

6775 0

(课程)基于Spark的机器学习经验

目前在乐视云数据部门里从事实时计算，数据平台、搜索和推荐等多个方向。曾从事基础框架，搜索研发四年，大数据平台架构、推荐三年多，个人时间现专注于集群自动化部署，服务管理，资源自动化调度等方向。...事实上，中间结果可以到几百亿，一个不小心就可以把Spark跑死，但是也在这个过程中慢慢对Spark有了更深的理解。最终效果还是不错的，现在它已经作为我们的基础词库了。...凡是词里面包含‘或’的，或者'就'的或者上面罗列的，我都认为这个词是没有意义的，经过这个简单规则一过滤，效果好非常多，很多没什么意义的生活词，或者不成词的词就被去掉了。...spark的时候，序列化最好使用kyro，性能确实好太多，一个worker 会同时配置可以使用的内存和cpu，这个时候一定要搭配好。...可否分享代码不啊？ A：这里是无监督分词，所以不用中文分词，按维度叠加，才能保证都是相同长度的向量，而且中文分词这块，我推荐我一个同事的 ansj分词，还是做的不错的。

5383 0

Spark 2.0 Structured Streaming 分析

Spark 2.0 之前作为Spark平台的流式实现，Spark Streaming 是有单独一套抽象和API的，大体如下 ?...当然，下面的代码你肯定要有上下文的，就这一句肯定跑不起来的。 ?...图片来源于http://litaotao.github.io/images/spark-2.0-7.png 第一个是标准的DataFrame的使用代码。...下面第二个则是流式计算的代码，看完这个demo你肯定会纳闷：没有定时器么，我怎么设置duration? 在哪里设置awaitTermination呢？...但是，这里有个但是，使用了聚合类函数才能用complete模式，只是简单的使用了map,filter等才能使用append模式。不知道大家明白了这里的含义么？

7213 0

在Apache Spark上跑Logistic Regression算法

不用担心你没有使用Scala的经验。练习中的每个代码段，我们都会详细解释一遍。...Spark还旨在更通用，因此它提供了以下库： Spark SQL，处理结构化数据的模块 MLlib，可扩展的机器学习库 GraphX，图和图的并行计算API Spark Streaming，可扩展的，可容错的流式计算程序...Spark内部会自动优化和运行计算任务。安装Apache Spark 为了开始使用Spark，需要先从官网下载。...如果是Windows用户，建议将Spark放进名字没有空格的文件夹中。比如说，将文件解压到：C:\spark。正如上面所说的，我们将会使用Scala编程语言。...Scala： scala> QUALITATIVE 破产分类现实生活中的问题是可以用机器学习算法来预测的。

1.5K3 0

在Apache Spark上跑Logistic Regression算法

不用担心你没有使用Scala的经验。练习中的每个代码段，我们都会详细解释一遍。...Spark还旨在更通用，因此它提供了以下库： Spark SQL，处理结构化数据的模块 MLlib，可扩展的机器学习库 GraphX，图和图的并行计算API Spark Streaming，可扩展的，可容错的流式计算程序...Spark内部会自动优化和运行计算任务。安装Apache Spark 为了开始使用Spark，需要先从官网下载。...如果是Windows用户，建议将Spark放进名字没有空格的文件夹中。比如说，将文件解压到：C:\spark。正如上面所说的，我们将会使用Scala编程语言。...Scala： scala> QUALITATIVE破产分类现实生活中的问题是可以用机器学习算法来预测的。

1.3K6 0

大数据如何学习,告诉你正确的学习姿势

现在是大数据的时代，也称作云数据，我们在网上的各种数据，最后把这些整理集合在一起，形成一个庞大的数据集合体，我们生活中大数据已经实时的应用了。那么，大数据如何学习？下面将会为大家介绍。...，开源、支持网络、基于内存、键值对存储数据库Redis等相关的知识； 2、Java 是目前使用最为广泛的编程语言，它具有的众多特性，特别适合作为大数据应用的开发语言。...虚拟机），并兼容现有的Java 程序，所以 Scala 可以和大数据相关的基于 JVM 的系统很好的集成；三、Hadoop技术模块； Hadoop是一款支持数据密集型分布式应用并以 Apache 2.0...它拥有高容错率的特点，设计是用来部署在低廉硬件上；这个平台目前已经成为了大数据的代名词，通过对Hadoop的学习就能够明白并使用大数据；四、Spark技术模块； Spark 和 Hadoop 都是大数据框架...Hadoop 提供了 Spark 所没有的功能特性，比如分布式文件系统，而 Spark 为需要它的那些数据集提供了实时内存处理。

5260 0

基于Spark的机器学习实践 (二) - 初识MLlib

不，MLlib包括基于RDD的API和基于DataFrame的API。基于RDD的API现在处于维护模式。...但是，API都不被弃用，也不是MLlib 依赖关系 MLlib使用线性代数包Breeze，它依赖于netlib-java进行优化的数值处理。...它已被新的OneHotEncoderEstimator所取代（参见SPARK-13030）。...RowMatrix是没有有意义的行索引的行向分布式矩阵，例如特征向量的集合。它由其行的RDD支持，其中每行是局部向量。...◆ 主要用到传统的数据挖掘算法,例如使用回归算法 4.2 大数据机器学习系统 ◆ 例如自然语言处理类的系统,推荐系统等 ◆ 推荐系统,需要实时进行数据的收集,统计,任务调度,定期更新训练模型 ◆ 核心实现

3.5K4 0

DataFrame和Dataset简介

它具有以下特点：能够将 SQL 查询与 Spark 程序无缝混合，允许您使用 SQL 或 DataFrame API 对结构化数据进行查询；支持多种开发语言；支持多达上百种的外部数据源，包括 Hive...在 Spark 2.0 后，为了方便开发者，Spark 将 DataFrame 和 Dataset 的 API 融合到一起，提供了结构化的 API(Structured API)，即用户可以通过一套标准的...而 Dataset 的 API 都是用 Lambda 函数和 JVM 类型对象表示的，所有不匹配的类型参数在编译时就会被发现。以上这些最终都被解释成关于类型安全图谱，对应开发中的语法和分析错误。...这也就是为什么在 Spark 2.0 之后，官方推荐把 DataFrame 看做是 DatSet[Row]，Row 是 Spark 中定义的一个 trait，其子类中封装了列字段的信息。...四、Spark SQL的运行原理 DataFrame、DataSet 和 Spark SQL 的实际执行流程都是相同的：进行 DataFrame/Dataset/SQL 编程；如果是有效的代码，即代码没有编译错误

2.1K1 0

基于Spark的机器学习实践 (二) - 初识MLlib

从Spark 2.0开始，spark.mllib包中基于RDD的API已进入维护模式。 Spark的主要机器学习API现在是spark.ml包中基于DataFrame的API 有什么影响？...不，MLlib包括基于RDD的API和基于DataFrame的API。基于RDD的API现在处于维护模式。...但是，API都不被弃用，也不是MLlib 依赖关系 MLlib使用线性代数包Breeze，它依赖于netlib-java进行优化的数值处理。...RowMatrix是没有有意义的行索引的行向分布式矩阵，例如特征向量的集合。它由其行的RDD支持，其中每行是局部向量。...◆ 典型数据集:波士顿房价数据集 ◆ 主要用到传统的数据挖掘算法,例如使用回归算法 4.2 大数据机器学习系统 ◆ 例如自然语言处理类的系统,推荐系统等 ◆ 推荐系统,需要实时进行数据的收集,统计

2.6K2 0

8 个最好的 Java RESTful 框架

就像JavaScript，每个人都认为他们知道一个好的框架的功能应该是怎么样的。连我的老祖母现在也使用一个我从来没有听说过而且可能永远不会使用的框架。...我花了好长时间去了解它。这个框架也依赖很多其它的库，有时候想得到所需的信息很麻烦。不怎么出名，社区小。...它使用Akka, 基于一个轻量级的无状态的架构。它应该应用于大规模地低CPU和内存消耗的应用。优点易于开发快，但是没有其它的一些框架快基于 Netty, 支持非阻塞的 I/O....号称 Maven 杀手, 但是从没有优秀到替换它。...(50% Spark用户使用 Spark 创建 REST APIs)。

1.9K5 0

Spark DataFrame写入HBase的常用方式

例如用户画像、单品画像、推荐系统等都可以用HBase作为存储媒介，供客户端使用。因此Spark如何向HBase中写数据就成为很重要的一个环节了。...基于HBase API批量写入第一种是最简单的使用方式了，就是基于RDD的分区，由于在spark中一个partition总是存储在一个excutor上，因此可以创建一个HBase连接，提交整个partition...下面就看看怎么实现dataframe直接写入hbase吧！ 2. Hortonworks的SHC写入由于这个插件是hortonworks提供的，maven的中央仓库并没有直接可下载的版本。...HBase 2.x+即将发布的hbase-spark 如果有浏览官网习惯的同学，一定会发现，HBase官网的版本已经到了3.0.0-SNAPSHOT，并且早就在2.0版本就增加了一个hbase-spark...真心等不起了... 期待hbase-spark官方能快点提供正式版吧。

4.2K5 1

大数据技术学习带来的思考

日常应用把通过各种渠道得到的数据，如关系数据库、日志、埋点、爬虫数据都存储到HDFS，供后续使用。 HBase NoSQL英杰，可划分到存储类别，它的底层存储也用到HDFS。...“我只愿蓬勃生活在此时此刻，无所谓去哪，无所谓见谁。那些我将要去的地方，都是我从未谋面的故乡。以前是以前，现在是现在。我不能选择怎么生，怎么死；但我能决定怎么爱，怎么活。”...很多人还是”面向工具“学习，对层出不穷的”工具“，感到困惑。但归根结底，这些工具本身还是计算机科学中很多基础概念的具象化，因此，”面向思想“学习应该是更好的一种做法。...工作中，一个新的方案出现时，如果它在某个或某些方面优于当前最好方案，我- -定会去思考它的catch(另一面)是什么?比如新方案更快，我就大概会看看它的空间使用率、可维护度、全面度。...生活里也是如此，对表面.上只有好处而无需付出或者代价很低的东西永远保持警惕。说白了,世上没有免费的午餐，都是权衡利弊的结果。

2822 0

更智能化的CDN技术，CDN迈向3.0时代

我们的生活无时不刻不依赖着网络，伴随着终日对网速慢的抱怨和诅咒，同时也享受着网络技术发展带来的红利。怀着对技术细节刨根问底的执着，我们会发现原来身边还存在着像CDN这样生活在舞台背后的内容分发技术。...CDN PoP 2.0的架构离我们的生活更近了一些，也是我们目前使用最广泛的CDN技术。...他将比2.0架构应对更庞大的边缘传输，每个PoP节点都将成为Hadoop生态中的一环，包括HDFS、Apache Spark、Apache Flink、Kafka、Redis以及许多由Facebook、...今天，机器学习这个词或许只是营销部门使用的一个流行语。...今天，机器学习这个词或许只是营销部门炒作的词汇，但在未来的某一天，它必将改变CDN产业。

1.3K9 0

教主黄仁勋烤出540亿晶体管GPU，全球最大7nm安培架构坐稳算力霸主

它基于NVIDIA全新的Ampere架构，在性能上实现了史上最大飞跃，尤其适用于深度学习和某些特定的 HPC 任务。...在科学仿真、会话AI、推荐系统、基因组学、高性能数据分析、地震建模和财务预测等应用场景都有用武之地。光说不练不过瘾，黄仁勋还亲自示范了推荐系统和会话AI。...DLSS2.0是一个改进版的深度学习神经网络，基于GeForce RTX GPU的Tensor Cores，实现了实时光影追踪，它可以使用AI将低分辨率图像放大到优于原生1080p的画质。...使用DLSS2.0深度学习超分辨率从720p渲染到1080p比原生的1080p画面还要更加优质这是一个意义重大的飞跃！将RTX融入到著名游戏Minecraft 游戏当中，灯光效果相当惊人。...有没有RTX，前后效果相差巨大。总结说来，这次厨房发布会还是干货满满，不再像19年的那次「三无」发布会。

9251 0

【Spark Mllib】性能评估 ——MSERMSE与MAPKMAP

推荐模型评估本篇我们对《Spark机器学习1.0:推荐引擎——电影推荐》模型进行性能评估。...join(predictions) ratingsAndPredictions.first() //res21: ((Int, Int), (Double, Double)) = ((291,800),(2.0,2.052364223387371...)) 使用MLLib的评估函数，我们要传入一个（actual，predicted）的RDD。...K=10，即推荐10个物品。...在MLlib里面，使用的是全局平均准确率（MAP，不设定K）。它需要我们传入（predicted.Array，actual.Array）的RDD。

1.2K3 0

机器学习从抬脚到趴倒在门槛No.34

大数据下还是Spark更实用。在大数据的环境下，其实落地最实用，场景最多的，还是Spark。 ---- 该怎么去下手？脚抬起了3cm。目标：开眼界。首先从比较宏观的角度，全面了解机器学习的全貌。...第二本是当前机器学习能做些什么事情，以及python怎么实现这些机器学习算法，代码狂人可以在这里面找到一些成就感，推荐先快速翻一遍，再回头，重新一章一章看，一行代码一行代码打，有时候不知道它啥意思也不要紧...教程和书再好都没有用，还是需要你花时间，慢慢慢慢地，去一点点理解透每个算法背后的原理，以及各种各样的优化方法是怎么发生的。举例线性回归可以这样进阶地去学习：纯线性回归。...生活又不止机器学习。生活确实不止远方和诗，悲催的是到了远方，却发现读不懂远方的诗。...好啦，分享就差不多到这里，不黑不吹，上面这些过程至少至少需要你业余时间没日没夜搞个半年，大家做好身体锻炼，一起玩命学呗。

6419 0

点击加载更多

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

扫码加入开发者社群

相关资讯

热门标签

活动推荐

运营活动

活动名称

广告关闭