Apache Spark:将列作为Transformer参数传递_将列表作为参数传递给spark sql语句_将分隔符作为参数传递给Spark - 腾讯云开发者社区

传统的机器学习算法，由于技术和单机存储的限制，比如使用scikit-learn,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。但实际过程中样本往往很难做好随机，导致学习的模型不是很准确，在测试数据上的效果也可能不太好。随着 HDFS(Hadoop Distributed File System) 等分布式文件系统出现，存储海量数据已经成为可能。在全量数据上进行机器学习也成为了可能，这顺便也解决了统计随机性的问题。然而，由于 MapReduce 自身的限制，使得使用 MapReduce 来实现分布式机器学习算法非常耗时和消耗磁盘IO。因为通常情况下机器学习算法参数学习的过程都是迭代计算的，即本次计算的结果要作为下一次迭代的输入，这个过程中，如果使用 MapReduce，我们只能把中间结果存储磁盘，然后在下一次计算的时候从新读取，这对于迭代频发的算法显然是致命的性能瓶颈。引用官网一句话：Apache Spark™ is a unified analytics engine for large-scale data processing.Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务.

您找到你想要的搜索结果了吗？

是的

没有找到

Pyspark学习笔记（二）--- spark部署及spark-submit命令简介

0514-Hive On Spark无法创建Spark Client问题分析

在集群中进行Hive-On-Spark查询失败，并在HiveServer2日志中显示如下错误：

springboot开发spark-submit的java代码

习惯使用spark-submit提交python写的pyspark脚本，突然想开发基于springboot开发java spark代码。在实际开发工程中，由于对springboot不熟，遇到了很多问题，好在最终都解决了。以下记录了一些问题及其解决方法。

Idea+maven+scala构建包并在spark on yarn 运行

在pom.xml配置文件中配置spark开发所需要的包,根据你Spark版本找对应的包,Maven中央仓库

scala-sparkML学习笔记：serializable custom transformer with spark-scala

从反射链的构造看Java反序列漏洞

概况今天我想从构造反射链的从无到有到被利用来谈谈java的反序列化漏洞，从反射的最开始到执行payload，一个从无到有的过程，首先我们介绍一下Transformer类。 Transformer**

基于Apache Spark机器学习的客户流失预测

流失预测是个重要的业务，通过预测哪些客户可能取消对服务的订阅来最大限度地减少客户流失。虽然最初在电信行业使用，但它已经成为银行，互联网服务提供商，保险公司和其他垂直行业的通用业务。

基于zookeeper leader选举方式一

一，基本介绍 Curator Framework是一个针对zookeeper做的搞层次的API，极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能，处理复杂的链接管理，重试操作。下面是它的一些特点： 1，自动连接管理。 A),存在的潜在错误情况,需要ZooKeeper客户端创建连接和/或重试操作。Curator 自动和透明（主要）处理这些情况。 B),监视NodeDataChanged事件，并根据需要调用updateServerList（）。 C),Watches 会被Curato

深入理解XGBoost：分布式实现

本文将重点介绍XGBoost基于Spark平台Scala版本的实现，带领大家逐步完成特征提取、变换和选择、XGBoost模型训练、Pipelines、模型选择。

如何在Java应用中提交Spark任务？

最近看到有几个Github友关注了Streaming的监控工程——Teddy，所以思来想去还是优化下代码，不能让别人看笑话啊。于是就想改一下之前觉得最丑陋的一个地方——任务提交。本博客内容基于Spark2.2版本~在阅读文章并想实际操作前，请确保你有：一台配置好Spark和yarn的服务器支持正常spark-submit --master yarn xxxx的任务提交老版本老版本任务提交是基于 ** 启动本地进程，执行脚本spark-submit xxx ** 的方式做的。其中一个关键的问题就是

oozie action参数传递

File file = new File(System.getProperty("oozie.action.output.properties"));

Apache Spark 1.5新特性介绍

Apache Spark社区刚刚发布了1.5版本，大家一定想知道这个版本的主要变化，这篇文章告诉你答案。 DataFrame执行后端优化（Tungsten第一阶段） DataFrame可以说是整个Spark项目最核心的部分，在1.5这个开发周期内最大的变化就是Tungsten项目的第一阶段已经完成。主要的变化是由Spark自己来管理内存而不是使用JVM，这样可以避免JVM GC带来的性能损失。内存中的Java对象被存储成Spark自己的二进制格式，计算直接发生在二进制格式上，省去了序列化和反序列化时间。同时

pyspark 内容介绍（一）

pyspark 包介绍子包 pyspark.sql module pyspark.streaming module pyspark.ml package pyspark.mllib package 内容 PySpark是针对Spark的Python API。根据网上提供的资料，现在汇总一下这些类的基本用法，并举例说明如何具体使用。也是总结一下经常用到的这些公有类的使用方式。方便初学者查询及使用。 Public 类们: SparkContext: Spark 功能的主入口。 RDD: 弹性分布式数

浅析 Apache DolphinScheduler 工作流实例的生命周期

大家好，我是蔡顺峰，白鲸开源的数据工程师，同时也是Apache DolphinScheduler项目的committer和PMC成员。今天我想和大家分享的主题是工作流实例的生命周期。

在统一的分析平台上构建复杂的数据管道

在Quora上,大数据从业者经常会提出以下重复的问题：什么是数据工程（Data Engineering）？如何成为一名数据科学家（Data Scientist）？什么是数据分析师（Data Analyst）？

如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业

在CDH集群外的节点向集群提交Spark作业的方式有多种，前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业，本篇文章我们借助于oozie-client的API接口向非Kerberos集群提交Spark作业。

Curator实现基于zookeeper leader选举

Curator Framework是一个针对zookeeper做的搞层次的API，极大地简化了zookeeper的使用。它基于zookeeper构建了很多功能，处理复杂的链接管理，重试操作。下面是它的一些特点：

Apache Kylin v2.5.0正式发布，开源分布式分析引擎

日前，Apache Kylin 社区宣布，Apache Kylin v2.5.0 正式发布。

Java安全-反序列化-2-CC

TransformedMap，⽤于对Map类型的对象做修饰，被修饰过的Map在添加新的元素时，将可以执⾏⼀个回调。如下，传入变量innerMap，返回outerMap。outerMap在添加新元素时，keyTransformer是处理新元素的Key的回调，valueTransformer是处理新元素的Value的回调，处理后得到的返回值才会被添加进outerMap中

Apache Spark 2.2.0 中文文档 - Spark 编程指南 | ApacheCN

本文介绍了 Apache Spark 的 RDD 程序设计指南，从 RDD 的基本概念、创建与操作、缓存与存储、性能优化等方面进行了详细阐述，并提供了丰富的实例和代码以帮助读者更好地理解和掌握 RDD 的使用方法。

基于DataFrame的StopWordsRemover处理

stopwords简单来说是指在一种语言中广泛使用的词。在各种需要处理文本的地方，我们对这些停止词做出一些特殊处理，以方便我们更关注在更重要的一些词上。对于不同类型的需求而言，对停止词的处理是不同的。 1. 有监督的机器学习 – 将停止词从特征空间剔除 2. 聚类– 降低停止词的权重 3. 信息检索– 不对停止词做索引 4. 自动摘要- 计分时不处理停止词对于不同语言，停止词的类型都可能有出入，但是一般而言有这简单的三类 1. 限定词 2. 并列连词 3.

如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark2作业

前面Fayson介绍了多种方式在CDH集群外的节点向集群提交Spark作业，文章中均采用Spark1来做为示例，本篇文章主要介绍如何是用Oozie API向Kerberos环境的CDH集群提交Spark2作业。

图解大数据 | Spark机器学习(上)-工作流与特征工程

教程地址：http://www.showmeai.tech/tutorials/84

如何使用Oozie API接口向Kerberos环境的CDH集群提交Spark作业

在CDH集群外的节点向集群提交Spark作业的方式有多种，前面Fayson介绍了Livy相关的文章主要描述如何在集群外节点通过RESTful API接口向CDH集群提交Spark作业以及《如何使用Oozie API接口向非Kerberos环境的CDH集群提交Spark作业》，本篇文章主要介绍使用Oozie的API接口向Kerberos集群提交Spark作业。

【工具】Apache Spark 1.5发布了！！！

Apache Solr DataImportHandler 远程代码执行漏洞(CVE-2019-0193) 分析

2019年08月01日，Apache Solr官方发布预警[1]，Apache Solr DataImport功能在开启Debug模式时，可以接收来自请求的"dataConfig"参数，这个参数的功能与data-config.xml一样，不过是在开启Debug模式时方便通过此参数进行调试，并且Debug模式的开启是通过参数传入的。在dataConfig参数中可以包含script恶意脚本导致远程代码执行。

Spark RDD类源码阅读

每天进步一点点~开搞~ abstract class RDD[T: ClassTag]( //@transient 注解表示将字段标记为瞬态的 @transient private var _sc: SparkContext, // Seq是序列，元素有插入的先后顺序，可以有重复的元素。 @transient private var deps: Seq[Dependency[_]] ) extends Serializable with Logging { if (c

[离线计算-Spark|Hive] 大数据应用性能指标采集工具改造落地

主要介绍针对平台的spark应用程序,在不修改用户程序的情况下如何采集其资源和性能指标为后续分析使用,如性能优化,资源使用计价等.

Spark Streaming 整合 Flume

Apache Flume 是一个分布式，高可用的数据收集系统，可以从不同的数据源收集数据，经过聚合后发送到分布式计算框架或者存储系统中。Spark Straming 提供了以下两种方式用于 Flume 的整合。

如何在IDEA上编写Spark程序?(本地+集群+java三种模式书写代码)

本篇博客，Alice为大家带来关于如何在IDEA上编写Spark程序的教程。

Spark2.3.0 初始化

Spark 程序必须做的第一件事是创建一个 JavaSparkContext 对象(Scala和Python中是SparkContext对象)，这告诉了 Spark 如何访问集群。要创建 SparkContext，你首先需要构建一个包含有关应用程序信息的 SparkConf 对象。

spark读写HBase之使用hortonworks的开源框架shc（一）：源码编译以及测试工程创建

以下是我修改后的两个子模块core和examples中的pom文件，只修改了version

干货| 机器学习 Pipeline 初探（大数据Spark方向）

人类经历了从农业革命到工业革命，再到信息革命。信息革命，起源于互联网的诞生，它将会经历三个阶段的跃迁。第一阶段，人与人的连接（网络的雏形），比如：Facebook;第二个阶段，让人们生活更便捷（移动互联网、物联网）；第三个阶段，让人们生活更智能（机器人，无人汽车等）。机器学习作为人工智能的一个分支，它更注重解决实际问题，所以，得到工业界的大力推广，目前已经应用于多个领域，比如个性化推荐，金融反作弊等。

【Spark机器学习实战】 ML Pipeline 初探

Python大数据之PySpark(五)RDD详解

rdd2=sc.textFile(“hdfs://node1:9820/pydata”)

Apache Spark 1.5新特性介绍

作者：梁堰波现就职于明略数据,开源爱好者,Apache Hadoop & Spark contributor。曾任职于法国电信研究员,美团网技术专家,Yahoo!工程师,具备丰富的数据挖掘和机器学

Apache Solr DataImportHandler远程代码执行漏洞(CVE-2019-0193) 分析

2019年08月01日，Apache Solr官方发布预警，Apache Solr DataImport功能在开启Debug模式时，可以接收来自请求的"dataConfig"参数，这个参数的功能与data-config.xml一样，不过是在开启Debug模式时方便通过此参数进行调试，并且Debug模式的开启是通过参数传入的。在dataConfig参数中可以包含script恶意脚本导致远程代码执行。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐