PySpark Count () CASE WHEN [duplicate]_SUM ( CASE WHEN A=B THEN COUNT*X)语句_Case When with Count在连接的ON子句中 - 腾讯云开发者社区

您找到你想要的搜索结果了吗？

是的

没有找到

大数据处理实践！手把手实现PySpark机器学习项目-回归算法

分布式机器学习原理及实战(Pyspark)

大数据（Big Data）是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据技术，是指从各种各样类型的数据中，快速获得有价值信息的能力。

在MySQL中查找重复记录

I want to pull out duplicate records in a MySQL Database. 我想在MySQL数据库中提取重复记录。 This can be done with: 这可以通过以下方式完成：

高效大数据开发之 bitmap 思想的应用

作者：xmxiong，PCG 运营开发工程师数据仓库的数据统计，可以归纳为三类：增量类、累计类、留存类。而累计类又分为历史至今的累计与最近一段时间内的累计(比如滚动月活跃天，滚动周活跃天，最近 N 天消费情况等)，借助 bitmap 思想统计的模型表可以快速统计最近一段时间内的累计类与留存类。一、背景数据仓库的数据统计，可以归纳为三类：增量类、累计类、留存类。而累计类又分为历史至今的累计与最近一段时间内的累计(比如滚动月活跃天，滚动周活跃天，最近 N 天消费情况等)，借助 bitmap 思想统计

【PySpark入门】手把手实现PySpark机器学习项目-回归算法

PySpark︱pyspark.ml 相关模型实践

官方案例来源：https://spark.apache.org/docs/latest/api/python/pyspark.ml.html#pyspark.ml.classification.MultilayerPerceptronClassifier

浅谈pandas，pyspark 的大数据ETL实践经验

本文主要以基于AWS 搭建的EMR spark 托管集群，使用pandas pyspark 对合作单位的业务数据进行ETL —- EXTRACT（抽取）、TRANSFORM（转换）、LOAD（加载）等工作为例介绍大数据数据预处理的实践经验，很多初学的朋友对大数据挖掘，数据分析第一直观的印象，都只是业务模型，以及组成模型背后的各种算法原理。往往忽视了整个业务场景建模过程中，看似最普通，却又最精髓的数据预处理或者叫数据清洗过程。

大数据入门与实战-PySpark的使用教程

Apache Spark是用Scala编程语言编写的。为了用Spark支持Python，Apache Spark社区发布了一个工具PySpark。使用PySpark，您也可以使用Python编程语言处理RDD。正是由于一个名为Py4j的库，他们才能实现这一目标。这里不介绍PySpark的环境设置，主要介绍一些实例，以便快速上手。

经典机器学习 | 如何做到预流失与流失挽回？

导语：预流失用户，即有流失倾向，但还没有开始真正流失的用户。相较于流失用户而言，预流失用户处于观望阶段，或许对现有产品有所顾虑，或许对于潜在的流向（竞品）有所顾虑，或许是在等待些什么；流失用户，即已经流失了的用户，或许是因为游戏弃坑，或许选择了其他产品，用户肯定还在玩些什么，只是不再来你这儿了。文章介绍了如何通过经典的机器学习(Machine Learning, ML)方法来寻找那些流失可能性比较高的用户、寻找那些回流意愿比较大的用户。运营同学针对这些用户就可以重点干预，降低预流失用户比例，拉高用户的

PySpark｜ML（评估器）

在PySpark中包含了两种机器学习相关的包：MLlib和ML，二者的主要区别在于MLlib包的操作是基于RDD的，ML包的操作是基于DataFrame的。根据之前我们叙述过的DataFrame的性能要远远好于RDD，并且MLlib已经不再被维护了，所以在本专栏中我们将不会讲解MLlib。

PySpark启动过程解密

作为数据工程师，你可能会碰到过很多种启动PySpark的方法，可能搞不懂这些方法有什么共同点、有什么区别，不同的方法对程序开发、部署有什么影响，今天我们一起分析一下这些启动PySpark的方法。

基于PySpark的流媒体用户流失预测

对于音乐流媒体业务来说，确定可能流失的用户（即有可能从付费降级到取消服务的用户）是关键。

PySpark 中的机器学习库

传统的机器学习算法，由于技术和单机存储的限制，比如使用scikit-learn,只能在少量数据上使用。即以前的统计/机器学习依赖于数据抽样。但实际过程中样本往往很难做好随机，导致学习的模型不是很准确，在测试数据上的效果也可能不太好。随着 HDFS(Hadoop Distributed File System) 等分布式文件系统出现，存储海量数据已经成为可能。在全量数据上进行机器学习也成为了可能，这顺便也解决了统计随机性的问题。然而，由于 MapReduce 自身的限制，使得使用 MapReduce 来实现分布式机器学习算法非常耗时和消耗磁盘IO。因为通常情况下机器学习算法参数学习的过程都是迭代计算的，即本次计算的结果要作为下一次迭代的输入，这个过程中，如果使用 MapReduce，我们只能把中间结果存储磁盘，然后在下一次计算的时候从新读取，这对于迭代频发的算法显然是致命的性能瓶颈。引用官网一句话：Apache Spark™ is a unified analytics engine for large-scale data processing.Spark，是一种"One Stack to rule them all"的大数据计算框架，期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务.

大数据开发！Pandas转spark无痛指南！⛵

Pandas 是每位数据科学家和 Python 数据分析师都熟悉的工具库，它灵活且强大具备丰富的功能，但在处理大型数据集时，它是非常受限的。

Ubuntu16.04安装Hadoop2.6+Spark1.6+开发实例

摘要总结：本文主要介绍了在Ubuntu 16.04下如何安装Hadoop 2.6.0、Spark 1.6.2以及开发环境搭建的过程。主要包括了配置环境变量、安装Hadoop、配置Hadoop、安装Spark、运行Spark的例子以及关闭YARN和Spark。同时，还介绍了如何在Jupyter Notebook中开发Spark应用程序。

010

jupyter中运行pyspark

Python for Spark显然比Scala慢。然而，易于学习，并且受益于我最喜爱的库。在我看来，Python是大数据/机器学习领域中原型设计的完美语言。

Unity 中进行数据压缩的一种方法

一般的游戏开发中,数据压缩往往跟资源加载等底层机制关系密切,在上层逻辑中的使用则并不常见.

on duplicate key update

INSERT INTO issue_change(project_id, add_date, change_amount, base_line, gmt_create , gmt_modified) SELECT p.id project_id, date(i.commit_date) add_date, @changeAmount := count() change_amount, @baseLine := (SELECT round( ( SELECT ifnull(count(),@changeAmount) FROM issue i, project p WHERE p.deparmtent_id = i.dept_no AND p.id = project_id AND YEAR (i.commit_date) = YEAR (add_date) AND MONTH (i.commit_date) = MONTH (add_date) - 1 and i.is_deleted ='n' and i.is_valid ='Y' and i.template_id != 100373 ) / ( SELECT sum(asccr.line_count) FROM aone_statistics_code_commit_record asccr, change_request cr, project p WHERE asccr.branch_url = cr.branch_url AND p.deparmtent_id = cr.dept_no AND p.id = 1 AND YEAR (asccr.commit_time) = YEAR (add_date) AND MONTH (asccr.commit_time) = MONTH (add_date) - 1 and cr.is_deleted ='n' ) * ( SELECT sum(asccr.line_count) FROM aone_statistics_code_commit_record asccr, change_request cr, project p WHERE cr.branch_url = asccr.branch_url AND p.aone_project_id = cr.aone_project_id AND p.id = project_id and cr.is_deleted ='n' ) )) base_line, now() gmt_create, now() gmt_modified FROM issue i JOIN project p on p.aone_project_id = i.aone_project_id where i.is_valid ='Y' and i.template_id != 100373 and p.id in (SELECT id from project WHERE type > 499) GROUP BY p.id, date(i.commit_date) on duplicate key update change_amount = @changeAmount, base_line = @baseLine, gmt_modified = now()

pyspark 原理、源码解析与优劣势分析（2） ---- Executor 端进程间通信和序列化

对于 Spark 内置的算子，在 Python 中调用 RDD、DataFrame 的接口后，从上文可以看出会通过 JVM 去调用到 Scala 的接口，最后执行和直接使用 Scala 并无区别。而对于需要使用 UDF 的情形，在 Executor 端就需要启动一个 Python worker 子进程，然后执行 UDF 的逻辑。那么 Spark 是怎样判断需要启动子进程的呢？

在机器学习中处理大量数据！

知乎｜ https://zhuanlan.zhihu.com/p/357361005

人工智能，应该如何测试？（六）推荐系统拆解

根据之前学习到的内容，我们已经基本了解到了要如何构建一个二分类模型。我们都知道模型大体可以分成，回归，二分类和多分类。但推荐系统是属于哪一种场景呢，比如我们常见的广告推荐或者内容推荐，这些场景都是由系统来判断用户的喜好来推送广告或者视频内容，以追求更高的点击率和转化率。这种场景怎么看都不像跟这三种类型的算法有关系。

pyspark on hpc

本地内部集群资源有限，简单的数据处理跑了3天。HPC上有很多计算资源，出于先吃锅里的再吃碗里的思想，琢磨先充分利用共有资源。简单调研下，也不是很复杂的事情。

探索MLlib机器学习

实用工具：线性代数，统计，数据处理等工具特征工程：特征提取，特征转换，特征选择常用算法：分类，回归，聚类，协同过滤，降维模型优化：模型评估，参数优化。

pyspark 随机森林的实现

随机森林是由许多决策树构成，是一种有监督机器学习方法，可以用于分类和回归，通过合并汇总来自个体决策树的结果来进行预测，采用多数选票作为分类结果，采用预测结果平均值作为回归结果。

Python基础篇 strings 03

找出子字符串出现频次和出现的索引位置核查是否存在字符串并找出其索引位置查找所有字符的出现次数和索引

PySpark源码解析，教你用Python调用高效Scala接口，搞定大规模数据分析

众所周知，Spark 框架主要是由 Scala 语言实现，同时也包含少量 Java 代码。Spark 面向用户的编程接口，也是 Scala。然而，在数据科学领域，Python 一直占据比较重要的地位，仍然有大量的数据工程师在使用各类 Python 数据处理和科学计算的库，例如 numpy、Pandas、scikit-learn 等。同时，Python 语言的入门门槛也显著低于 Scala。

一个有用的PHP片段的集合

一个有用的PHP片段的集合，你可以在30秒或更短的时间内理解。 Table of Contents Array View contents * [`all`](#all) * [`any`](#any) * [`chunk`](#chunk) * [`deepFlatten`](#deepflatten) * [`drop`](#drop) * [`findLast`](#findlast) * [`findLastIndex`](#findlastindex) * [`flatten`](#flatt

Postgresql随手记（9）错误码是如何构造的

例如上述PL在执行时调用plpgsql_recognize_err_condition的传参：

Postgresql错误码是如何构造的

例如上述PL在执行时调用plpgsql_recognize_err_condition的传参：

PySpark SQL——SQL和pd.DataFrame的结合体

昨日推文PySpark环境搭建和简介，今天开始介绍PySpark中的第一个重要组件SQL/DataFrame，实际上从名字便可看出这是关系型数据库SQL和pandas.DataFrame的结合体，功能也几乎恰是这样，所以如果具有良好的SQL基本功和熟练的pandas运用技巧，学习PySpark SQL会感到非常熟悉和舒适。

第2天：核心概念之SparkContext

SparkContext是所有Spark功能的入口。无论我们希望运行什么样的Spark应用，都需要初始化SparkContext来驱动程序执行，从而将任务分配至Spark的工作节点中执行。

PySpark UD(A)F 的高效使用

Spark无疑是当今数据科学和大数据领域最流行的技术之一。尽管它是用Scala开发的，并在Java虚拟机(JVM)中运行，但它附带了Python绑定，也称为PySpark，其API深受panda的影响。在功能方面，现代PySpark在典型的ETL和数据处理方面具有与Pandas相同的功能，例如groupby、聚合等等。

Spark Extracting,transforming,selecting features

官方文档链接：https://spark.apache.org/docs/2.2.0/ml-features.html

Apache Hudi 0.12.2发布

我们的目标是维护 0.12 更长时间，并通过最新的 0.12.x 版本提供稳定版本供用户迁移。此版本 (0.12.2) 是最新的 0.12 版本。

使用docker-compose轻松部署FastDFS，高效管理文件存储

在现代互联网应用中，文件存储和管理是一个至关重要的部分。FastDFS是一个快速、可靠的分布式文件系统，广泛应用于各种需要高效文件存储和访问的场景。本文将介绍如何使用Docker轻松地部署FastDFS，以便快速搭建一个可靠的文件存储系统。

第3天：核心概念之RDD

RDD代表Resilient Distributed Dataset（弹性分不输计算数据集），它们是可以在多个节点上运行和操作的数据，从而能够实现高效并行计算的效果。RDD是不可变数据，这意味着一旦创建了RDD，就无法直接对其进行修改。此外，RDD也具有容错能力，因此在发生任何故障时，它们会自动恢复。

扫码

添加站长进交流群

领取专属 10元无门槛券

手把手带您无忧上云

社区

活动

资源

关于

腾讯云开发者

热门产品

热门推荐

更多推荐