腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

算法channel

专栏作者

854

文章

1026923

阅读量

136

订阅数

数据分析简明学习路线

spark 大数据爬虫数据分析

数据分析能力，未来会越来越重要。之前推送过很多篇相关文章，基于此再扼要总结，广义上数据分析的学习路线，此处数据分析我延伸到建模部分，只为了从宏观上更清楚的认识，数据分析和数据建模是如何从零到上线，并应用于生产实践与指导中的。

2020-11-23

3580

Spark跑「DBSCAN」算法，工业级代码长啥样？

分布式 spark 编程算法

最近着手的一个项目需要在Spark环境下使用DBSCAN算法，遗憾的是Spark MLlib中并没有提供该算法。调研了一些相关的文章，有些方案是将样本点按照空间位置进行分区，并在每个空间分区中分别跑DBSCAN，但是这种方案容易遇到数据倾斜的问题，并且在分区的边界的结果很有可能是错误的。

2019-11-14

2.2K2

重磅发布 | 基于Spark训练线性回归模型实战入门教程

mapreduce spark 机器学习 https github

最开始接触分布式计算框架的是Hadoop中的MapReduce,虽然开发起来很复杂（Map与Reduce都要有相应的实现类）但是我也成功的启动了第一个“Hello word”（word count）。

2019-08-30

6480

我是一个DataFrame，来自Spark星球

python spark hive scala https

本文的开头，咱们正式给该系列取个名字了，就叫数据分析EPHS系列，EPHS分别是Excel、Python、Hive和SparkSQL的简称。本篇是该系列的第二篇，我们来讲一讲SparkSQL中DataFrame创建的相关知识。

2019-07-23

1.7K0

Spark 必备基本原理

spark mapreduce 分布式 yarn node.js

不同于MapReduce将中间计算结果放入磁盘中，Spark采用内存存储中间计算结果，减少了迭代运算的磁盘IO，并通过并行计算DAG图的优化，减少了不同任务之间的依赖，降低了延迟等待时间。内存计算下，Spark 比 MapReduce 快100倍。

2019-07-15

1.4K0

石晓文：算法入门必备指南

python spark https 网络安全

写本文的目的，一是对自己研究生阶段所学习的知识做一个总结，二是希望对那些刚接触机器学习，准备往这个方向发展的同学们提供一些可借鉴的经验。

2019-07-10

5810

如何做才能真正提升计算速度？

大数据 spark 爬虫数据库 python

遇上项目紧急情况，面对大量需要试算的数据时，如何快速提升计算效率，可能是最现实的问题。计算机操作系统提供了进程和线程模型，各种语言都有对这些模型的抽象，并且大多数系统都支持多进程和多线程任务处理。从这个角度，工程上是可以提升计算效率的。但是，什么样的任务适合多线程或多进程？如果适合，选用多线程，还是多进程？这些都是需要去决策的，如果选用不恰当，费了功夫，却没有太大提升。

2018-09-30

7700

Spark|Ubuntu环境搭建

spark ubuntu jdk scala oracle

在安装Spark之前，我们需要在自己的系统当中先安装上jdk和scala ，以及spark的下载链接， JDK：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html scala：http://www.scala-lang.org/download/ 安装JDK 首先我们先来安装jdk, 在如下的目录创建一个jdk文件夹： sudo mkdir /usr/lib/jdk 用这条语句来创建jdk

2018-04-02

8170

Spark|有向无环图（DAG）检测

spark 编程算法大数据 hadoop

01 — Spark背景介绍 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环境，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 RDD，全称为Resilient Distributed Datasets，中文翻译弹性分布式数据集，是一个容错的、

2018-04-02

2.6K0

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态