首页
学习
活动
专区
工具
TVP
发布

算法channel

专栏作者
854
文章
1026923
阅读量
136
订阅数
数据分析简明学习路线
数据分析能力,未来会越来越重要。之前推送过很多篇相关文章,基于此再扼要总结,广义上数据分析的学习路线,此处数据分析我延伸到建模部分,只为了从宏观上更清楚的认识,数据分析和数据建模是如何从零到上线,并应用于生产实践与指导中的。
double
2020-11-23
3580
Spark跑「DBSCAN」算法,工业级代码长啥样?
最近着手的一个项目需要在Spark环境下使用DBSCAN算法,遗憾的是Spark MLlib中并没有提供该算法。调研了一些相关的文章,有些方案是将样本点按照空间位置进行分区,并在每个空间分区中分别跑DBSCAN,但是这种方案容易遇到数据倾斜的问题,并且在分区的边界的结果很有可能是错误的。
double
2019-11-14
2.2K2
重磅发布 | 基于Spark训练线性回归模型 实战入门教程
最开始接触分布式计算框架的是Hadoop中的MapReduce,虽然开发起来很复杂(Map与Reduce都要有相应的实现类)但是我也成功的启动了第一个“Hello word”(word count)。
double
2019-08-30
6480
我是一个DataFrame,来自Spark星球
本文的开头,咱们正式给该系列取个名字了,就叫数据分析EPHS系列,EPHS分别是Excel、Python、Hive和SparkSQL的简称。本篇是该系列的第二篇,我们来讲一讲SparkSQL中DataFrame创建的相关知识。
double
2019-07-23
1.7K0
Spark 必备基本原理
不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍。
double
2019-07-15
1.4K0
石晓文:算法入门必备指南
写本文的目的,一是对自己研究生阶段所学习的知识做一个总结,二是希望对那些刚接触机器学习,准备往这个方向发展的同学们提供一些可借鉴的经验。
double
2019-07-10
5810
如何做才能真正提升计算速度?
遇上项目紧急情况,面对大量需要试算的数据时,如何快速提升计算效率,可能是最现实的问题。计算机操作系统提供了进程和线程模型,各种语言都有对这些模型的抽象,并且大多数系统都支持多进程和多线程任务处理。从这个角度,工程上是可以提升计算效率的。但是,什么样的任务适合多线程或多进程?如果适合,选用多线程,还是多进程?这些都是需要去决策的,如果选用不恰当,费了功夫,却没有太大提升。
double
2018-09-30
7700
Spark|Ubuntu环境搭建
在安装Spark之前,我们需要在自己的系统当中先安装上jdk和scala ,以及spark的下载链接, JDK:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html scala:http://www.scala-lang.org/download/ 安装JDK 首先我们先来安装jdk, 在如下的目录创建一个jdk文件夹: sudo mkdir /usr/lib/jdk 用这条语句来创建jdk
double
2018-04-02
8170
Spark|有向无环图(DAG)检测
01 — Spark背景介绍 Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark 是一种与 Hadoop 相似的开源集群计算环境,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。 RDD,全称为Resilient Distributed Datasets,中文翻译弹性分布式数据集,是一个容错的、
double
2018-04-02
2.6K0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档