首页
学习
活动
专区
工具
TVP
发布

算法channel

专栏作者
857
文章
1031012
阅读量
136
订阅数
Spark跑「DBSCAN」算法,工业级代码长啥样?
最近着手的一个项目需要在Spark环境下使用DBSCAN算法,遗憾的是Spark MLlib中并没有提供该算法。调研了一些相关的文章,有些方案是将样本点按照空间位置进行分区,并在每个空间分区中分别跑DBSCAN,但是这种方案容易遇到数据倾斜的问题,并且在分区的边界的结果很有可能是错误的。
double
2019-11-14
2.2K2
深入浅出Kafka(3):我的生命是如何运转的?
Kafka作为一个消息系统,为什么会如此受欢迎?消息系统在不同系统传输数据中扮演着非常重要的角色。让我们看看没有消息系统的数据管道会怎样?
double
2019-07-23
6030
Spark 必备基本原理
不同于MapReduce将中间计算结果放入磁盘中,Spark采用内存存储中间计算结果,减少了迭代运算的磁盘IO,并通过并行计算DAG图的优化,减少了不同任务之间的依赖,降低了延迟等待时间。内存计算下,Spark 比 MapReduce 快100倍。
double
2019-07-15
1.4K0
hadoop|计算框架从MapReduce1.0到Yarn
01 — HDFS 前面介绍了hadoop的分布式存储框架(HDFS),这个框架解决了大数据存储的问题,这是第一步。知道海量数据如何存储后,脚步不能停留,下一步要设计一个框架,用来玩(计算)这些数据时,资源(计算机集群)该如何调度,比如已知1PB的数据存储在了集群(1000台电脑组成)中的10台计算机(DataNode)中,现在要对这些数据进行Map和Reduce计算,该如何做呢? 在理解以下知识前,需要理解一些知识点。任何应用,比如打开一个word文档,打开QQ,都会占用一定的系统资源(CPU,内存,网
double
2018-04-02
1.3K0
HDFS|Shell操作命令
01 — HDFS中常用的命令 HDFS文件操作常有两种方式; 命令行方式,即Hadoop提供了一套与Linux文件命令类似的命令行工具; JavaAPI,即利用Hadoop的Java库,采用编程的方式操作HDFS的文件。 Hadoop最常用的文件操作命令,包括添加文件和目录、获取文件、删除文件等。 看下Linux下的shell命令工具 HDFS命令基本格式:hadoop fs -cmd < args > cmd是具体的文件操作命令,<args>是一组数目可变的参数。 02 — 添加文件和目录 HDFS有
double
2018-04-02
1.4K0
一文读懂区块链是什么,教你如何用于商品打假?
希望时间的流逝不仅仅丰富了我们的阅历,更重要的是通过提炼让我们得以升华,走向卓越。 网上查阅一些关于区块链资料整理出来,和大家一起了解下区块链到底是怎么一回事。 1区块链是什么? 区块链本质上是一个个区块组成的链条,每个区块都连着上一个区块,还是一种特殊的分布式数据库。 首先,区块链的主要作用是储存信息。任何需要保存的信息,都可以写入区块链,也可以从里面读取。 其次,任何人都可以架设服务器,加入区块链网络,成为一个节点。区块链的世界里面,没有中心节点,每个节点都是平等的,都保存着整个数据库。你可以向任
double
2018-04-02
7090
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档