个人分享-腾讯云开发者社区

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

个人分享

专栏成员

238

文章

267136

阅读量

42

订阅数

Spark BlockManager的通信及内存占用分析(源码阅读九）

spark rpc 人工智能 .net

　　之前阅读也有总结过Block的RPC服务是通过NettyBlockRpcServer提供打开，即下载Block文件的功能。然后在启动jbo的时候由Driver上的BlockManagerMaster对存在于Executor上的BlockManager统一管理，注册Executor的BlockManager、更新Executor上Block的最新信息、询问所需要Block目前所在的位置以及当Executor运行结束时，将Executor移除等等。那么Driver与Executor之间是怎么交互的呢？

2018-09-06

8180

前一天数据偏移至当日数据

mongodb sql 人工智能 spark

客户画像项目中可能会遇到此类问题，因为客户画像要求的是对单个用户信息的查询。但倘若以日周期为准，今日梳理的数据宽表中某个字段为null,但此类字段不能以null显示，要以前一天有数据的值为今日的值，就需要做case when处理。同时还有个问题，日表拥有某些客户信息（以日更新)，但并不是用户全量表，而月表为用户全量表（拥有历史月的所有用户数），日表可能会增加也可能会减少数据。这样不管你left join谁都无法得到全量的用户数据。使用以下方法便可实现:

2018-09-06

7280

1分钟内检查Linux服务器性能的命令

linux 人工智能

在Linux系统中，这些数据表示等待CPU资源的进程和阻塞在不可中断IO进程（进程状态为D）的数量。

2018-09-06

1.3K0

JVM 类型的生命周期学习

jvm java api 人工智能

Java虚拟机通过装载、连接和初始化一个JAVA类型，使该类型可以被正在运行的JAVA程序所使用，其中，装载就是把二进制形式的JAVA类型读入JAVA虚拟机中；而连接就是把这种读入虚拟机的二进制形式的类型数据合并到虚拟机的运行时状态中去。

2018-09-06

4220

多线程模拟实现生产者／消费者模型 (借鉴)

java 安全人工智能

在生产者／消费者模型中，生产者Producer负责生产数据，而消费者Consumer负责使用数据。多个生产者线程会在同一时间运行，生产数据，并放到内存中一个共享的区域。期间，多个消费者线程读取内存共享区，消费里面的数据。

2018-09-06

7910

spark MapOutputTrackerMaster

spark erp 人工智能

最近用了一个RowNumber() over()函数进行三张4000万数据的关联筛选，建表语句如下:

2018-09-06

4010

Spark RDDRelation

spark 人工智能 sql apache

注意这里声明的是 sqlContext = new SQLContext(sc) 如果要存成hive 表需用hivecontext.

2018-09-06

3500

Kmeans算法学习与SparkMlLib Kmeans算法尝试

编程算法 spark 数据挖掘人工智能

K-means算法是最为经典的基于划分的聚类方法，是十大经典数据挖掘算法之一。K-means算法的基本思想是：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果。该算法接受参数 k ；然后将事先输入的n个数据对象划分为 k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。

2018-09-06

7430

JMS的常用方法

java nat apache 人工智能

import javax.jms.Connection; import javax.jms.ConnectionFactory; import javax.jms.Destination; import javax.jms.Message; import javax.jms.MessageConsumer; import javax.jms.MessageListener; import javax.jms.Session; import javax.jms.TextMessage; import org

2018-09-06

6960

单点登录filter根据redis中的key判断是否退出

云数据库 Redis 人工智能 java

其实可以直接用userSession 但由于项目已经封装了,所以再创建个UserMessage实体类，在登录后将token存入session，当从redis中通过key获取token为空时，便清除userSession,跳转到指定系统页面。

2018-09-06

1.1K0

工作中Linux常用命令

linux grep 云数据库 SQL Server 人工智能

rpm -ev mysql-server-5.1.73-5.el6_6.x86_64

2018-09-06

8320

单点登录的实现

json html https 人工智能 servlet

从第三方系统单点登录到目标系统，第三方系统会发送token进行验证，通过解析token，获取相应的用户信息的json串。将其set到自己系统的session中。

2018-09-06

1.4K0

使用SparkSQL实现多线程分页查询并写入文件

spark sql 人工智能

一、由于具有多张宽表且字段较多，每个宽表数据大概为4000万条，根据业务逻辑拼接别名，并每张宽表的固定字段进行left join 拼接SQL。这样就能根据每个宽表的主列，根据每个宽表的不同字段关联出一张新的集合。由于下来要进行分页查询，如果要使用SparkSQL进行分页查询，需要增加序号列，那么就在刚才的Sql之前增加一句 create table tableName as SELECT ROW_NUMBER() OVER() as id,* from (拼接的SQL) 就可创建一张带自增序列的，业务需要字段的几张宽表的关联集合,方便下来分页。

2018-09-06

1.4K0

没有更多了

社区活动

【纪录片】中国数据库前世今生

穿越半个世纪，探寻中国数据库50年的发展历程

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态