腾讯云
开发者社区
文档
建议反馈
控制台
首页
学习
活动
专区
工具
TVP
最新优惠活动
文章/答案/技术大牛
搜索
搜索
关闭
发布
登录/注册
首页
学习
活动
专区
工具
TVP
最新优惠活动
返回腾讯云官网
黑泽君的专栏
专栏作者
举报
708
文章
1681309
阅读量
102
订阅数
订阅专栏
申请加入专栏
全部文章(708)
其他(310)
java(123)
linux(40)
http(35)
编程算法(34)
windows(34)
eclipse(33)
数据库(32)
存储(27)
大数据(25)
xml(23)
html(22)
面向对象编程(20)
sql(19)
安全(19)
ide(18)
git(17)
云数据库 SQL Server(16)
tomcat(16)
python(13)
jar(13)
servlet(12)
jsp(12)
scala(12)
spark(12)
hadoop(12)
api(11)
spring(11)
开源(10)
jdk(10)
云数据库 Redis(8)
容器(8)
jvm(8)
gui(8)
go(7)
node.js(7)
jquery(7)
ajax(7)
oracle(7)
maven(7)
mapreduce(7)
hive(7)
数据结构(7)
bash(6)
腾讯云测试服务(6)
mongodb(6)
hbase(6)
svn(5)
struts(5)
unix(5)
ubuntu(5)
apache(5)
游戏(5)
分布式(5)
缓存(5)
ftp(5)
ios(4)
单片机(4)
mvc(4)
bash 指令(4)
云数据库 MongoDB(4)
shell(4)
jdbc(4)
asp(4)
tcp/ip(4)
dubbo(4)
udp(4)
kafka(4)
bootstrap(3)
json(3)
android(3)
qt(3)
全文检索(3)
centos(3)
网络安全(3)
hashmap(3)
监督学习(3)
zookeeper(3)
kotlin(3)
单元测试(3)
gcc(3)
nat(3)
虚拟化(3)
NLP 服务(2)
数据挖掘(2)
机器学习(2)
php(2)
javascript(2)
ecmascript(2)
arm(2)
打包(2)
搜索引擎(2)
lucene/solr(2)
nginx(2)
神经网络(2)
深度学习(2)
TDSQL MySQL 版(2)
海外加速(2)
腾讯git代码托管(工蜂)(2)
图像处理(2)
电商(2)
express(2)
yarn(2)
自动化(2)
ssh(2)
mybatis(2)
dns(2)
线性回归(2)
grep(2)
aop(2)
rpc(2)
socket编程(2)
数据分析(2)
数据处理(2)
https(2)
云计算(2)
Elasticsearch Service(2)
测试(2)
模型(2)
数据(2)
算法(2)
负载均衡(1)
c 语言(1)
c++(1)
actionscript(1)
汇编语言(1)
嵌入式(1)
github(1)
analyzer(1)
专用宿主机(1)
访问管理(1)
企业邮箱(1)
大数据处理套件 TBDS(1)
人工智能(1)
网站(1)
数据备份(1)
混合云存储(1)
日志数据(1)
出行(1)
reactnative(1)
压力测试(1)
html5(1)
正则表达式(1)
erp(1)
yum(1)
unity(1)
自动化测试(1)
ntp(1)
小程序(1)
notepad ++(1)
es(1)
数据库管理(1)
cmd(1)
editor(1)
exe(1)
file(1)
input(1)
list(1)
readline(1)
settings(1)
show(1)
二进制(1)
面试(1)
异常(1)
搜索文章
搜索
搜索
关闭
大数据技术之_28_电商推荐系统项目_01
mongodb
云数据库 MongoDB
kafka
spark
编程算法
项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合教学体系的一体化的电商推荐系统,包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现、平台部署等多方位的闭环的业务实现。
黑泽君
2019-06-15
2.8K
1
大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池
spark
python
node.js
大数据
编程算法
List 元素的追加 方式1-在列表的最后增加数据 方式2-在列表的最前面增加数据
黑泽君
2019-06-14
2.7K
0
大数据技术之_27_电商平台数据分析项目_03_项目概述 + 项目主体架构 + 模拟业务数据源 + 程序框架解析 + 需求解析 + 项目总结
spark
数据库
云数据库 SQL Server
sql
数据分析
1、user_visit_action user_visit_action 表,存放网站或者 APP 每天的点击流数据。通俗地讲,就是用户对 网站/APP 每点击一下,就会产生一条存放在这个表里面的数据。
黑泽君
2019-06-14
3.2K
0
大数据技术之_19_Spark学习_07_Spark 性能调优小结
spark
========== Spark 的监控方式 ========== 1、Spark Web UI Spark 内置应用运行监控工具(提供了应用运行层面的主要信息--重要) 2、Ganglia 分析集群的使用状况和资源瓶颈(提供了集群的使用状况--资源瓶颈--重要) 3、Nmon 主机 CPU、网络、磁盘、内存(提供了单机信息) 4、Jmeter 系统实时性能监控工具(提供了单机的实时信息) 5、Jprofile Java 程序性能监控工具(提供了对应用程序开发和JVM的监控--次重要)
黑泽君
2019-05-14
520
0
大数据技术之_19_Spark学习_06_Spark 源码解析小结
spark
scala
rpc
java
1、spark 一开始使用 akka 作为网络通信框架,spark 2.X 版本以后完全抛弃 akka,而使用 netty 作为新的网络通信框架。 最主要原因:spark 对 akka 没有维护,需要 akka 更新,spark 的发展受到了 akka 的牵制,akka 版本之间无法通信,即 akka 兼容性问题。 2、RpcEnv:RPC 上下文环境,每个 Rpc 端点运行时依赖的上下文环境称之为 RpcEnv。类似于 SparkContext,默认由 NettyRpcEnv 实现,由 NettyRpcEnvFactory 创建 RpcEnv。 3、RpcEndpoint:RPC 端点,Spark 针对于每个节点(Client/Master/Worker)都称之一个 Rpc 端点且都实现 RpcEndpoint 接口,内部根据不同端点的需求,设计不同的消息和不同的业务处理,如果需要发送(询问)则调用 Dispatcher。代理是 RpcEndpointRef。 4、Dispatcher:消息分发器,针对于 RPC 端点需要发送消息或者从远程 RPC 接收到的消息,分发至对应的指令收件箱/发件箱。 5、Inbox:指令消息收件箱,一个本地端点对应一个收件箱,Dispatcher 在每次向 Inbox 存入消息时,都将对应 EndpointData 加入内部待 Receiver Queue 中。 6、OutBox:指令消息发件箱,一个远程端点对应一个发件箱,当消息放入 Outbox 后,紧接着将消息通过 TransportClient 发送出去。 7、TransportClient:Netty 通信客户端,主要负责将相对应的 OutBox 中的数据发送给远程 TransportServer。 8、TransportServer:Netty 通信服务端,主要用于接收远程 RpcEndpoint 发送过来的消息,并把消息传送给 Dispatcher。
黑泽君
2019-05-14
508
0
大数据技术之_19_Spark学习_06_Spark 源码解析 + Spark 通信架构、脚本解析、standalone 模式启动、提交流程 + Spark Shuffle 过程 + Spark 内存
spark
mapreduce
hashmap
大数据
数据结构
上图展示了 2 个 RDD 进行 JOIN 操作,体现了 RDD 所具备的 5 个主要特性,如下所示: • 1)一组分区 • 2)计算每一个数据分片的函数 • 3)RDD 上的一组依赖 • 4)可选,对于键值对 RDD,有一个 Partitioner(通常是 HashPartitioner) • 5)可选,一组 Preferred location 信息(例如,HDFS 文件的 Block 所在 location 信息) 有了上述特性,能够非常好地通过 RDD 来表达分布式数据集,并作为构建 DAG 图的基础:首先抽象一个分布式计算任务的逻辑表示,最终将任务在实际的物理计算环境中进行处理执行。
黑泽君
2019-05-14
1.3K
0
大数据技术之_19_Spark学习_05_Spark GraphX 应用解析小结
数据结构
spark
========== Spark GraphX 概述 ========== 1、Spark GraphX是什么? (1)Spark GraphX 是 Spark 的一个模块,主要用于进行以图为核心的计算还有分布式图的计算。 (2)GraphX 他的底层计算也是 RDD 计算,它和 RDD 共用一种存储形态,在展示形态上可以以数据集来表示,也可以图的形式来表示。
黑泽君
2019-05-14
824
0
大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化
spark
数据库
数据备份
sql
编程算法
Spark Streaming 类似于 Apache Storm,用于流式数据的处理。根据其官方文档介绍,Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的数据输入源很多,例如:Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象,如:map、reduce、join、window 等进行运算。而结果也能保存在很多地方,如 HDFS,数据库等。另外 Spark Streaming 也能和 MLlib(机器学习)以及 Graphx 完美融合。
黑泽君
2019-05-13
1.8K
0
大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结
python
spark
hive
云数据库 SQL Server
sql
========== Spark SQL ========== 1、Spark SQL 是 Spark 的一个模块,可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。
黑泽君
2019-05-10
1.4K
0
大数据技术之_19_Spark学习_01_Spark 基础解析小结(无图片)
bash
bash 指令
spark
http
ide
2、Spark Standalone 即独立模式 2.1、解压安装包到你安装的目录。 2.2、拷贝 conf 目录下的 slaves 文件,将 slave 节点的 hostname 写在文件中,每行一个。 2.3、拷贝 conf 目录下的 spark-env.sh 文件,将 SPARK_MASTER_HOST 和 SPARK_MASTER_PORT 指定。 2.4、分发你的 spark 安装目录到其他节点。 2.5、在 master 节点上执行 /opt/module/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh 来启动整个 spark 集群。 2.6、在浏览器中访问 http://hadoop102:8080 来访问你的 spark 集群 注意:如果在启动的时候出现 JAVA_HOME not set 那么可以在 sbin 目录下的 spark-config.sh 文件中输入 export JAVA_HOME=/opt/module/jdk1.8.0_144 然后分发到其他节点,这样问题即可解决。
黑泽君
2019-05-07
658
0
大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序
spark
hadoop
shell
bash
bash 指令
Spark 是一种快速、通用、可扩展的大数据分析引擎,2009 年诞生于加州大学伯克利分校 AMPLab,2010 年开源,2013 年 6 月成为 Apache 孵化项目,2014 年 2 月成为 Apache 顶级项目。项目是用 Scala 进行编写。 目前,Spark生态系统已经发展成为一个包含多个子项目的集合,其中包含 SparkSQL、Spark Streaming、GraphX、MLib、SparkR 等子项目,Spark 是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型,而且高效地支持更多计算模式,包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景,包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算,Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合,在实际的数据分析过程中是很有意义的。不仅如此,Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。 大一统的软件栈,各个组件关系密切并且可以相互调用,这种设计有几个好处: 1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。 2、运行整个软件栈的代价变小了。不需要运行 5 到 10 套独立的软件系统了,一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。 3、能够构建出无缝整合不同处理模型的应用。 Spark 的内置项目如下:
黑泽君
2019-05-07
938
0
大数据技术之_19_Spark学习_02_Spark Core 应用解析小结
spark
hadoop
编程算法
数据库
数据结构
1、RDD 全称 弹性分布式数据集 Resilient Distributed Dataset 它就是一个 class。
黑泽君
2019-04-27
640
0
没有更多了
社区活动
腾讯技术创作狂欢月
“码”上创作 21 天,分 10000 元奖品池!
立即发文
Python精品学习库
代码在线跑,知识轻松学
立即查看
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
立即体验
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
立即查看
领券
问题归档
专栏文章
快讯文章归档
关键词归档
开发者手册归档
开发者手册 Section 归档