腾讯云开发者社区-腾讯云

开发者社区

文档建议反馈控制台

最新优惠活动

文章/答案/技术大牛

发布

黑泽君的专栏

专栏作者

708

文章

1681309

阅读量

102

订阅数

大数据技术之_28_电商推荐系统项目_01

mongodb 云数据库 MongoDB kafka spark 编程算法

项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托，以某电商网站真实业务数据架构为基础，构建了符合教学体系的一体化的电商推荐系统，包含了离线推荐与实时推荐体系，综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。提供了从前端应用、后台服务、算法设计实现、平台部署等多方位的闭环的业务实现。

2019-06-15

2.8K1

大数据技术之_27_电商平台数据分析项目_02_预备知识 + Scala + Spark Core + Spark SQL + Spark Streaming + Java 对象池

spark python node.js 大数据编程算法

List 元素的追加方式1-在列表的最后增加数据方式2-在列表的最前面增加数据

2019-06-14

2.7K0

大数据技术之_27_电商平台数据分析项目_03_项目概述 + 项目主体架构 + 模拟业务数据源 + 程序框架解析 + 需求解析 + 项目总结

spark 数据库云数据库 SQL Server sql 数据分析

1、user_visit_action user_visit_action 表，存放网站或者 APP 每天的点击流数据。通俗地讲，就是用户对网站/APP 每点击一下，就会产生一条存放在这个表里面的数据。

2019-06-14

3.2K0

大数据技术之_19_Spark学习_07_Spark 性能调优小结

========== Spark 的监控方式 ========== 1、Spark Web UI Spark 内置应用运行监控工具（提供了应用运行层面的主要信息--重要） 2、Ganglia 分析集群的使用状况和资源瓶颈（提供了集群的使用状况--资源瓶颈--重要） 3、Nmon 主机 CPU、网络、磁盘、内存（提供了单机信息） 4、Jmeter 系统实时性能监控工具（提供了单机的实时信息） 5、Jprofile Java 程序性能监控工具（提供了对应用程序开发和JVM的监控--次重要）

2019-05-14

5200

大数据技术之_19_Spark学习_06_Spark 源码解析小结

spark scala rpc java

1、spark 一开始使用 akka 作为网络通信框架，spark 2.X 版本以后完全抛弃 akka，而使用 netty 作为新的网络通信框架。最主要原因：spark 对 akka 没有维护，需要 akka 更新，spark 的发展受到了 akka 的牵制，akka 版本之间无法通信，即 akka 兼容性问题。 2、RpcEnv：RPC 上下文环境，每个 Rpc 端点运行时依赖的上下文环境称之为 RpcEnv。类似于 SparkContext，默认由 NettyRpcEnv 实现，由 NettyRpcEnvFactory 创建 RpcEnv。 3、RpcEndpoint：RPC 端点，Spark 针对于每个节点（Client/Master/Worker）都称之一个 Rpc 端点且都实现 RpcEndpoint 接口，内部根据不同端点的需求，设计不同的消息和不同的业务处理，如果需要发送（询问）则调用 Dispatcher。代理是 RpcEndpointRef。 4、Dispatcher：消息分发器，针对于 RPC 端点需要发送消息或者从远程 RPC 接收到的消息，分发至对应的指令收件箱/发件箱。 5、Inbox：指令消息收件箱，一个本地端点对应一个收件箱，Dispatcher 在每次向 Inbox 存入消息时，都将对应 EndpointData 加入内部待 Receiver Queue 中。 6、OutBox：指令消息发件箱，一个远程端点对应一个发件箱，当消息放入 Outbox 后，紧接着将消息通过 TransportClient 发送出去。 7、TransportClient：Netty 通信客户端，主要负责将相对应的 OutBox 中的数据发送给远程 TransportServer。 8、TransportServer：Netty 通信服务端，主要用于接收远程 RpcEndpoint 发送过来的消息，并把消息传送给 Dispatcher。

2019-05-14

5080

大数据技术之_19_Spark学习_06_Spark 源码解析 + Spark 通信架构、脚本解析、standalone 模式启动、提交流程 + Spark Shuffle 过程 + Spark 内存

spark mapreduce hashmap 大数据数据结构

上图展示了 2 个 RDD 进行 JOIN 操作，体现了 RDD 所具备的 5 个主要特性，如下所示： • 1）一组分区 • 2）计算每一个数据分片的函数 • 3）RDD 上的一组依赖 • 4）可选，对于键值对 RDD，有一个 Partitioner（通常是 HashPartitioner） • 5）可选，一组 Preferred location 信息（例如，HDFS 文件的 Block 所在 location 信息）有了上述特性，能够非常好地通过 RDD 来表达分布式数据集，并作为构建 DAG 图的基础：首先抽象一个分布式计算任务的逻辑表示，最终将任务在实际的物理计算环境中进行处理执行。

2019-05-14

1.3K0

大数据技术之_19_Spark学习_05_Spark GraphX 应用解析小结

数据结构 spark

========== Spark GraphX 概述 ========== 1、Spark GraphX是什么？（1）Spark GraphX 是 Spark 的一个模块，主要用于进行以图为核心的计算还有分布式图的计算。（2）GraphX 他的底层计算也是 RDD 计算，它和 RDD 共用一种存储形态，在展示形态上可以以数据集来表示，也可以图的形式来表示。

2019-05-14

8240

大数据技术之_19_Spark学习_04_Spark Streaming 应用解析 + Spark Streaming 概述、运行、解析 + DStream 的输入、转换、输出 + 优化

spark 数据库数据备份 sql 编程算法

Spark Streaming 类似于 Apache Storm，用于流式数据的处理。根据其官方文档介绍，Spark Streaming 有高吞吐量和容错能力强等特点。Spark Streaming 支持的数据输入源很多，例如：Kafka、Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象，如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等。另外 Spark Streaming 也能和 MLlib（机器学习）以及 Graphx 完美融合。

2019-05-13

1.8K0

大数据技术之_19_Spark学习_03_Spark SQL 应用解析小结

python spark hive 云数据库 SQL Server sql

========== Spark SQL ========== 1、Spark SQL 是 Spark 的一个模块，可以和 RDD 进行混合编程、支持标准的数据源、可以集成和替代 Hive、可以提供 JDBC、ODBC 服务器功能。

2019-05-10

1.4K0

大数据技术之_19_Spark学习_01_Spark 基础解析小结（无图片）

bash bash 指令 spark http ide

2、Spark Standalone 即独立模式 2.1、解压安装包到你安装的目录。 2.2、拷贝 conf 目录下的 slaves 文件，将 slave 节点的 hostname 写在文件中，每行一个。 2.3、拷贝 conf 目录下的 spark-env.sh 文件，将 SPARK_MASTER_HOST 和 SPARK_MASTER_PORT 指定。 2.4、分发你的 spark 安装目录到其他节点。 2.5、在 master 节点上执行 /opt/module/spark-2.1.1-bin-hadoop2.7/sbin/start-all.sh 来启动整个 spark 集群。 2.6、在浏览器中访问 http://hadoop102:8080 来访问你的 spark 集群注意：如果在启动的时候出现 JAVA_HOME not set 那么可以在 sbin 目录下的 spark-config.sh 文件中输入 export JAVA_HOME=/opt/module/jdk1.8.0_144 然后分发到其他节点，这样问题即可解决。

2019-05-07

6580

大数据技术之_19_Spark学习_01_Spark 基础解析 + Spark 概述 + Spark 集群安装 + 执行 Spark 程序

spark hadoop shell bash bash 指令

Spark 是一种快速、通用、可扩展的大数据分析引擎，2009 年诞生于加州大学伯克利分校 AMPLab，2010 年开源，2013 年 6 月成为 Apache 孵化项目，2014 年 2 月成为 Apache 顶级项目。项目是用 Scala 进行编写。目前，Spark生态系统已经发展成为一个包含多个子项目的集合，其中包含 SparkSQL、Spark Streaming、GraphX、MLib、SparkR 等子项目，Spark 是基于内存计算的大数据并行计算框架。除了扩展了广泛使用的 MapReduce 计算模型，而且高效地支持更多计算模式，包括交互式查询和流处理。Spark 适用于各种各样原先需要多种不同的分布式平台的场景，包括批处理、迭代算法、交互式查询、流处理。通过在一个统一的框架下支持这些不同的计算，Spark 使我们可以简单而低耗地把各种处理流程整合在一起。而这样的组合，在实际的数据分析过程中是很有意义的。不仅如此，Spark 的这种特性还大大减轻了原先需要对各种平台分别管理的负担。大一统的软件栈，各个组件关系密切并且可以相互调用，这种设计有几个好处： 1、软件栈中所有的程序库和高级组件都可以从下层的改进中获益。 2、运行整个软件栈的代价变小了。不需要运行 5 到 10 套独立的软件系统了，一个机构只需要运行一套软件系统即可。系统的部署、维护、测试、支持等大大缩减。 3、能够构建出无缝整合不同处理模型的应用。 Spark 的内置项目如下：

2019-05-07

9380

大数据技术之_19_Spark学习_02_Spark Core 应用解析小结

spark hadoop 编程算法数据库数据结构

1、RDD 全称弹性分布式数据集 Resilient Distributed Dataset 它就是一个 class。

2019-04-27

6400

没有更多了

社区活动

腾讯技术创作狂欢月

“码”上创作 21 天，分 10000 元奖品池！

Python精品学习库

代码在线跑，知识轻松学

博客搬家 | 分享价值百万资源包

自行/邀约他人一键搬运博客，速成社区影响力并领取好礼

技术创作特训营·精选知识专栏

往期视频·千货材料·成员作品最新动态