首页
学习
活动
专区
工具
TVP
发布

JavaEdge

关注公众号:JavaEdge,加入全国最大的后端交流群。
专栏成员
2499
文章
2703973
阅读量
182
订阅数
03-SparkSQL入门
Spark 的一个组件,用于大规模数据分析的 SQL 查询引擎。Shark 提供了一种基于 SQL 的交互式查询方式,可以让用户轻松地对大规模数据集进行查询和分析。Shark 基于 Hive 项目,使用 Hive 的元数据存储和查询语法,并基于Hive进行了性能优化和扩展。
JavaEdge
2024-05-26
1150
01-Spark的Local模式与应用开发入门
Spark 运行模式之一,用于在本地机器上单机模拟分布式计算的环境。在 local 模式下,Spark 会使用单个 JVM 进程来模拟分布式集群行为,所有 Spark 组件(如 SparkContext、Executor 等)都运行在同一个 JVM 进程中,不涉及集群间通信,适用本地开发、测试和调试。
JavaEdge
2024-05-26
1530
轻松驾驭Hive数仓,数据分析从未如此简单!
直接与文件系统交互,仅是Spark SQL数据应用常见case之一。Spark SQL另一典型场景是与Hive集成、构建分布式数仓。
JavaEdge
2023-10-17
3980
Spark Sreaming实战(一)-教程概述
1 实战目标 至今实战教程的访问量 至今从搜索引擎引流过来的实战教程的访问量 2 实战流程 📷 3 可视化显示 使用Spring Boot整合Echarts 阿里云DataV数据可视化框架 4 教程概要 📷 5 计划 整合Flume、Kafka、 Spark Streaming打造通用的流处理平台基础 Spark Streaming项目实战 数据处理结果可视化 拓展 6 预备知识 熟悉Linux基本命令 熟悉Scala、Python、 Java中的任何一门编程语言 有Hadoop和Spark基础 7 环境
JavaEdge
2022-11-30
4780
Spark Sreaming实战(二)-小试流式处理
地域: ip转换 Spark SQL项目实战 客户端:useragent获取 Hadoop基础教程
JavaEdge
2022-11-30
3270
关注专栏作者,随时接收最新技术干货
JavaEdge
华为软件开发工程师
ALS算法解析
Spark平台推出至今已经地带到2.4.x版本,很多地方都有了重要的更新,加入了很多新的东西。 但是在协同过滤这一块却一直以来都只有ALS一种算法。 同样是大规模计算平台,Hadoop中的机器学习算法库Mahout就集成了多种推荐算法,不但有user-cf和item-cf这种经典算法,还有KNN、SVD,Slope one这些,可谓随意挑选,简繁由君。 我们知道得是,推荐系统这个应用本身并没有过时,那么Spark如此坚定地只维护一个算法,肯定是有他的理由的,让我们来捋一捋。
JavaEdge
2022-11-30
7690
Spark机器学习实战 (十一) - 文本情感分类项目实战
将结合前述知识进行综合实战,以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联,使大家能够对Spark的具体应用有一个整体的感知与了解。
JavaEdge
2022-11-30
8180
基于Spark的机器学习实践 (十) - 降维
通过讲解PCA算法的原理,使大家明白降维算法的大致原理,以及能够实现怎么样的功能。结合应用降维算法在分类算法使用之前进行预处理的实践,帮助大家体会算法的作用。
JavaEdge
2022-11-30
3380
基于Spark的机器学习实践 (七) - 回归算法
◆ 在回归分析中,自变量与因变量之间满足或基本满足线性关系,可以使用线性模型进行拟合
JavaEdge
2022-11-30
9210
基于Spark的机器学习实践 (九) - 聚类算法
◆ 计算每个样本与聚类中心的距离,样本选择最近的聚类中心作为其 类别;重新选择聚类中心
JavaEdge
2022-11-30
5990
基于Spark的机器学习实践 (六) - 基础统计模块
◆ Spark 的基础统计模块即MLlib组件中的Basic Statistics部分
JavaEdge
2022-11-30
4390
Spark安装及启动(Mac环境)
scala语言编写,提供多种语言接口,需要JVM。官方为我们提供了Spark 编译好的版本,可以不必进行手动编译。
JavaEdge
2022-11-30
1.1K0
Spark安装及启动(Mac环境)
scala语言编写,提供多种语言接口,需要JVM。官方为我们提供了Spark 编译好的版本,可以不必进行手动编译。
JavaEdge
2022-11-30
1.1K0
基于Spark的机器学习实践 (二) - 初识MLlib
MLlib是Spark的机器学习(ML)库。 其目标是使实用的机器学习可扩展且简单。 从较高的层面来说,它提供了以下工具:
JavaEdge
2022-11-30
2.7K0
毕业设计之基于协同过滤算法的电影推荐系统设计(一) - 项目简介
由于本人今年毕业,为完成毕设特地想着实现一个简单的推荐系统设计,思来想去,小电影不就是很好的切入点嘛! 于是诞生该项目,将会一步步带着大家实现一个自己的电影推荐系统.
JavaEdge
2022-11-30
1K0
Hive 到底有什么用?
MapReduce简化大数据编程难度,但对经常需大数据计算的人,如从事研究BI的数据分析师,他们通常使用SQL进行大数据分析和统计,MapReduce编程还是有门槛。且若每次统计和分析都开发相应MapReduce程序,成本确实太高。
JavaEdge
2022-11-28
1.5K0
大数据技术学习带来的思考
最基本的存储技术。日常应用把通过各种渠道得到的数据,如关系数据库、日志、埋点、爬虫数据都存储到HDFS,供后续使用。
JavaEdge
2022-04-27
2990
Kafka实战(三) -Kafka的自我修养
随着Kafka的不断完善,Jay等大神们终于意识到将其开源惠及更多的人是一个非常棒的主意,因此在2011年Kafka正式进入到Apache基金会孵化并于次年10月顺利毕业成为Apache顶级项目。
JavaEdge
2019-08-25
8281
Spark机器学习实战 (十一) - 文本情感分类项目实战
将结合前述知识进行综合实战,以达到所学即所用。文本情感分类这个项目会将分类算法、文本特征提取算法等进行关联,使大家能够对Spark的具体应用有一个整体的感知与了解。
JavaEdge
2019-04-19
1.2K0
基于Spark的机器学习实践 (七) - 回归算法
◆ 在回归分析中,自变量与因变量之间满足或基本满足线性关系,可以使用线性模型进行拟合
JavaEdge
2019-04-15
2.1K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档