首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏成员
751
文章
643647
阅读量
35
订阅数
机器学习(一)Spark机器学习基础
大数据框架实现基础的数据存储和数据计算,如果从大量的数据中发现和挖掘出有价值的信息,需要借助机器学习算法,结合数据,构建机器学习模型实现对现实事件的预测。不同于以往的硬编码规则的方式,机器学习是通过机器学习算法发现或挖掘出数据中存在的规律或模式。
Maynor
2023-10-13
2230
Python大数据之PySpark(三)使用Python语言开发Spark程序代码
需求:[(‘Spark’, 2), (‘Flink’, 1), (‘hello’, 3), (‘you’, 1), (‘me’, 1), (‘she’, 1)]
Maynor
2023-09-29
4520
【已解决】Caused by: org.apache.spark.SparkException: Python worker failed to connect back.
TypeError: ‘JavaPackage’ object is not callable
Maynor
2023-09-28
8540
Hudi数据湖技术引领大数据新风口(三)解决spark模块依赖冲突
修改了Hive版本为3.1.2,其携带的jetty是0.9.3,hudi本身用的0.9.4,存在依赖冲突。
Maynor
2023-07-28
2520
学习笔记:StructuredStreaming入门(十二)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-6wtQxLP6-1626354186973)(/img/image-20210506154426999.png)]
Maynor
2022-11-30
1.7K0
工作常用之Spark调优【二】资源调优
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-11-28
5360
工作常用之Spark调优【一】
Spark 3.0 大版本发布, Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ,成
Maynor
2022-11-28
4130
工作常用之Spark调优[二】资源调优
先设定单个 Executor 核数,根据 Yarn 配置得出每个节点最多的 Executor 数量,每个节
Maynor
2022-09-27
7360
工作常用之Spark调优一】
Spark 3.0 大版本发布, Spark SQL 的优化占比将近 50% 。 Spark SQL 取代 Spark Core ,成
Maynor
2022-09-27
4630
物流项目中SparkSQL的相关调优
实时ETL开发之流计算程序【编程】 编写完成从Kafka消费数据,打印控制台上,其中创建SparkSession实例对象时,需要设置参数值。 package cn.itcast.logistics.etl.realtime import cn.itcast.logistics.common.Configuration import org.apache.commons.lang3.SystemUtils import org.apache.spark.SparkConf import org.apa
Maynor
2022-05-10
5430
【Spark】 Spark的基础环境 Day03
​ 当Spark Application运行到YARN上时,在提交应用时指定master为yarn即可,同时需要告知YARN集群配置信息(比如ResourceManager地址信息),此外需要监控Spark Application,配置历史服务器相关属性。
Maynor
2022-05-08
4670
Spark的常用算子大总结
作用:返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成 2. 需求:创建一个1-10数组的RDD,将所有元素2形成新的RDD (1)创建 scala> var source = sc.parallelize(1 to 10) source: org.apache.spark.rdd.RDD[Int] = ParallelCollectionRDD[8] at parallelize at :24 (2)打印 scala> source.collect() res7: Array[Int] = Array(1, 2, 3, 4, 5, 6, 7, 8, 9, 10) (3)将所有元素2 scala> val mapadd = source.map(_ * 2) mapadd: org.apache.spark.rdd.RDD[Int] = MapPartitionsRDD[9] at map at :26 (4)打印最终结果 scala> mapadd.collect() res8: Array[Int] = Array(2, 4, 6, 8, 10, 12, 14, 16, 18, 20)
Maynor
2022-05-08
1.3K0
Spark_Day07:Spark SQL(DataFrame是什么和数据分析(案例讲解))
在Spark中,DataFrame是一种以RDD为基础的分布式数据集,类似于传统数据库中的二维表格。 DataFrame与RDD的主要区别在于,前者带有schema元信息,即DataFrame所表示的二维表数据集的每一列都带有名称和类型。
Maynor
2022-05-08
2.5K0
Spark_Day01:Spark 框架概述和Spark 快速入门
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-4yHXs6Sp-1627098349792)(/img/image-20210419160056620.png)]
Maynor
2022-05-08
6040
Note_Logistics_Day01(客快物流项目概述及Docker入门)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-RadClEeU-1625444773065)(/img/1615516690862.png)]
Maynor
2022-05-08
4750
一图胜千言:大数据入门必备的16张数据流转图(建议收藏)
以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~
Maynor
2022-05-08
4.2K0
面试官嫌我Sql写的太low?要求我重写还加了三个需求?——二战Spark电影评分数据分析
这是我的上篇博文,当时仅是做了一个实现案例(demo级别 ),没想到居然让我押中了题,还让我稳稳的及格了(这次测试试卷难度极大,考60分都能在班上排进前10) 不过我在复盘的时候,发现自己的致命弱点:写sql的能力太菜了。。
Maynor
2022-05-08
4840
Spark综合练习——电影评分数据分析
全部数据: 链接:https://pan.baidu.com/s/1qiO9aRb7yQeuHDtH1cWklw 提取码:nwxj
Maynor
2022-05-08
1.5K0
大数据生态思维导图____2021最新最全Spark生态圈思维导图!
好了,本篇主要为大家带来的就是菜鸡博主为大家贡献的Spark的思维导图,剩余部分图片太大博客加载不了。
Maynor
2022-05-08
4490
Kylin 是什么?
Apache Kylin™是一个开源的、分布式的分析型数据仓库,提供Hadoop/Spark 之上的 SQL 查询接口及多维分析(OLAP)能力以支持超大规模数据,最初由 eBay 开发并贡献至开源社区。它能在亚秒内查询巨大的表。
Maynor
2022-03-28
6780
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档