首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏成员
751
文章
642528
阅读量
35
订阅数
大数据物流项目:Kudu 入门使用(五)
KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则,如下图:
Maynor
2022-11-30
1.1K0
实时即未来,车联网项目之车辆驾驶行为分析【五】
引入 guava 库中的Lists类,创建一个可变的包含给定元素的ArrayList示例
Maynor
2022-10-04
7650
一图胜千言:大数据入门必备的16张数据流转图(建议收藏)
以上便是本码农总结的15张大数据开发必背的数据流转图,有事没事拿出来看一看,潜移默化自然就记下来了~
Maynor
2022-05-08
4.2K0
大数据系列思考题
个人理解: hdfs启动流程 hdfs是Hadoop Distribute File System 的简称,即分布式文件系统,用于存储海量数据. hdfs的启动分为三步:1.启动Namenode;2.启动Datanode;3.启动Secondary Namenode; 详细说说: Secondary NameNode的工作流程:(为了方便Secondary NameNode以SN替代,NameNode)首先SN通知NN切换成edits文件; NN中的edits和fsimage通过http的方式传输到SN,并在SN中合并成新的fsimage.ckpt,之后传输回NN,并将旧的fsimage替换; NN中的edits生成新的edits文件并替换旧的edits
Maynor
2022-05-08
4520
分布式NoSQL列存储数据库Hbase(六)
step1:如果表在Hbase中没有,Hive中没有,在Hive中创建表,指定在Hbase中创建关联表
Maynor
2022-02-28
3K0
❤️大数据开发必备:推荐7款大数据开发神器工作效率提升1000%【推荐收藏】
manor学习大数据开发满打满算也有一年了,其中也发现不少好用的大数据开发提升效率的软件,推荐给刚入门/入行的你:
Maynor
2022-02-25
9950
用户画像标签系统体系解释
1)、标签数据 标签管理平台中,每个标签开发时,首先需要在管理平台上注册(新建标签:4级标签和5级标签) 业务标签和属性标签 业务标签对应标签模型,每个标签模型就是Spark Application,运行程序可以给用户打上标签:TagName 模型表中存储数据:spark application运行时参数设置核心数据: tagName -> tagRule:标签规则
Maynor
2022-02-24
1.5K0
Spark Day05:Spark Core之Sougou日志分析、外部数据源和共享变量
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-sRu202yb-1644834575572)(/img/image-20210423150750606.png)]
Maynor
2022-02-17
9771
学了1年大数据,来测测你大数据技术掌握程度?大数据综合复习之面试题15问(思维导图+问答库)
时隔一年,终于把主流的大数据组件全部学完了,学成之时,便是出师之日, 那为师便来考考你学的如何:
Maynor
2021-12-30
3630
Hbase的javaAPI
(这里的方法在运行的时候要开启Hbase集群服务) 启动HBase 由于伪分布式下的 HBase 依赖 HDFS ,因此我们需要先启动 HDFS :
Maynor
2021-12-20
3590
【秋招面试】货拉拉面试(1面过程)
下面是面试题: 由于我准备面试时大部分的项目准备是围绕数据仓库开发准备的, 而我面试的是货拉拉的大数据开发岗, 所以整个面试过程面试官也在反复和我确认到底是面试应用开发还是数仓开发。。。
Maynor
2021-12-07
5440
【秋招面试】面试准备(一面准备)
实际上算法这块我还是个菜狗 没办法机会难得,不知道下次能不能这么走运 只能硬着头皮上了……!
Maynor
2021-12-07
3830
Hadoop(HDFS+MapReduce+Hive+数仓基础概念)学习笔记(自用)
文件中有两个配置,删除其中任意一个,修改剩下的一个配置将address改为系统新分配的mac地址,将NAME改成eth0,保存退出
Maynor
2021-12-07
8980
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day12】——Hbase6
•step1:数据写入的时候,只写入内存 •step2:将数据在内存构建有序,当数据量大的时候,将有序的数据写入磁盘,变成一个有序的数据文件 •step3:基于所有有序的小文件进行合并,合并为一个整体有序的大文件
Maynor
2021-12-07
1730
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day13】——Hbase7
•MapReduce写入Hbase原理:封装了一个TableOutputFormat来实现写入Hbase的数据 •要求 –写入Hbase的数据的V的类型必须为Put类型
Maynor
2021-12-07
2860
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day11】——Hbase5
•创建全局索引,会自动构建一张索引表 •索引表结构 –Rowkey:索引字段+原表的rowkey –列:占位置x •特点:如果查询字段或者查询条件不是索引字段,就不会走索引 •应用:适合于读多写少
Maynor
2021-12-07
1780
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day10】——Hbase4
•个数原则:如果列的个数比较多,建议2 ~ 3个,如果列的个数比较少,建议1个 –列族个数多了,导致比较次数变多,降低性能 –列族个数少了,导致列的比较次数变多,降低性能 •长度原则 :能满足业务需求的情况下,越短越好
Maynor
2021-12-07
2170
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day08】——Hbase2
•Hive是通过构建元数据,映射HDFS文件构建成表,本质还是HDFS,实现离线大数据仓库 •Hbase是通过构建上层分布式内存,底层HDFS,实现大数据实时存储的NoSQL数据库
Maynor
2021-12-07
3330
大数据开发岗面试复习30天冲刺 - 日积月累,每日五题【Day07】——Hbase1
•功能:Hbase是一个分布式的、基于分布式内存和HDFS的按列存储的NoSQL数据库 •应用:Hbase适合于需要实时的对大量数据进行快速、随机读写访问的场景
Maynor
2021-12-07
2190
分布式实时消息队列Kafka(一)
分布式实时消息队列Kafka(一) 知识点01:课程回顾 Hbase是什么? 分布式基于内存按列存储NoSQL数据库,用于实时、随机读写大量的数据 Hbase的设计思想是什么? 冷热数据分离 热数据:大概可能被使用的数据,新产生的数据 写入内存 冷数据:小概率被读取的数据,产生一段时间的数据 写入磁盘 什么是列族,为什么要设计列族? 列族就是对列进行分组存储 Hbase是一个按列存储的数据库,每张表可以存储上百万列 如果对列做了分组,加快数据读取的速度 Hbase
Maynor
2021-12-07
1K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档