首页
学习
活动
专区
工具
TVP
发布

最新最全的大数据技术体系

专栏成员
751
文章
646209
阅读量
35
订阅数
数据结构填空题专项.docx
4. 在包含 n 个元素的顺序表中删除一个元素,需要平均移动 (n-1)/2 个元素,其中具体移动的元素个数与 所删除元素索引 有关。
Maynor
2024-05-26
530
数据结构基础题复习
分析:看下图,表中每一行(相当于结点中每一个结点)就是一个数据元素;数据元素中的每一项,比如张三的数学分析是90分就是一个数据项;整个表格是一个数据对象,它代表的都是学生的信息(具有相同性质的数据元素的集合)。
Maynor
2024-05-26
980
基于内存的分布式NoSQL数据库Redis(二)数据结构与通用命令
Key:StringValue类型Value值应用场景pv_20200101String10000一般用于存储单个数据指标的结果person001Hashname:laoer age : 20 sex female用于存储整个对象所有属性值uvList{100,200,300,100,600}有序允许重复的集合,每天获取最后一个值uv_20200101Set{userid1,userid2,userid3,userid4……}无序且不重复的集合,直接通过长度得到UVtop10_productZSet【score,element】{10000-牙膏,9999-玩具,9998-电视……}有序不可重复的集合,统计TopNuser_filterBitMap{0101010101010000000011010}将一个字符串构建位,通过0和1来标记每一位product_20200101HypeLogLog{productid1,id2……}类似于Set集合,底层实现原理不一样,数据量大的情况下,性能会更好,结果可能存在一定的误差
Maynor
2023-10-13
1520
【ES三周年】+Elasticsearch 在大数据的应用
作为一个开源的分布式全文搜索和分析引擎,Elasticsearch(以下简称ES)已经在不少企业应用中发挥了重要作用。ES最早是由Shay Banon于2010年创建,经过多年的发展,现已成为一个功能丰富、性能优越的大数据搜索引擎。本文将介绍ES的一些关键知识点、技术原理和操作实践,并结合Java代码示例进行讲解,以帮助开发者更好地了解和应用ES。
Maynor
2023-02-14
6900
大数据物流项目:Kudu 入门使用(五)
KUDU 支持用户对一个表指定一个范围分区规则和多个 Hash 分区规则,如下图:
Maynor
2022-11-30
1.1K0
实时即未来,车联网项目之电子围栏分析【六】
通过关联两个数据流后CoFlatMap 后生成实体类—— ElectricFenceModel
Maynor
2022-10-04
1.2K0
2021年最新最全Flink系列教程_Flink快速入门(概述,安装部署)(一)(JianYi收藏)
下面为大家带来阿里巴巴极度热推的Flink,实时数仓是未来的方向,学好Flink,月薪过万不是梦!!
Maynor
2022-05-08
4790
大数据繁荣生态圈组件之实时大数据Druid小传(二)Druid架构与原理
索引服务是数据摄入创建和销毁Segment的重要方式,Druid提供一组支持索引服务(Indexing Service)的组件,即Overlord和MiddleManager节点。
Maynor
2022-04-21
6090
Java大数据面试复习30天冲刺 - 日积月累,每日五题【Day02】——JavaSE
数组: 数组是最常用的数据结构,数组的特点是长度固定,可以用下标索引,并且所有的元素的类型都是一致的。数组常用的场景有:从数据库里读取雇员的信息存储为EmployeeDetail[ ];把一个字符串转换并存储到一个字节数组中便于操作和处理等等。尽量把数组封装在一个类里,防止数据被错误的操作弄乱。另外,这一点也适合其他的数据结构。 列表: 列表和数组很相似,只不过它的大小可以改变。列表一般都是通过一个固定大小的数组来实现的,并且会在需要的时候自动调整大小。列表里可以包含重复的元素。常用的场景有,添加一行新的项到订单列表里,把所有过期的商品移出商品列表等等。一般会把列表初始化成一个合适的大小,以减少调整大小的次数。 集合: 集合和列表很相似,不过它不能放重复的元素。 堆栈: 堆栈只允许对最后插入的元素进行操作(也就是后进先出,Last In First Out – LIFO)。如果你移除了栈顶的元素,那么你可以操作倒数第二个元素,依次类推。这种后进先出的方式是通过仅有的peek(),push()和pop()这几个方法的强制性限制达到的。 队列: 队列和堆栈有些相似,不同之处在于在队列里第一个插入的元素也是第一个被删除的元素(即是先进先出)。这种先进先出的结构是通过只提供peek(),offer()和poll()这几个方法来访问数据进行限制来达到的。例如,排队等待公交车,银行或者超市里的等待列队等等,都是可以用队列来表示。 链表: 链表是一种由多个节点组成的数据结构,并且每个节点包含有数据以及指向下一个节点的引用,在双向链表里,还会有一个指向前一个节点的引用。例如,可以用单向链表和双向链表来实现堆栈和队列,因为链表的两端都是可以进行插入和删除的动作的。当然,也会有在链表的中间频繁插入和删除节点的场景。Apache的类库里提供了一个TreeList的实现,它是链表的一个很好的替代,因为它只多占用了一点内存,但是性能比链表好很多。也就是说,从这点来看链表其实不是一个很好的选择。
Maynor
2022-03-28
3200
2022年Flink面试题整理
Flink 是一个框架和分布式处理引擎,用于对无界和有界数据流进行有状态计算。并且 Flink 提供了数据分布、容错机制以及资源管理等核心功能。Flink提供了诸多高抽象层的API以便用户编写分布式任务: DataSet API, 对静态数据进行批处理操作,将静态数据抽象成分布式的数据集,用户可以方便地使用Flink提供的各种操作符对分布式数据集进行处理,支持Java、Scala和Python。 DataStream API,对数据流进行流处理操作,将流式的数据抽象成分布式的数据流,用户可以方便地对分布式数据流进行各种操作,支持Java和Scala。 Table API,对结构化数据进行查询操作,将结构化数据抽象成关系表,并通过类SQL的DSL对关系表进行各种查询操作,支持Java和Scala。 此外,Flink 还针对特定的应用领域提供了领域库,例如: Flink ML,Flink 的机器学习库,提供了机器学习Pipelines API并实现了多种机器学习算法。 Gelly,Flink 的图计算库,提供了图计算的相关API及多种图计算算法实现。
Maynor
2022-03-28
2.7K0
Spark Day06:Spark Core之Spark 内核调度和SparkSQL快速入门
ShuffleMapTask要进行Shuffle,ResultTask负责返回计算结果,一个Job中只有最后的Stage采用ResultTask,其他的均为ShuffleMapTask。
Maynor
2022-02-17
8210
正则表达式小结
正则表达式:正确规则的表达式 boolean matches(String regex) 当前字符串是否匹配给定的正则表达式 String replaceAll(String regex,String replacement) 使用 replacement 替换当前字符串中所有符号正则表达式的内容 String[] split(String regex) 根据给定的正则表达式拆分当前字符串 注意: .的正则写法必须为\. 正则表达式 规则 规则: x 含义:代表的是字符 x 规则: \\ 含义:代表的是斜线字符’\’ 规则: \t 含义:制表符 规则: \n 含义:换行符 规则: \r 含义:回车符 规则: [abc] 含义:代表的是字符 a、 b 或 c 规则: [^abc] 含义:代表的是除了 a、 b 或 c 以外的任何字符 规则:[a-zA-Z] 含义:代表的是 a 到 z 或 A 到 Z,两头的字母包括在内 规则:[0-9] 含义:代表的是 0 到 9 数字,两头的数字包括在内 规则:[a-zA-Z_0-9]含义:代表的字母或者数字或者下划线(即单词字符) 规则: . 含义:代表的是任何字符 规则: \d 含义:相当于[0-9]。代表的是 0 到 9 数字, 0 和 9 包括在内。 规则: \w 含义:相当于[a-zA-Z_0-9]。 代表的字母或者数字或者下划线
Maynor
2021-12-27
2940
Mysql高级
1.中央处理器(英文Central Processing Unit,CPU)是一台计算机的运算核心和控制核心。CPU、内部存储器和输入/输出设备是电子计算机三大核心部件。其功能主要是解释计算机指令以及处理计算机软 件中的数据。 CPU核心组件: 1.算术逻辑单元(Arithmetic&logical Unit)是中 央处理器(CPU)的执行单元,是所有中央处理器的核 心组成部分,由"And Gate"(与门) 和"Or Gate"(或门)构成的算术逻辑单元,主要功能是进行二位元的算术运算,如加减乘(不包括整数除法)。 2.PC:负责储存内存地址,该地址指向下一条即将执行的指令,每解释执行完一条指令,pc寄存器的值 就会自动被更新为下一条指令的地址。 3.寄存器(Register)是CPU内部的元件,所以在寄存器之间的数据传送非常快。 用途:1.可将寄存器内的数据执行算术及逻辑运算。 2.存于寄存器内的地址可用来指向内存的某个位置,即寻址。 3.可以用来读写数据到电脑的周边设备。4.Cache:缓存
Maynor
2021-12-27
4280
复杂度分析(算法训练营开课准备笔记)
其实,只要讲到数据结构与算法,就一定离不开时间、空间复杂度分析。而且,我个人认为,复杂度分析是整个算法学习的精髓,只要掌握了它,数据结构和算法的内容基本上就掌握了一半。
Maynor
2021-12-07
2600
2021年最新最全Flink系列教程__Flink高级API(三)
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-znYxlAeB-1624261970363)(assets/image-20210507151242102.png)]
Maynor
2021-12-07
5020
2021年最新最全Flink系列教程_Flink原理初探和流批一体API(二.五)
day02-03_流批一体API 今日目标 流处理原理初探 流处理概念(理解) 程序结构之数据源Source(掌握) 程序结构之数据转换Transformation(掌握) 程序结构之数据落地Sink(掌握) Flink连接器Connectors(理解) 流处理原理初探 Flink的角色分配 JobMaster 老大, 主要负责 集群的管理, 故障的恢复, checkpoint 检查点设置 taskmanager worker 小弟, 具体负责任务的执行节点 cli
Maynor
2021-12-07
5060
Java知识面试题复习(六)集合容器概述
集合框架是为表示和操作集合而规定的一种统一的标准的体系结构。 任何集合框架都包含三大块内容:对外的接口、接口的实现和对集合运算的算法。
Maynor
2021-12-07
6510
[Spark精进]必须掌握的4个RDD算子之filter算子
在今天的最后,我们再来学习一下,与 map 一样常用的算子:filter。filter,顾名思义,这个算子的作用,是对 RDD 进行过滤。就像是 map 算子依赖其映射函数一样,filter 算子也需要借助一个判定函数 f,才能实现对 RDD 的过滤转换。所谓判定函数,它指的是类型为(RDD 元素类型) => (Boolean)的函数。可以看到,判定函数 f 的形参类型,必须与 RDD 的元素类型保持一致,而 f 的返回结果,只能是 True 或者 False。在任何一个 RDD 之上调用 filter(f),其作用是保留 RDD 中满足 f(也就是 f 返回 True)的数据元素,而过滤掉不满足 f(也就是 f 返回 False)的数据元素。老规矩,我们还是结合示例来讲解 filter 算子与判定函数 f。在上面 flatMap 例子的最后,我们得到了元素为相邻词汇对的 wordPairRDD,它包含的是像“Spark-is”、“is-cool”这样的字符串。为了仅保留有意义的词对元素,我们希望结合标点符号列表,对 wordPairRDD 进行过滤。例如,我们希望过滤掉像“Spark-&”、“|-data”这样的词对。掌握了 filter 算子的用法之后,要实现这样的过滤逻辑,我相信你很快就能写出如下的代码实现:
Maynor
2021-12-07
1.4K0
Note_Spark_Day08:Spark SQL(Dataset是什么、外部数据源、UDF定义和分布式SQL引擎)
​ Spark 框架从最初的数据结构RDD、到SparkSQL中针对结构化数据封装的数据结构DataFrame, 最终使用Dataset数据集进行封装,发展流程如下。
Maynor
2021-12-07
4K0
手把手教你完成第一个JS项目:用简单到极致的贪吃蛇游戏熟悉JS语法
贪吃蛇被业内视为真正意义上的第一款手机游戏,玩法简单到极致,随着诺基亚手机的流行风靡一时!在本次课程中我们采用Pixelbox.js这个框架进行开发,其核心是数据模型及渲染。通过贪吃蛇的开发,我们将对JS的语法更加的熟悉,同时学习如何把一个需求给分解成具体的开发步骤,培养你做项目的思维。
Maynor
2021-07-08
1.1K0
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档