首页
学习
活动
专区
工具
TVP
发布

Coding迪斯尼

专栏成员
322
文章
283922
阅读量
97
订阅数
大数据下的高级算法:hyperloglog,统计海量数据下不同元素的个数
如果你被面试到redis,通常对方会问你用过什么数据结构,如果你说使用过hyperloglog那绝对是个加分项,因为对方知道你正在处理基于海量数据和高并发下的问题。上一节我们使用min-count-sketch 算法统计了海量数据下给定元素的重复次数,而hyperloglog正好反过来,它统计整个数据集中不同元素的个数。
望月从良
2023-02-26
5530
自己动手写数据库:实现数据库表的元数据管理
数据库需要管理很多元数据,所谓元数据就是用来描述数据表结构信息的数据。例如在mysql中使用show tables命令,它会把所有表的名称显示出来,这里数据库表的名称就属于元数据。我们要实现的元数据管理包含四部分,分别为表元数据管理,视图元数据管理,索引元数据管理,和统计相关元数据管理。
望月从良
2023-02-26
4190
自己动手写编译器:使用NFA状态机识别字符串
在前面章节中我们构建了NFA状态机,现在我们看看如何使用它来识别给定字符串是否合法。首先我们先构造如下正则表达式对应的NFA,在input文件的表达式部分输入:
望月从良
2022-12-02
7280
自己动手写数据库:实现表扫描
在上一节我们实现了记录管理,本节我们看看记录的读取实现,也就是所谓的表扫描。我们将实现一个名为TableScan的类,它把表的记录当做数组来读取,通过挪到一个记录指针来遍历表的记录,它的作用类似于cursor。我们实现这个类的目的是增加一层抽象,前面我们实现的RecordPage暴露很多底层信息,例如记录的数据格式,区块号等,我们通过这个类将这些底层信息隐藏起来,通过它来读写记录可以避开对区块号,存储页面等底层对象。
望月从良
2022-12-02
3440
自己动手写编译器:从正则表达式到NFA状态机
在编译器开发中有两个非常重要的工具名为lex和yacc,他们是编译器的生成器。本质上我们不需要一行行去完成编译器的代码,只需要借助这两个工具,同时制定好词法解析和语法解析的规则后,这两个工具就会自动帮我们把代码生成,我们后续的任务就是使用go语言将这两个工具实现。
望月从良
2022-12-02
1.1K0
己动手写编译器:GoLex程序的基本情况介绍
本节我们的目的是,在给定正则表达式后,将其转换为非确定性有限状态自动机数据结构,后者会进一步生成一个跳转表,从而实现字符串匹配的功能。我们首先看输入,输入是一个后缀名为lex的文件,基本内容如下:
望月从良
2022-12-02
4170
自己动手写编译器:汤普森构造法
上节我们描述了正则表达式的规则,有过一些编程经验的同学或许都用过正则表达式功能,通常使用它来检验特定格式的字符串,例如检验输入的邮箱是否合法等。当然大多数时候我们只要“调用”即可,但对于要做编译器而言,我们必须自己实现正则表达式引擎的功能。
望月从良
2022-12-02
8160
自己动手写编译器:实现else语句块的中间代码生成
前面几节我们完成了if语句以及判断条件成立时代码对应的中间代码生成,这次我们完成最后一笔,那就是针对else部分代码完成相应的中间代码生成。本质上这一步比较简单,它会在原来if语句中间代码的基础上稍作修改即可,我们先看看这次我们要编译的代码内容:
望月从良
2022-06-21
4220
脑子要烧坏了:使用manache算法查找最长回文子字符串
在面试算法题中,字符串是经常出现的类型。而字符串类型中回文出镜率相当高,在查找回文的问题中出现了一系列相当烧脑但却又精彩纷呈,非常值得研究和欣赏的算法,我们这次研究的mamache算法就是一例。它设计巧妙,而且效率很高,研究它能让人有一种回味无穷的感觉。
望月从良
2022-06-21
6250
自己动手写编译器:实现if判断中“||“和“&&“条件判断的中间代码生成
上一节我们完成了if条件判断语句的中间代码生成,我们看到针对if语句的生成代码,我们针对if 条件满足时所要执行的代码赋予了一个跳转标签,同时对if(){…} 右边大括号后面的代码也赋予一个跳转标签,这样我们就能根据if条件判断成立与否进行跳转。
望月从良
2022-06-21
7200
NodeJS深度探秘:通过爬虫用例展示callback hell的处理方法以及高并发编程的几个有效模式
高并发和异步模式往往需要支持一种机制,那就是消息模式。当某个情况发送或是某种状态改变时,系统需要通知所有关注者,让他们及时进行处理,于是系统就会发送一个特定消息,所有监听该消息的对象在信号发出后,他们的处理函数会得到相应的调用,这种做法也是典型的观察者模式,消息机制在NodeJS程序设计中有着非常重要且广泛的作用。
望月从良
2022-06-21
6560
Nodejs深度探秘:event loop的本质和异步代码中的Zalgo问题
Nodejs是一个高效的异步服务平台,因此非常适合于开发高并发的后台服务。要满足高并发,后台服务需要做到的是能够及时响应客户端发送过来的请求。这里要注意的是”响应“而不是”完成“,客户端可能要求后台从数据库查询特定数据,后台接收请求后会告诉客户端”你的要求我收到而且正在处理,当我处理完成了再通知你”。由此NodeJS能完成高并发的原因在于,它会将那些耗时长的处理提交给线程池处理,它的主线程则一直响应客户端的请求,等到线程池把耗时久的任务完成,主线程拿到结果后再发送给对应的客户。
望月从良
2022-06-21
1.3K0
nodejs探秘:require加载模块的原理及代码实现
最近因为项目需要使用nodejs,因此不得不对其进行学习研究。一番深入后发现,nodejs除了好用,作为后台效率非常高之外,它自身的设计堪称精妙。我们都知道学习的一种有效方式就是看牛逼人物是怎么打造牛逼作品,而nodejs作为极为极为成功的后台系统,要不是有着高超精彩的设计和实现就不会有如此成就,倘若我们能吃透其设计原理和思路,那么我们成不了大师但成为小师,让自己的技术更上一层楼不成问题。
望月从良
2022-06-21
8920
自己动手写数据库系统:容灾恢复原理和容灾恢复日志的设计
数据库系统有一个极其重要的功能,那就是要保持数据一致性。在用户往数据库写入数据后,如果数据库返回写入成功,那么数据就必须永久性的保存在磁盘上。此外作为一个系统,它必须具备自恢复功能,也就是如果系统出现意外奔溃,无论是内部错误,还是外部原因,例如突然断电等,系统都必须要保持数据的一致性。
望月从良
2022-06-21
9570
大厂算法面试:使用移动窗口查找两个不重叠且元素和等于给定值的子数组
根据”老朽“多年在中国IT业浸淫的经验,我发现无论大厂还是小厂,其算法面试说难也不难。难在于算法面试的模式都是在给定网站上做算法题,90分钟做三道。我自认个人水平在平均线以上,但通过多次尝试发现,要在90分钟内完成给定算法题非常困难,这还是在我有过多年算法训练的基础上得出的结论,特别是这些题目往往有一些很不好想到的corner case,使得你的代码很难快速通过所有测试用例,我们今天要研究的题目就属于有些特定情况不好处理的例子。此外“不难”在于,很多公司的面试算法题其特色与整个行业类似,那就是缺乏原创,中国公司90%以上的面试算法题全部来自Leetcode,因此刷完后者,甚至把后者那五百多道题”背“下来,你基本上能搞定,国内仿造hackerrank的牛X网,其题目就是这个特点。
望月从良
2022-04-27
1.6K0
动手写编译器:手动构造语法树,驱动中间代码生成
在前面章节中我们给出了语法解析树对应节点的设计,这些节点能够针对其内容完成中间代码的输出,这一节我们继续完善必要节点的设计,然后手动构造语法树,并驱动语法树实现中间代码生成。
望月从良
2022-04-27
3530
从一道算法面试题看我国信息科技的原创性不足:查找包含所有元素的最短子数组
前不久我遇到这样一道算法面试题:在一个包含重复元素的数组中,找到一个最短子数组,要求该子数组包含了整个数组的所有元素,例如给定数组:7, 3, 7, 3, 1, 3, 4, 1,包含所有元素的最短子数组为 7, 3, 1, 3, 4。
望月从良
2022-04-27
6530
自己动手写编译器:通过语法编译构建语法树并实现中间代码生成
上一节我们手动构造了语法树,然后调用各个节点实现中间代码生成。语法树的构建由语法解析完成,本节我们要完成语法解析逻辑,在语法解析过程中构造语法树,然后再像上一节那样实现中间代码生成。
望月从良
2022-04-27
8190
自己动手写编译器:中间代码生成1
我们到了简单编译器开发的最后一个阶段,也就是生成中间代码。以前我们提到过编译器分为两部分,分别为前端和后端,所谓前端就是将代码转译成中间语言,后端负责进行优化和转译成目标平台的机器指令,现在我们来到了前端的最后一个阶段。由于中间代码生成是当前所有阶段中逻辑最为复杂的部分,因此我们需要将其分解成多个容易理解的小部分,逐个击破。我们的计划是这样,首先完成比较简单的代码的中间代码生成,然后不断提升目标代码的复杂度,然后生成更加复杂的中间代码。
望月从良
2022-04-27
6860
自己动手写编译器:符号表及其实现
大家如果对c, c++, java有所了解,那么就会知道作用域这个概念。所谓作用域就是变量在一个范围内起作用,一旦出了既定范围,那么它就会失效。c,c++,java用{表示作用域的起始,用}表示作用域的结束。内层作用域的变量会覆盖上一层作用域的变量。例如在上面代码中最外层定义了两个变量,分别是int类型的x,和char类型的y,在内层作用域又定义了一个bool类型的同名变量y,它会覆盖外面的char类型y,在内层作用域访问y时,我们访问的是类型为bool的y,但由于内层作用域没有定义x,因此访问x时,它对应外层作用域的x,因此我们的任务是识别作用域,同时解析出变量在不同作用域中对应的类型。
望月从良
2022-04-27
9320
点击加载更多
社区活动
【纪录片】中国数据库前世今生
穿越半个世纪,探寻中国数据库50年的发展历程
Python精品学习库
代码在线跑,知识轻松学
博客搬家 | 分享价值百万资源包
自行/邀约他人一键搬运博客,速成社区影响力并领取好礼
技术创作特训营·精选知识专栏
往期视频·千货材料·成员作品 最新动态
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档