数据库方面的面试技巧,如何从建表方面展示自己能力

        在面试java web方面的高级程序员时,我一定会问到 jave core,java web(比如Spring MVC,Hibernate等)和数据库相关问题。在数据库方面,对于java 高级程序员而言,不仅需要会基本的增删改查,而且需要具备一定的“优化”方面的技能。

        优化是个大话题,可以从索引,建表和SQL 调优(SQL Tuning)方面入手,这个我们来分析下建表时需要注意的优化点。

        我一般会问候选人,“你有没有设计过数据表?”,大多数回答是设计过,接着我会比较阴险地问下:“你在设计表时是否用到了三泛式”?

        很多计算机专业的候选人往往会随口回答“是”。这时我就不细问了,同时给候选人写下如下的评语,“该候选人有基本的数据库操作的技能,会增删改查操作,但缺乏专业的数据表设计的能力”。

       好了,先来看下三泛式的概念:在第三范式里, 数据不能存在传递关系。

      比如有张订单流水表,其中包括(订单编号,商品编号,下订单的会员编号,商品名,商品价格,会员姓名,会员手机,会员地址)这些信息。

       在这个表里,就存在两个个传递关系。从商品编号能看到商品价格商品名等信息,从下订单的会员编号能看到会员姓名,手机和地址的信息,所以不符合三泛式 。

       如果要按经典学院派的三泛式,我们得把这个表拆分成如下3个表。

订单流水表

至少包含订单编号、商品编号和下订单的会员编号

假设过去1个月有100万条

商品表

至少包含商品编号和商品名

假设过去一个月有50万条商品信息

会员表

至少包含会员编号会员手机会员地址

假设过去一个月里有10万名会员下过订单

      先说下这样拆分的好处(也就是三泛式)的好处,那就是没数据冗余,假设之前的订单流水表包括(订单编号,商品编号,下订单的会员编号,商品名,商品价格,会员姓名,会员手机,会员地址),而与此同时,一定也有张商品表和会员表,这样“商品名“就冗余了(出现在订单流水表和商品表里),“会员姓名“等字段也冗余了(同时也出现在会员表里)。

       这样做,万一我们得修改会员手机,那么就得到两个表里同时修改,增加了工作量不算,而且还增加了出错的风险(万一哪个表忘记修改了,数据会不一致)。

       看上去三泛式很美,但是(很多事情就坏在但是之后),万一在一个大型系统里(比如某宝),数据量很大,就如按上表给出的数据量。那么如果我要执行一个非常基本的需求,要列出过去一个月里所有买过Java书籍的会员的邮箱,以便我们发些推荐邮件。

        这句SQL语句不复杂,但关键是得“关联”,我们可以用订单流水表 left join商品表 on 订单流水表的商品编号 = 商品表的商品编号,在left join 会员表 on 订单流水表的会员编号 = 会员表的会员编号。

         关联是要代价的,这里我们就得做三张大表之间做关联,哪怕我再做优化,再利用到数据库系统的优化(比如用尽Oracle里的优化配置),但由于三个表比较大,关联的样本就大了。

       这时,如果我们来看下“比较丑”的做法,就一开始把所有字段写到一个表里。

订单流水表 =(订单编号,商品编号,下订单的会员编号,商品名,商品价格,会员姓名,会员手机,会员地址)

        那么由于不需要关联,性能就很显著提升。

        从这个案例中,大家一定能看到,如果某候选人告诉我设计表时都得遵循三泛式,那么我给出的“没设计过数据表”也没冤枉他。

        那么关于设计数据表方面,大家该怎么展示自己的能力呢?分类讨论。

        第一,如果在设计的时候,已经明确地知道这个系统的数据量不会太大,比如一个中学的图书管理系统,最多有5万条书本的数据,过去一个月里借阅记录不会超过1千条。也就是说,表之间的关联代价不会太高,那么用“三范式”的原则是必需的。毕竟三范式能避免数据冗余带来的更新插入上的“需要同时多表里相同字段”的麻烦。

        第二,如果表的数据量很大,如前面举的在线购物网站的例子,我们可能就需要冗余数据。在订单流水表里,同时放入用户邮件地址和商品名的字段。

        在得到“免去连接操作”的好处同时,也得付出相应的代价,比如用户一旦更新了邮件地址,那么我们就需要同时在会员表和订单流水表里修改该字段,这就是冗余带来的后果。

       也就是说,我在询问如何设计数据表时,我不在乎你之前设计过哪些表?关键看你在设计表的时候需要考虑哪些因素。

       大家不仅需要掌握诸如“连接”和“范式”之类的技术,更应该从业务角度,权衡各种“建表代价”,从而挑选一种最符合本项目的解决方案。

        好了,关于建表方面的技能就说到这里,很简单,大家一两分钟就能看完,但如果你不会说,或者没说到“权衡”,那么对不起里,即使你有过建表经验,那么在面试中你没表现出来,我只能认为你不熟悉这块。

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏漏斗社区

专属| USPS站点紧急修复漏洞

Rowhammer 漏洞是指 DRAM 临近内存单元之间电子的互相影响,当重复访问特定内存位置数百万次后,攻击者可以让该位置的值从 0 变成 1,或从 1 变成...

1092
来自专栏FreeBuf

MongoDB数据库遭大规模勒索攻击,被劫持26000多台服务器

MongoDB数据库叕被攻击了。就在上周末,三个黑客团伙劫持了MongoDB逾26000多台服务器,其中规模最大的一组超过22000台。 ? “MongoDB启...

4289
来自专栏小文博客

0元撸斐讯路由器,谁赚谁亏?

2344
来自专栏FreeBuf

针对一伙WordPress犯罪团伙的深度技术分析

本文阐述了如何对一个黑产团伙追根溯源。据Wordfence监控数据显示,这个被称为JerseyShore的团伙的主要攻击目标为金融和假冒体育服装类网站。通过本文...

1986
来自专栏极乐技术社区

公众号可群发小程序卡片 | 微信 2.4 版本带来「企业微信名片夹」小程序

轻松一刻 ? 漫画来自于西乔《神秘的程序员们》 01 小程序新能力灰度测试,微信公众号可直接群发小程序卡片。 近日用户反映,有公众号已经可以直接群发小程序卡片了...

83110
来自专栏程序员宝库

5G标准来了!中国预计投资1.5万亿;黑客宣布无条件删除A站泄露数据库;美图开源DPoS算法;CMake 3.11.4发布

第一阶段全功能完整版 5G 标准正式出台,带来“全功能”的 5G 网络能力。这一标准是 5G 发展的重要里程碑,下一步将投入商用阶段。

1914
来自专栏安恒信息

Black Hat 2017 | Day2看点:终端安全产品强势回归,勒索病毒惹的祸?

白帽子I黑帽子I乐趣 Black Hat总会给我们带来不一样的惊喜 ? BLACK HAT 不知不觉中,两天的主题演讲就这么结束了。安恒信息特派到Black...

2714
来自专栏BestSDK

下“小片”的群众注意了,新型“迅雷种子”病毒已感染超2万台PC

种子是个神奇的东西。 小时候我得知,发芽的种子能掀翻最坚硬的岩石; 长大后我发现,种子能让我赢来众多网友的祝福,哪怕素未谋面。 ? 【图片来自网络】 种子是如此...

3755
来自专栏FreeBuf

八百元八核的服务器?二手服务器搭建指南

当你在花近万元剁手i7 5960x时,有没有想过,在华强北的某个角落,有一群人靠几百块收来的二手服务器配件,搭建了一台性能同等,甚至更强的服务器! 首先,在看此...

1.8K9
来自专栏菜鸟程序员

大名鼎鼎的Mimikatz密码读取工具,险被俄罗斯黑客窃取

1685

扫码关注云+社区

领取腾讯云代金券