阿里,网易 云音乐以及商汤科技的大数据面试经

项目方面:项目闪光点、优化点、涉及到的关键技术这些基本都会问,事先最好准备一下、如果有开源项目经验就更好。

语言方面:

至少精通一门语言Java或C/C++等(以Java为例),java内存模型、gc回收算法、各种gc回收器的使用场景;

类加载机制以及涉及到的一系列问题;volatile特性、主内存与工作内存交互、happen before原则、内存栅栏;

类加载过程(class文件到jvm这个过程);

callable runnable 区别;

synchronized与lock区别;

进程线程区别;

hashMap和treeMap的区别,以及实现;

concurrenthashmap怎么实习同步?各个版本的实现方案?

PS:最好再掌握一门脚本语言。如Python或者Scala等。

大数据方面:

MapReduce过程;

spark排序实现流程,reduce端怎么实现的;

HashPartitioner与RangePartitioner的实现,以及水塘抽样;

spark有哪几种join,使用场景,以及实现原理;

dagschedule、taskschedule、schedulebankend实现原理;(网易 云音乐 )

宽依赖、窄依赖;(网易 云音乐 )

画一个yarn架构图,及其通信流程;

hdfs数据读取流程,实现原理;

HBase和传统数据库的区别;

HBase读数据过程;

HBase Master和Regionserver的交互;

HBase的HA,Zookeeper在其中的作用;

Master宕机的时候,哪些能正常工作,读写数据;

region分裂;

Spark数据倾斜,怎么定位、怎么解决(阿里);

Mysql的索引类型及其实现原理;同时哪些存储引擎支持B树索引,哪些支持Hash索引; 为什么mysql索引要用B+树而MongoDB用B树? Mysql查询如何优化; 主键和唯一索引的区别; 事务的隔离机制,mysql默认是哪一级; MyISAM和InnoDB存储引擎的区别; Mysql查询优化,慢查询怎么去定位? Mysql中的各种锁,乐观锁,悲观锁(排他锁,共享锁);行锁,表锁是怎么实现的? MapReduce支持哪些join,map端?reduce端?semi join?semi join可以通过什么算法去优化? MapReduce实现二次排序; 用MapReduce实现两表join; 用MapReduce实现一个存储kv数据的文件,对里面的v进行全量排序; Zookeeper实现原理,zab协议以及原子广播协议; paxos协议,multi-paxos,zab,raft各种分布式协议内容,使用场景; Hadoop namenode的ha,主备切换实现原理,日志同步原理,QJM中用到的分布式一致性算法(就是paxos算法)

spark运行架构: spark运行原理,从提交一个jar到最后返回结果,整个过程; spark的stage划分是怎么实现的?拓扑排序?怎么实现?还有什么算法实现? spark rpc,spark2.0为啥舍弃了akka,而用netty? spark的各种shuffle,与mapreduce的对比; spark的各种ha,master的ha,worker的ha,executor的ha,driver的ha,task的ha,在容错的时候对集群或是task有什么影响? spark的内存管理机制,spark1.6前后对比分析 spark2.0做出了哪些优化?tungsten引擎?cpu与内存两个方面分别说明 spark rdd、dataframe、dataset区别.

算法数据结构方面:

图怎么存的、有哪些图算法; 红黑树怎么实现、如果树里面有两个值相等的节点,怎么识别?

问题:一排正整数,每次只能去两头的数,甲乙两个人轮流取,如果甲先取,问最后谁取得数相加和最大,最大和为多少?典型博弈论问题(可以看看海盗分金问题),大致两个动态规划方程。

原文发布于微信公众号 - java一日一条(mjx_java)

原文发表时间:2018-05-26

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏黑泽君的专栏

从零讲JAVA ,给你一条清晰地学习道路!该学什么就学什么!!

 原文链接:https://zhuanlan.zhihu.com/p/25296859

1082
来自专栏ASP.NET MVC5 后台权限管理系统

ASP.NET MVC5+EF6+EasyUI 后台管理系统(4)-创建项目解决方案

前言 为了符合后面更新后的重构系统,文章于2016-11-1日重写 设计中术语,概念这种东西过于模糊,我们必须学习累积才能认识这些概念模型。 我无法用文章...

2749
来自专栏腾讯大数据的专栏

Storm上的实时统计利器-easycount

背景 Storm是TRC(腾讯实时计算)平台的核心组件。与Hadoop不同,storm之上没有像hive,pig之类的解放应用开发人员效率的工具。开发原生的st...

3719
来自专栏Crossin的编程教室

Python 爬虫爬取美剧网站

一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前...

4197
来自专栏涂小刚的专栏

从 PageRank Example 谈 Spark 应用程序调优

在做PageRank测试时,发现有很多有趣的调优点,想到这些调优点可能对用户来说是普遍有效的,现把它整理出来一一分析,以供大家参考。

1.3K3
来自专栏牛客网

蚂蚁金服面经(3+4)

【每日一语】我和这个世界不熟。这并非是我撕裂的原因。我依旧有很多完整,至少我要成全我自己。──北岛《我和这个世界不熟》

2282
来自专栏AI

如何准备电影评论数据进行情感分析

准备工作从简单的步骤开始,比如加载数据,但是对于正在使用的数据非常特定的清理任务很快就会变得很困难。您需要从何处开始,以及通过从原始数据到准备建模的数据的步骤来...

4038
来自专栏IT派

美剧迷是如何使用Python的

一直有爱看美剧的习惯,一方面锻炼一下英语听力,一方面打发一下时间。之前是能在视频网站上面在线看的,可是自从广电总局的限制令之后,进口的美剧英剧等貌似就不在像以前...

1222
来自专栏GopherCoder

『Go 语言学习专栏』-- 第十一期

1523
来自专栏北京马哥教育

一致性hash原理与实现

一、背景介绍 memcached的分布式 memcached虽然称为“分布式”缓存服务器,但服务器端并没有“分布式”功能。服务器端内存存储功能,其实现非常简单。...

3907

扫码关注云+社区

领取腾讯云代金券