大数据工程师(开发)面试题(附答案)

MapReduce

1. 不指定语言,写一个WordCount的MapReduce

:最近刚学了scala,并且就有scala版本的WordCount,刚好学以致用了一下:

:至于java版本,虾皮博主的一篇文章讲解的非常细致: Hadoop集群(第6期)_WordCount运行详解

http://www.cnblogs.com/xia520pi/archive/2012/05/16/2504205.html

2. 上述写的程序中.map((_,1))的输出结果是什么

:通过flatMap将其扁平化,而.map((_,1)) 则是每个出现单词,1这样的形式展现,此时还没归并。

3. 你能用SQL语句实现上述的MapReduce吗?要求按照基于某个字段的值的频次倒序,并且以维度——频次的形式结果展现?

:基于某个字段——决定了要用group By,频次要用count聚合,倒序自然少不了desc:框架搭好就是往里塞了:

4.给你一份乱序的100万个数字的文件,你如何来排序?

:先拆分成若干小的,然后再排(思路是从希尔排序出发的) :内部排序算法:希尔排序

http://www.xiapistudio.com/archives/291.html

Spark

1. 说一说Spark程序编写的一般步骤?

:初始化,资源,数据源,并行化,rdd转化,action算子打印输出结果或者也可以存至相应的数据存储介质 :具体的可看下图:

2. Spark有哪两种算子?

:Transformation(转化)算子和Action(执行)算子。

3. Spark提交你的jar包时所用的命令是什么?

:submit。 面试官:spark-submit? :嗯,spark-submit。

4. Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

:aggeragate 面试官:还有呢? :记不清了。。。 面试官:还有你刚刚写的那个groupByKey哈

在我们的开发过程中,能避免则尽可能避免使用reduceByKey、join、distinct、repartition等会进行shuffle的算子,尽量使用map类的非shuffle算子。这样的话,没有shuffle操作或者仅有较少shuffle操作的Spark作业,可以大大减少性能开销。

5. 你所理解的Spark的shuffle过程?

:spark shuffle处于一个宽依赖,可以实现类似混洗的功能,将相同的Key分发至同一个Reducer上进行处理。 :详细探究Spark的shuffle实现

http://blog.csdn.net/johnny_lee/article/details/22619585

6. 你如何从Kafka中获取数据?

:topic :分布式消息系统:Kafka

7. 对于Spark中的数据倾斜问题你有什么好的方案?

:可以先分析基数大造成数据倾斜的维度,将其适当的拆分。 :Spark性能优化指南:高级篇

编程

1.如果我有两个list,如何用Python语言取出这两个list中相同的元素?

list(set(list1).intersection(set(list2))),通过set 的intersection取交集的函数实现相同元素的提取。

* 2.请你给出在Python中较快获取一个元素的数据结构,并且说出其时间复杂度以及它的缺陷是什么?*

:因为之前也在做一些leetcode上的题目,多多少少重温了下数据结构,当时脑海里呈现的是数组方便查找,队列和栈方便插入删除,所以一听到较快获取果断数组了。 面试官:dict(字典) :厉害!! 面试官:那它的时间复杂度你晓得嘛? :不是特别了解,O(1),常数时间复杂度? 面试官:嗯,那你知道它的缺陷吗? :(中午吃撑了,TradeOff哈)不晓得 面试官:空间复杂度较高哈 : 反思了一下,之所以说错,可能和以前学习算法时,起承转合的过度,并未将栈、队列和map,或者dict直接比较,而是从数组切换到队列和栈,所以就和之前的那个PUT和POST差不多,训练逻辑正确,确实数组查询记录方便,但训练广度有些多样性不够。

算法备忘录——基础数据结构与复杂度 常用数据结构和算法操作效率的对比总结

3. 做几道OJ的题目(英文的),说一说这个问题的要求和注意点,以及可以获得正确结果的你的思路?

恢复IP地址

Given a string containing only digits, restore it by returning all possible valid IP address combinations. Example Given “25525511135”, return [ “255.255.11.135”, “255.255.111.35” ] Order does not matter.

:思考了一会儿,没想出来,只能想出个不通用的思路。 面试官:给你个提示,尝试用树这个数据结构。 :此处埋一个坑,学完树的数据结构再回来解决。

快乐数

Write an algorithm to determine if a number is happy. A happy number is a number defined by the following process: Starting with any positive integer, replace the number by the sum of the squares of its digits, and repeat the process until the number equals 1 (where it will stay), or it loops endlessly in a cycle which does not include 1. Those numbers for which this process ends in 1 are happy numbers. Example 19 is a happy number 1^2 + 9^2 = 82 8^2 + 2^2 = 68 6^2 + 8^2 = 100 1^2 + 0^2 + 0^2 = 1

:思路是模拟过程法,即按照它验证一个数是否是快乐数的方式进行模拟,当然也有些取巧的方式,如果某个中间结果曾出现过,妥妥滴死循环嘛,即刻跳出。 面试官:思路是对的 :我觉得这会TLE,肯定有取巧的方法(这道题目之前好像接触过) :回去搜了一下,发现之前一直求助的一个大神的博客通过模拟过程用Python实现的: Happy Number (之前的怀疑有更巧方法在于时常保持偷懒的思维也是必要的)

4. 你常用的IDE有哪些?

:Java:Eclipse;Python:PyCharm;Scala:IntelliJ IDEA;Shell:VIM

5. 你了解设计模式吗?

:不了解,但以后回去买本O’Really的《设计模式》 :封面如下:

6. 什么是Restful API?

:由于对Restful的了解只停留在使用层面,给我的感觉像是一种资源的提交获取,GET获取,POST/DELETE/PUT都可以看作是一种提交操作

【专业定义】:一种软件架构风格,设计风格而不是标准,只是提供了一组设计原则和约束条件。它主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

RESTful百度百科

Devops

1. 数据库读写分离的目的是什么?

:①减轻负载;②权限控制 :读写分离的作用 看了上面的文章,减轻负载是首要目的,至于权限控制,更像是一种实现方式,不像目的。

2. ZooKeeper是什么?非大数据领域,我们可以用ZooKeeper来做些什么?

:ZooKeeper是分布式协调组件,非大数据领域,可以用ZooKeeper来做HA或者存储数据,比如配置信息啥的。(Znode) :ZooKeeper 典型应用场景一览

本文分享自微信公众号 - 大数据挖掘DT数据分析(datadw)

原文出处及转载信息见文内详细说明,如有侵权,请联系 yunjia_community@tencent.com 删除。

原始发表时间:2017-10-21

本文参与腾讯云自媒体分享计划,欢迎正在阅读的你也加入,一起分享。

发表于

我来说两句

0 条评论
登录 后参与评论

相关文章

来自专栏hbbliyong

你不可错过的二维码生成与解析-java后台与前端js都有

1.二维码分类   二维条码也有许多不同的码制,就码制的编码原理而言,通常分为三种类型。 线性堆叠式二维码 编码原理: 建立在一维条码基础之上,按需要堆积成...

71680
来自专栏钱塘大数据

【干货】34张技术知识图谱,IT架构师必备

下面是笔者多年来积累和收集的知识技能图谱,有的是笔者原创总结的最佳实践,有的是小伙伴们的分享,其中每个秘籍图谱里面的内容都是互联网高并发架构师应该了解和掌握的知...

71870
来自专栏老九学堂

这是篇Java数据库开发的干货,你确定不收藏吗?

无论你开发的是一款PC端的Web应用,还是一款移动端的app,都需要一个数据库来存储你的业务数据(包括电商的商品信息、游戏的道具信息、社交的人员信息等等)。可以...

53150
来自专栏hbbliyong

JAVA试练塔之试炼技能图

1.计算机基础: 1.1数据机构基础: 主要学习: 1.向量,链表,栈,队列和堆,词典。熟悉 2.树,二叉搜索树。熟悉 3.图,有向图,无向图,基本概念 4.二...

41670
来自专栏老九学堂

【休息室】一张图看懂Java的垃圾回收机制

? 新手程序员第一次做项目的过程…… ? 代码写好了,咱们来测试吧…… ? 一张图看懂 Java 多线程阻塞机制…… ? Bug多了,总有一个会把你坑了…… ...

39470
来自专栏机器学习算法工程师

Java 机器学习库Smile实战(二)AdaBoost

1. AdaBoost算法简介 Boost 算法系列的起源来自于PAC Learnability(PAC 可学习性)。这套理论主要研究的是什么时候一个问题是可...

38460
来自专栏hbbliyong

用正则表达式给字符串属性值都加上双引号

需要处理的字符串 [{columnDisplaySize=8, columnName=WARD_CODE, columnTypeName=varchar}, {...

37470
来自专栏ytkah

Bootstrap幻灯轮播如何支持触屏左右滑动手势?

  最近ytkah在学习用bootstrap搭建网站,Bootstrap能自适应pc端和手机端,并且移动设备优先,适合现如今移动营销。bootstrap是封装好...

53250
来自专栏老九学堂

【新手必读】Java初学者,你遇到的问题都在这了

很多小伙伴初次接触Java时往往会感觉十分迷茫,在这里老九君收集并解答了同学们遇到的一些基础问题,希望能对大家的Java学习之路有所帮助。 初识篇 1、什么是J...

42060
来自专栏数据和云

深入剖析:认识Oracle 中的 NULL 值

杨廷琨,网名 yangtingkun 云和恩墨技术总监,Oracle ACE Director,ACOUG 核心专家 经常看到很多人提出和NULL有关的问题。N...

36950

扫码关注云+社区

领取腾讯云代金券

年度创作总结 领取年终奖励