大数据培训:偶然见到大数据面试题,拿出来分享
2025-01-01 网络
必要说是RocksDB从来不,这内都仿佛如果知道hbase,可以说是一说是
Spark stage、task分割这个典内都典了,反转创并建,反转submitMissingTask(子孙stage再子stage)
Spark提交步骤典内都典了 插绝对值:礼物的最;大要价绝对值(dp) 堆栈数列是否合法(stack仿真均可)
二 侧 8.12 1h
举例来说多该线程完全相同之处3之外吧 资流、适时单元 通信系统会作法 切换代价
举例来说通信系统会作法、最都用是哪种管道、第一时间队列、共享变量、socket、信号量、信号 socket
socket通信系统会就其哪些方侧(很发散仿佛问道的很差)3个之外吧 scoket用于和TCP各个过渡阶段互换 先前可以说是到I/O多路,然后举Kafka网络三维的举例来说,岂不美哉???
Ja HashMap和ConcurrentHashMap 说是了很久很久典内都典了 HashMap:桶空集+链此表/红黑竹子 为什么桶空集自由选择仅据型式啊?为什么用于拉链法必决紧张局势啊?什么时候resize() 啊?什么时候竹子化?恢复?ConcurrentHashMap :1.7/1.8完全相同之处,然后size和get无法强规范上性之类的
Kafka理必 说是了很久很久kafka这个可以先说是为什么用于kafka:回溯增绝对值啦、上南岸必耦啦... 全部怼上去 然后kafka归纳下来就让就低吞吐、低精确、低一般来说两点 低吞吐:生产者异步、缓冲器、批量发送啦、网络三维I/O多路低效啦、存储pageCache啦、左至右I/O啦、baseOffset演化成跳此表啦、零拷贝啦、批量拉取啦,一个大整上,爽歪歪 低精确:如何要用到不重不漏不乱序?典内都典了 低一般来说:Controller HA、PartitionHA(可以说是到ISR、ISR概念,为什么的该游戏ISR、如何意味着增绝对值规范上性啦.............)
我从低吞吐、低精确、低一般来说两点回问道的,但是说是的极度多了,侧试官到先前尽快用三句话说是明低精确
10TB 日志原始仅据类似汇总谁访问道道了哪些域名,访问道道了多少次,说明了必决方案我只但会用mapreduce思一心,一心叮嘱教大佬必问道下
插绝对值 最;大要年中子仅据型式之和(确切仅据型式) 的该游戏start,end 少于max时不断更新end,nums[i]+dp[i-1]
三侧 8.16 40min
说是说是MR(介绍的很很差)来时!
有意说是Spark的shuffle 更进一步三种shuffleWrite(名字显然有疑,程式码好久不能看了) BypassMergeSortedShuffleWriter SortedBaseShuffleWriter UnsafeShuffleWriter 每一种都有自己用于范围,第一种就是分区仅
reduce只有BlockStoreShuffleReader 理论上步骤就是获取mapStatus,必析获取blockManagerId,然后从互换BlockManager拉取map输出的blockFile互换pid原始仅据,然后边拉取可以边聚合之类的
flink内都ck出疑原因(这checkpoint功能只不过字节侧试官很看重,仿佛得好好正要) 反压 毕竟之外联barrier的event buffer始终不到 ,subtaskCheckpointCoordinator要用不了ck,当然出疑 侧试官说是:等价指派结构上叮嘱必能否造成出疑?以前不能一心出来,极度紧张了【落下】后侧三侧过了后,通过hr给侧试官转发了第一时间:MailBoxProcessor内都的多该线程也就是图像解决问题(subtask)多该线程,该多该线程每次但会pollNext从InputChannel内都拿取buffer,如果是event buffer(barrier)并且barrier交叉了,那么此时指派performCheckpoint原理(此后就是保留null范式)
如果必要在某个userFunction去叮嘱必原始仅据,那么用于的是就是举例来说图像解决问题多该线程(比如叮嘱必MySQL原始仅据,节省大量星期),必然影响举例来说多该线程解决问题barrier,造成checkpoint出疑 而比如在open原理内都去初始个多该线程池比如RichAsyncFunction#open原理内都初始化多该线程池然后去浏览,就让但会影响正常人图像解决问题多该线程
必然出疑呀!!!
以前脑瓜子嗡嗡的,只说是了反压,侧试官叫我赶快想必等价指派结构上叮嘱必能否造成出疑(东扯西扯,扯到同步null保留,异步null保留,都不能啥用,先前酷住了。。。)
flink和spark完全相同之处(spark streaming从来不)说是了flink内都subtask和spark内都task图像解决问题完全相同之处 这个却是就是原始仅据如何商品交易还有河段有意畀到南岸还是南岸拉取河段之类的?
spark 3.0功能性 gg真但会xdm
不能接受问道道着问道道着就又转变成侧试官问道道我了【落下】,原始仅据度角怎么解决问题
使用暴力特并行度 两过渡阶段聚合 join内都侧广播电台变量 + 采样粘贴(和侧试官争论了一波) 可以看一波美三团关键技术, 常常怎么看程式码的 4受训一侧:
ja诗赋,提到型式理论上型式的完全相同之处,list map hashmap模块继承关系,linkedlist arraylist hashmap借助等 大原始仅据之外,hadoop框架,namenode,联邦namenode,spark rdd,spark和mr完全相同之处,转换等价和action等价 sql对联第一道,【关注尚为硅谷,精采说是授IT】忘了,不难 插绝对值对联:返回一个用举例来说仅的各位仅字一组的比输入仅大的小于的仅,比如1234返回1243
受训二侧:
spark有哪些等价,spark比mapreduce的优势,spark shuffle确切借助,和mr shuffle的对比,spark寄存器 然后问道道了很多不之外的人才培养这两项(简历上所写的)和一些年中性的必决办法,比如大原始仅据的核心思一心是什么(分治) 插绝对值对联:20M寄存器 100G邮件 想到top10的url
受训三侧:
负责管理侧,忘了问道道了啥,问道道了一点点大原始仅据框架spark hive hadoop啥的 是否看过大原始仅据的三驾人力车的学术论文,说是一说是 大多仅都是问道道的年中性必决办法和一些比如啥时候能到岗上受训多久这种 sql对联忘了,也不难 插绝对值对联:一个一个系统仅据型式想到唯一以此类畀的仅,并不需要多种原理,用了双表头 hashmap 位运算等
5一侧,1h15min,5.19
仿佛侧试官除此以外好,回头刚聊两句我就十分警惕了,然后就开始跳出自我hhhh
1.先来个台词吧
2.聊了一下之前受训
3.kafka依靠怎么样,flink有不能有沾染过呢
4.先来个mr更进一步吧
5.每个小邮件为什么要顺利完成排序,先前合成的大邮件为什么顺利完成排序
6.一个wordcount情形,确切各个步骤,map看看,reduce看看,很钝
7.spark依靠怎么样,我说是了必,然后就不能问道道了
8.仅仓呢,原始仅据仓库的自上而下能说是一下吗
9.仅仓知识还了必什么
10.你没多久说是雪花三维把的点此表规范化了,那说是一下你了必的范式吧
11.要用对联吧,两边sql,两边插绝对值,所写出来
11.1 订购此表 orders:订购 ID (order_id)、零售商 (employee_id)、成交单价 (price) 零售商此表 employees:零售商 ID (employee_id)、零售商附注 (employee_name)、中心地带 (region) 必各个零售商的总零售商,尽快有零售商 ID、附注、中心地带
11.2 订购此表 orders:订购 ID (order_id)、零售商 (employee_id)、成交单价 (price) 零售商此表 employees:零售商 ID (employee_id)、零售商附注 (employee_name)、中心地带 (region) 必各个区域零售商最低的零售商互换的零售商 ID、附注、中心地带、零售商
11.3 给定一个升序整仅仅列 L(L 内都不能有以此类畀要素)和一个整仅 n,判定 n 是否在 L 内都
11.4 给定一个空集,必这个空集的所有子集一组的空集。一般来说数列来此指出空集。
12.不能接受:您真的我此后并不需要增进哪方侧的说是授习
归纳:侧试的很舒服,聊着聊着精神状态就除此以外好,对联都a了 一侧结束,第二天中午就告知电话机顺利完成二侧,约5.24
二侧,1h,5.24
二侧侧试官也很好,都有回应 1.台词 2.受训整整 2.说是一下mysql的录入吧 3.B竹子和B+竹子的完全相同之处,问道道的很钝 4.你是考研还是保研,顺就让说是了下我简历的必决办法 5.spark依靠如何?问道道的很钝,确切忘记了,完全不能拳法,很发散 6.jvm依靠如何?7.硬件呢?8.kafka呢,partition为什么换用磁盘左至右所写?9.500G 的邮件,电脑 1core 1G,频率TopN 10.两边插绝对值对联 10.1 add(x) delete(x) random() 设计一个原始仅据结构满足三种备有星期演算法O(1) 10.2 岛屿必决办法接合,八个路径 11.不能接受:您真的我此后要增进哪方侧说是授习 flink,kafka要深入说是授一下,jvm硬件要补一补,此后但会有三侧 过了一个多足足,告知电话机,必要hr侧了 hr侧,20min,5.25 大约就是个人优缺点,爱恋之类的,聊天 先前不能接受是不是hr侧通过就报考了。不能必决办法的话这周就发offer 俩足足此后就发offer了,极度效率了,先为!
6一侧:
根据这两项问道道了架构,就其到的关键技术 spark streaming Vs flink watermark是干什么的,如何用于 原始仅据度角如何解决问题 编程规范Solid Spark reducebykey和groupbykey的完全相同之处 mysql 录入之外,B+竹子,聚簇录入等,回此表 Kafka 原理 低一般来说 插绝对值:内都文仅字专阿拉伯仅字
二侧:
这两项:重点说是一个,其内都的架构,关键技术等 spark streaming vs structured steaminng vs flink 差别,flink checkpoint,barrier等,扩展到谷歌millwhile, dataflow等三维 Kafka 低一般来说如何意味着,乘法等性如何意味着exactly-once。为什么耐用性好 其他的记不清了,多是大原始仅据之外 插绝对值:仅据型式内都 幂最;大要的三个仅,有负仅,零的状况。排序着色,演算法分析
三侧:(痛苦来了)
聊了很多从前新公司企业必决办法 场景:三个原始仅据流日志,每个原始仅据流两千万,有星期和IP等讯息,如何设计系统会浏览一个星期 在世界上top10的IP,尽快快速号召 一心的是:通过flink或flume刷到mysql,然后groupby count。但是侧试官问道道的除此以外详钝,比如,flink如何读原始仅据,什么原理……,怎么存储mysql,怎么存,一天6kw,10天6亿原始仅据,分库分此表?,怎么连接mysql……groupby看看,count看看…… 问道道的比较崩溃,先前如何及时号召但会话叮嘱必,通过sql groupby 此后rollup,卷原始仅据。紧贴知识盲区了。先前问道道了一些这两项和管理者内都的必决办法,个人优势啥的
四侧:
离职情愿,个人规划,特班费等
7看侧经内都都不能有与 Flink 之外的,由于我受训要用的;大要是用 Flink 研发数据解决问题勤务,我来补充一下
这之外是问道道的必决办法,理论上官方邮件都有
Flink 的 Exactly Once 语义怎么意味着 Flink 的 checkpoint 步骤,都是同步 checkpoint 吗?Flink 勤务故障重启步骤,full restart 和 region restart 完全相同之处,举例 region restart Window 的概念 这之外是受训这两项内都用到的非常有价绝对值的点
Flink 的 operator chain 程序一般但会增加耐用性,但有节省范式时把互换的 operator 拆开来赛跑,可以提低耐用性 河段原始仅据不不规则的状况下,换用 rebalance 的连接作法均衡增绝对值 多流 Join 的借助, connect stream + keyBy + CoProcessFunction + state state 和 timerService 的用于,很关键的一点是延时勤务是 per key per timestamp 的,这内都踩过陨 其它;大要问道道的是 Ja 系统化和插绝对值对联
借助 ImmutableStack 即 pop 和 push 都要分解成再次 stack,尽快演算法为 O(1) 二叉竹子内都序和先序遍历仅据型式,必后序遍历仅据型式 借助 36 负数特法 "1z"+"1" = "20"
8所写在前侧 大家好,这是一篇超长侧经+归纳,是对自己上一过渡阶段的分门别类,也希望给以后正要想到管理者工作/正在想到管理者工作的同说是授们多多少少一点帮助。
理论上介绍:普通985本+亚洲地区渣硕,大二转到CS各个领域,大三这两项技术交流3+2,19年10月留说是授肄业,有工程这两项,无受训无额外特分项,;大Ja研制出岗上,非battmd档次世锦赛,特一起拿了4个offer,先前正要去星环了。
一,侧经空集(按新公司分割) 最初是去年的12月开始,内都间有几个月在研究室抗压不能有侧,www.atguigu.com考虑到读物的所写作酷爱所以按新公司分割侧经,强调一点是星期该线很最;大要,前后自己侧试战斗能力也有差,叮嘱留意。一般都是远程音频/电话机侧,每场侧经内必决办法提问道道左至右不定。一些极度的水的侧经不能有仅限于在内(比如8月前的某为,分行)
先前关于评核,叮嘱绝不拿社但会什么的要用借口,可耻是理论上常识,并但会因为形势或人仅的因素而改变,扎实的示例战斗能力无疑有益的,从前多吃点苦是绝对有一点的。
五,关于侧试 有关键技术只是入场券,拿offer还是要一定的运气。当然,很多大山羊之所以为大山羊是因为常常积累的就足够多,但会议学术论文,acm竞赛,大厂受训,人才培养科技成绩等等,非大山羊的我们就要要用到任人挑选的正要,态度端正到先前一刻,有非常烦人的侧试官是常事,依然心态很最;大要。
侧试官:“先前有什么必决办法要问道道我的吗?”
我一般是问道道一些新公司企业,和进去此后要用什么管理者工作,然后必要问道道近期步骤(我真的一挺好的,既能节省彼此星期也能直到自己一些技能点不足,若有侧试特以改进)
六,关于自由选择 绝不给自己极度大阻碍,想到管理者工作和应考不一样,要顺着自己的心意在自己深达的在世界上想到更好的,不是追低(当然有上进心是一定会)。努力很最;大要说是授但会放下和生活也很最;大要。研制出岗上位有该游戏研制出,但会话研制出,但会话研制出,侧向各种语言的研制出,大原始仅据研制出,网络工程研制出,确保研制出等等,完全相同的机构和新公司企业要多少了必一点这样一来非常好。比如该游戏岗上几个经典电影考对联(挂钩插绝对值,配上插绝对值,实时规划,经典电影原始仅据结构竹子,链此表的深入研究),但会话研制出针对各部门尽快但会有变化,仿佛备有系统会但会多一些
文章来流于数据解决问题仅仓架构
引荐所写作:
大原始仅据研发侧试之原始仅据仓库
大原始仅据研发之SparkSQL侧试篇
大原始仅据研发之Hbase侧试对联
。新冠特效药叫什么咳嗽有痰用急支糖浆还是川贝枇杷膏
藿香正气口服液和藿香正气水的区别
如何快速缓解颈椎痛
999消痔软膏怎么样
- 05-11全国人大常委会、宁夏农民作家马慧娟:阅读改变命运
- 05-11《上阳赋》庆幸王儇选择了萧綦,子逸与王儇注定是一场悲剧
- 05-11徐放鸣教授“云端”开讲!徐州万科“悦读会”聘为您共享读书之乐
- 05-11我用中文翻译手抄西班牙“国宝”
- 05-11一个家庭变富的方式:谈钱,读书
- 05-11安徽池州黄梅戏老艺人说黄梅调起源
- 05-11树龄越大茶叶品质越好?茶山经验得知你,没有那么绝对!
- 05-11读书——学习改变故事情节
- 05-11书友福利 | 最是书香能风景秀丽,24家出版机构联合送书!
- 05-11英国留学:在当今读书日,选择一本书带去英国