image

编辑人: 人逝花落空

calendar2025-06-08

message3

visits597

DataHub大数据岗位笔试面试总结

笔试:

#linux命令

1、查看磁盘空间的命令、查看目录空间的命令

2、写一行命令,kill掉zuxs用户下所有进程名带dba_的进程,用到通道。

pkill -u zuxs -f dba_

#设计模式

1、用代码实现一个线程安全的单例模式。单例我写出来了,但是在线程安全方面还有问题。

2、写一下除了单例模式、工厂模式以外的其他三种编程模式。

#JVM

1、说一下JVM内存模型,GC算法,GC垃圾回收机制,如何优化?

前端:

1、写下session、cookie、local storage的区别

2、描述一下在浏览器输入一个url后的处理流程。

大数据:

1、说一下HDFS\MapReduce\HBase\Hive\Yarn的适用场景。

数据结构:

1、实现一个空间复杂度为O(1),时间复杂度为O(n)的倒排遍历一个单链表的程序。

2、如何判断一个单链表里存在一个环。

一面:

  1. 介绍一下对HBase的了解(底层),为什么选择HBase?有没有用过Balance?是怎样设计RowKey的?
  2. ElasticSearch,集群的搭建,为什么选择ES而不选择传统关系型数据库?ES调优有哪些?遇到过什么坑?对Agg聚合查询有了解多少?性能怎样?有没有遇到什么问题。
  3. Spark,Spark环境的搭建及调优,RDD分区

二面:

  1. 介绍一下自己对JVM的内存模式和GC的理解。

  2. cookie和session有什么关联

  3. 如果浏览器禁用了cookie又会怎样?该如何处理?

  4. Spark RDD流程怎么划分一个stage,reduceByKey的原理是什么?触发执行任务的action操作有哪些?shuffle的原理等等?

喵呜刷题:让学习像火箭一样快速,快来微信扫码,体验免费刷题服务,开启你的学习加速器!

创作类型:
原创

本文链接:DataHub大数据岗位笔试面试总结

版权声明:本站点所有文章除特别声明外,均采用 CC BY-NC-SA 4.0 许可协议。转载请注明文章出处。
分享文章
share