大數據面試題1

大數據面試過程中被問到的一些問題:

1、關係型數據庫中的存儲過程和索引?

2、Hive中的join知識點?

3、手寫代碼 用Saprk實現PageRank的第一輪迭代(初始每個頁面票面值爲1)

4、什麼是多態?

5、什麼情況下表現爲多態?

6、靜態變量和非靜態變量的區別?

7、靜態方法中能調用非靜態方法嗎?爲什麼?

8、java中final關鍵字有什麼作用?

9、error與Exception區別?

10、hive中null數據如何存儲?

11、Hive中row_number()、dense_ran、rank、ntile區別

12、什麼叫樸素貝葉斯?

13、kafka是什麼?爲什麼要使用kafka?

14、什麼叫NIO(同步非阻塞)?

15、kafka中爲什麼要有partition?

16、topic是什麼?

17、spark的shuffle是什麼概念?  shuffle是隨機分組的概念

18、zookeeper是做什麼用的?

19、HBase有哪些優化?

20、redis爲什麼速度快

21、手寫單例模式

22、解釋下什麼叫觀察者模式,適用的場景

23、在開發中的遇到的困難和問題

24、udf和udaf寫過嗎?有什麼區別?有一個場景,用udf實現一個字段自增怎麼弄?

25、kafka數據什麼時候落地磁盤?kafka中offset的編號規則是什麼?

26、storm的容錯機制

27、怎麼優化shffle

28、rdd怎麼轉dataFrame

29、OOM的原因?如何分析定位並解決的?

30、a、b兩個文件 存的都是url  內存有限  怎麼找到a、b相同的url

31、多線程有幾種創建方式?

32、代碼怎麼確定二叉樹的高度?

33、spark提交一個任務的流程

34、快排的思想?二分法的時間複雜度?

35、spark和storm的區別?

36、persist和checkpoint的區別

37、spark和mapreduce的對比

38、一個50億行的文件,存的都是數字,內存有限  怎麼找到中位數

39、hashmap hashtable concurrenthashmap 區別

40、sqoop怎麼增量導入數據

41、kafka  topic容錯機制  高水位機制

42、zookeeper原子廣播協議

43、hbase優化  rowkey設計

44、hive的優化  數據傾斜

45、內部表外部表的區別  hdfs數據導入到hive的語法

46、cache和persist的區別 

47、爲什麼使用Redis?使用Redis有哪些好處?

48、Redis 常見的性能問題都有哪些?如何解決?

49、Spark on Mesos中,什麼是的粗粒度分配,什麼是細粒度分配,各自的優點和缺點是什麼?

50、簡單說一下hadoop和spark的shuffle相同和差異?

更多面試題持續更新......

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章