2017-春招實習生之路:機器學習、大數據開發、研發等崗位面經

前言

剛過完年,就開始到處找實習了,可惜後來發生了一些事情,耽誤了春招實習,也完全改變了人生方向。。。

後來到處找散招的實習以及參加春招的暑假實習生筆面試,總共經歷了十家公司的面試,相比我秋招的二十家面試少了一半,呵呵噠。。。

同時強烈建議和歡迎大家看我的秋招面經帖子,裏面的乾貨比這篇實習面經要多很多!
點擊鏈接如下:
2017-我的秋招之路:機器學習/算法工程師(含大量面經)
或者:
http://blog.csdn.net/circle2015/article/details/78448196

算法/研發崗位實習生面經

高德地圖 (數據挖掘實習生,電話一面,2017.3.16,15min)
1、 一個文件,每一行是一個浮點數,統計均值和方差,要求複雜度:時間O(n),O(1)
2、 一個句子文件,一個關鍵詞文件,根據關鍵詞決定是否保留該行內容。模式匹配,trie 樹,文本詞頻統計,較少不必要的字符串比較。它的查詢效率比較高
3、 一個文件,每一行都是x,y文件,找出重複top1000,按照重複次數從小到大進行排序,
要求用linux命令或者shell命令
提示:cat 文件 uniq –c | sort –kl, lnr |head -10
其中sort:對單詞進行排序
uniq –c 顯示唯一的行,並在每行首加上本行在文字出現的次數
sort –k1,lnr 按照第一個字段,數值排序,且爲逆序

百度 (平臺研發實習生,科技園3號樓一面,2017.3.20,30min)
1、 介紹python的匿名函數,即lambda函數
2、 python中單下劃線和雙下劃線的區別,能否被外部訪問?不能,單下劃線代表保護變量,只允許本身和子類訪問;雙下劃線_代表私有變量,只允許本身訪問,子類不能。
3、 解釋LR的原理?
4、 算法題:字符串轉整型,整型轉字符串,劍指offer
5、 概率題:紅黑各50個球,分別放進2個大袋子,怎麼放才能使得從兩個袋子中取得紅球概率最大。
百度 (平臺研發實習生,二面女面試官,2017.3.20,30min)
1、 Python中copy和deepcopy的區別?
2、 Tcp和udp的區別?
3、 Tcp的三次握手,爲啥三次?
4、 從瀏覽器輸入www.baidu.com到展示網頁的解析過程?
5、 用匿名函數從字典中抽取鍵,一行代碼,不能用keys()。[I for I in dic]或者map(lambda i:I,a)
6、 字符串的倒置,劍指offer
7、 Linux中遞歸刪除當前目錄以及子目錄裏面的.o文件。find . –name ‘*.o’ –exec rm –f {}\;
8、 Mysql中授權grant怎麼使用?grant 權限 on 數據庫 to 用戶;grant select on test.db.* to 用戶名@ip地質
百度 (平臺研發實習生,三面經理面,2017.3.20,20min)
1、 Linux中怎麼查看服務器的核數和內存。cat /proc/cpuinfo grep MemTota/MemFree /proc/meminfo
2、 對當前目錄中的文件按照時間進行排序。ls –lrt(升序) -lt(降序)
-l 以長列表方式顯示
-t 按照修改時間排序
-r 反序,reverse
3、 一道python的題:
a=[1,2,3,4,5]
for I in a:
a.remove(i)
print a
求打印a的結果,[2,4]

獵豹移動 (推薦算法實習生,QQ視頻一面,2017.3.30,40min)
1、 Spark中reduce.bykey和group.bykey的區別?
2、 Spark中數據傾斜的問題,join.k一個很大,一個很小,怎麼解決?ps:沒聽懂題目。。。
3、 介紹下實驗室項目中用到的DBN算法和手寫下BP反向推導公式
4、 刪除鏈表的倒數第k個節點,參考劍指offer
5、 Linux命令:
有一個文件,內容是:abc 10.2 4 2017-03-30 14:36:00
abc 10.2 4 2017-03-29 14:30:00
用一行命令從文件中提取不重複的day內容。
6、 最近在看啥書。。。。

獵豹移動 (推薦算法實習生,電話二面,2017.4.14,40min)
1、 Spark和Hadoop中map/reduce的區別?
2、 邏輯迴歸和 softmax迴歸的區別?
3、 Linux命令:查看命令、查看機子內存、查看當前路徑

獵豹移動 (推薦算法實習生,電話三面,2017.4.17,30min)
1、 Spark和Hadoop的區別?
2、 Hadoop中shuffle的過程,數據排序算法?快排?其實是堆排序;對於小文件的合併,應該用哪種排序?
3、 Spark中shuffle的過程?
4、 重複利用RDD時,兩種可持久化:硬盤、內存;是怎麼選擇的?怎麼決定多少到內存,多少到硬盤?
5、 持久化優化時,序列化的注意事項?有自帶的java序列化,對於大文件的序列化,不建議採用自帶?會用哪種?
6、 Spark中stage是怎麼劃分的?怎麼把一串操作轉化成stage?
7、 採用什麼方法優化shuffle過程?
8、 Spark中reduce.bykey和group.bykey的區別?
9、 factor、kernel和並行度三者參數的區別?怎樣調節?調節並行度?沒聽明白。。。

搜狐大數據中心 (研發工程師實習生,搜狐媒體大廈一面,2017.3.31,30min)
1、 將數組2,1,4,3,5 ,從小到大進行排序
2、 手寫二叉樹的後序遍歷
3、 瞭解jvm嗎?堆和棧的存儲方式有啥區別?new對象存儲在堆中,變量賦值存儲在棧中。
4、 Mysql有哪些性能優化?
減少查詢字段、表關聯儘量用主鍵、查詢條件儘量避免模糊查詢、避免使用排序字段、排序字段儘量用主鍵、儘量使用限制查詢條件、查詢條件使用有效索引。
5、 HBase的基本概念
6、 介紹了實驗室項目和DBN算法

汽車之家 (大數據技術實習生文本方向,現場一面女面試官,2017.4.13,30min)
1、 手寫快速排序和二分查找
2、 輸入s,從一個大小爲N的數組中找到任意和爲m的組合,不能重複
3、 Linux命令,從一個map.dat文件中統計行數,再統計有多少行中含有指定內容’redis’
4、 邏輯迴歸的決策函數怎麼寫?

汽車之家 (大數據技術實習生文本方向,現場二面,2017.4.13,30min)
1、 這個面試官小哥屌屌的樣子,說下面要寫的代碼不能有一點問題,否則,掛
2、 堆排序,非遞歸的中序遍歷代碼
3、 找規律編程求解第N個數字:
1,11,21,1211,111221,312211,13112221,1113213211
我估計是小哥寫錯數字,因爲是找到連續數字的個數的題,算法常見題
4、 Word2Vec的原理以及效果好的原因?
5、 邏輯迴歸的假設?即y的分佈。Lr符合伯努利分佈、線性迴歸符合高斯分佈
6、 邏輯迴歸的目標函數?

ETCP (算法實習生,電話一面,2017.4.13,47min22s)
1、 非常非常詳細的介紹了實驗室的項目,從頭到腳的介紹了一遍
2、 講解下DBN和lr算法等等
3、 因爲是電面,所以沒法寫程序。

騰訊 (基礎研究,校招實習生一面,2017.4.18,30min)
1、 是否瞭解NLP?講解下word2vec原理以及不同函數
2、 實驗室項目用到的DBN算法原理以及RBM的目標函數?RBM的全連接是層內無連接,其他無連接的還有哪些?
3、 邏輯迴歸lr的目標函數和梯度推導公式
4、 寫了個堆排序,緊張的寫錯了。。

融360 (數據算法助理實習生,現場一面,2017.4.25,30min)
1、 講解實驗室項目,數據的格式以及怎麼進行預測?
2、 算法題:
從數組:4 1 5 6 2 8 3 7 7 中找出x+y=11且下標查最大的兩個數以及間隔?當數據是有序時又該怎麼找?
3、 邏輯迴歸是線性模型嗎?是線性的!
4、 ROC曲線爲啥是曲折的?它的x和y座標是什麼?

商湯科技 (數據挖掘實習生,現場一面,2017.4.25,30min)
1、 一個光頭小哥面試官!基本沒有問簡歷上的項目,也幾乎不問機器學習算法。。
2、 Hadoop彙總NameNode和DataNode關係和架構?
3、 編程:Spark中採用DataFrame和rdd從數據(a,b,c,d)中 抽取a=0和b>3的所有數據
4、 字典可以採用平衡二叉樹和hashmap,那平衡二叉樹有何優勢?
5、 算法:求最長遞增子序列(LIS),經典的動態規劃

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章