作者 | Ivyoake
整理 | NewBeeNLP
今天上午已收到意向書,崗位算法工程師-機器學習,地點杭州。
一面(簡歷面 半小時)
當時在過馬路時收到了電話,站在人行道上面試了半小時..
詢問基本情況(研究方向及實習)
就實習階段所做的超分辨率算法工作進行了詳細的詢問:數據如何生成,從概率的角度解釋網絡爲何能夠學到LR和SR的映射關係,如何搭建和訓練網絡,如何解決模型落地問題
瞭解到答主在做超分時遇到的問題後,對業界前沿的技術做了相關詢問,用了哪些GAN模型,GAN模型的loss函數如何設計,爲什麼這麼設計
詢問答主爲什麼要從深度學習方向轉到機器學習方向,以及約定了兩天後的詳細面試;
二面(視頻面 四十分鐘)
介紹一個機器學習項目後就項目的pipeline和相關知識點進行了詢問
介紹隨機森林和GBDT的區別,爲什麼Bagging降方差,Boosting降偏差
介紹XGB對GBDT的提升,LGB對XGB的提升,以及既然使用了LGB爲什麼還要使用XGB
介紹stacking的模型融合方式,以及模型融合爲什麼有效
編程題:找到一個無序數組裏面連續的最長整數數組長度。順帶考察了基數排序和快速排序
三面(P9交叉面 一小時)
瞭解答主的兩段實習經歷,分別承擔怎樣的角色,具體做什麼,簡單考察瞭如何解決實際問題
就項目中數據處理方式做了詳細的詢問,生成的多張數據集如何使用,缺失值的處理需要考察到哪些問題,均值填充是否科學等
特徵工程中具體衍生出來的特徵進行了詳細的詢問,爲什麼要生成這樣的特徵,依據是什麼,爲什麼要使用PCA進行降維,如何存在多個特徵高度共線會有什麼問題
爲什麼要大量使用樹模型,有什麼優勢
XGB如何處理缺失值,LGB的差加速和直方圖算法的底層代碼是否有過了解
開放題:雙十一時向用戶發放優惠券,希望在成本一定的前提下,使得盈利最大化,該如何建模發放給用戶?用戶無法做AB測試,該怎樣劃定正負樣本?
數學題:長度爲1的線段,隨機地取兩點A和B,求AB長度的概率密度函數
四面(四十分鐘):
是否做過機器學習算法上的性能優化,介紹了項目中超分算法優化的內容
爲什麼要對連續型數值進行離散化,這樣做有什麼優勢
stacking模型最後一層用於二分類的LR是用離散型的數據還是連續型的數據,有什麼區別
詳細解釋了弱模型特徵的生成方法和思考角度
五面(主管面 現場面 一小時五十分鐘):
四面當晚收到去現場面試的通知,經歷了春招和秋招以來時間最久和最緊張的一場面試,所幸面試官人很好,緩和了一些
詳細介紹了第一段實習的個性化推薦的項目,以及團隊內的分工合作,自己負責什麼領域。生成的模型方案如何評價和測試,處理樣本時是否遇到樣本不均衡的問題,如何解決
分別解釋分層採樣和蓄水池採樣
就第二段實習經歷詢問了GAN模型和多幀模型以及loss設計
就機器學習項目的pipeline進行了詳細的介紹,詢問的問題部分重複,在此不述
開放題:就之前的面試記錄來看,想繼續詢問優惠券發放的問題,你是否有了更深入的瞭解和更好的思路
編程題:有log日誌,每行有兩列(用戶ID,訪問的商品ID),若兩個用戶均有訪問一個商品ID的記錄,則兩個用戶關係指數加一,求所有用戶對中關係指數最大的TopK;如果內存中無法存入全部數據,該如何解決。能否使用hadoop的方式解決,原理和思路?能否使用合理的切片方式,使得分佈式的機子上的排序結果彙總後就是最終結果?
思維題:有一座橋,A通過需要25分鐘,B通過需要20分鐘,C通過需要10分鐘,D通過需要5分鐘,一個橋同時只能走兩人,且快的人需要等慢的人到達才能一起到達。走橋時必須要有手電筒才能經過,且手電筒只有一個,問如何在60分鐘內使得四人均通過
HR面(三十分鐘):
現場面結束後主管告訴我本輪已經是最後一場技術面,如何有後續面試就是HR面,在返程地鐵上就收到了第二天的電話面試通知,非常高興
簡單自我介紹
講述自己的特點和所擅長做的事
就兩段實習經歷講講自己對於兩家公司的看法
講講自己對於一個公司的期望
認爲自己在工作中最有優勢的事情是什麼
自己希望從事怎樣方向的工作,是科研型的還是工程型的
自己的興趣愛好是什麼
有什麼想問的
- END -
AI學習路線和優質資源,在後臺回覆"AI"獲取