阿里機器學習算法面經（已offer）

原創

Datawhale

2020-03-31 16:42

作者 | Ivyoake
整理 | NewBeeNLP

今天上午已收到意向書，崗位算法工程師-機器學習，地點杭州。

一面（簡歷面半小時）

當時在過馬路時收到了電話，站在人行道上面試了半小時..

詢問基本情況（研究方向及實習）
就實習階段所做的超分辨率算法工作進行了詳細的詢問：數據如何生成，從概率的角度解釋網絡爲何能夠學到LR和SR的映射關係，如何搭建和訓練網絡，如何解決模型落地問題
瞭解到答主在做超分時遇到的問題後，對業界前沿的技術做了相關詢問，用了哪些GAN模型，GAN模型的loss函數如何設計，爲什麼這麼設計
詢問答主爲什麼要從深度學習方向轉到機器學習方向，以及約定了兩天後的詳細面試；

二面（視頻面四十分鐘）

介紹一個機器學習項目後就項目的pipeline和相關知識點進行了詢問
介紹隨機森林和GBDT的區別，爲什麼Bagging降方差，Boosting降偏差
介紹XGB對GBDT的提升，LGB對XGB的提升，以及既然使用了LGB爲什麼還要使用XGB
介紹stacking的模型融合方式，以及模型融合爲什麼有效
編程題：找到一個無序數組裏面連續的最長整數數組長度。順帶考察了基數排序和快速排序

三面（P9交叉面一小時）

瞭解答主的兩段實習經歷，分別承擔怎樣的角色，具體做什麼，簡單考察瞭如何解決實際問題
就項目中數據處理方式做了詳細的詢問，生成的多張數據集如何使用，缺失值的處理需要考察到哪些問題，均值填充是否科學等
特徵工程中具體衍生出來的特徵進行了詳細的詢問，爲什麼要生成這樣的特徵，依據是什麼，爲什麼要使用PCA進行降維，如何存在多個特徵高度共線會有什麼問題
爲什麼要大量使用樹模型，有什麼優勢
XGB如何處理缺失值，LGB的差加速和直方圖算法的底層代碼是否有過了解
開放題：雙十一時向用戶發放優惠券，希望在成本一定的前提下，使得盈利最大化，該如何建模發放給用戶？用戶無法做AB測試，該怎樣劃定正負樣本？
數學題：長度爲1的線段，隨機地取兩點A和B，求AB長度的概率密度函數

四面（四十分鐘）：

是否做過機器學習算法上的性能優化，介紹了項目中超分算法優化的內容
爲什麼要對連續型數值進行離散化，這樣做有什麼優勢
stacking模型最後一層用於二分類的LR是用離散型的數據還是連續型的數據，有什麼區別
詳細解釋了弱模型特徵的生成方法和思考角度

五面（主管面現場面一小時五十分鐘）：

四面當晚收到去現場面試的通知，經歷了春招和秋招以來時間最久和最緊張的一場面試，所幸面試官人很好，緩和了一些

詳細介紹了第一段實習的個性化推薦的項目，以及團隊內的分工合作，自己負責什麼領域。生成的模型方案如何評價和測試，處理樣本時是否遇到樣本不均衡的問題，如何解決
分別解釋分層採樣和蓄水池採樣
就第二段實習經歷詢問了GAN模型和多幀模型以及loss設計
就機器學習項目的pipeline進行了詳細的介紹，詢問的問題部分重複，在此不述
開放題：就之前的面試記錄來看，想繼續詢問優惠券發放的問題，你是否有了更深入的瞭解和更好的思路
編程題：有log日誌，每行有兩列（用戶ID，訪問的商品ID），若兩個用戶均有訪問一個商品ID的記錄，則兩個用戶關係指數加一，求所有用戶對中關係指數最大的TopK；如果內存中無法存入全部數據，該如何解決。能否使用hadoop的方式解決，原理和思路？能否使用合理的切片方式，使得分佈式的機子上的排序結果彙總後就是最終結果？
思維題：有一座橋，A通過需要25分鐘，B通過需要20分鐘，C通過需要10分鐘，D通過需要5分鐘，一個橋同時只能走兩人，且快的人需要等慢的人到達才能一起到達。走橋時必須要有手電筒才能經過，且手電筒只有一個，問如何在60分鐘內使得四人均通過

HR面（三十分鐘）：

現場面結束後主管告訴我本輪已經是最後一場技術面，如何有後續面試就是HR面，在返程地鐵上就收到了第二天的電話面試通知，非常高興

簡單自我介紹
講述自己的特點和所擅長做的事
就兩段實習經歷講講自己對於兩家公司的看法
講講自己對於一個公司的期望
認爲自己在工作中最有優勢的事情是什麼
自己希望從事怎樣方向的工作，是科研型的還是工程型的
自己的興趣愛好是什麼
有什麼想問的

- END -

AI學習路線和優質資源，在後臺回覆"AI"獲取

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

阿里機器學習算法面經（已offer）

一面（簡歷面半小時）

二面（視頻面四十分鐘）

三面（P9交叉面一小時）

四面（四十分鐘）：

五面（主管面現場面一小時五十分鐘）：

HR面（三十分鐘）：

實錄｜三大AI開發神器亮相！李彥宏：人人都是開發者

文心大模型ERNIE-Tiny：輕量化技術的全面解讀

實操|基於OceanBase打造更穩定的Zabbix監控系統

Milvus 老友匯｜RAG 場景、電商平臺、AI 平臺……如何用向量數據庫構建業務方案？

提高 RAG 應用準確度，時下流行的 Reranker 瞭解一下？

數據分析之Pandas合併操作總結

機器學習模型評估與超參數調優詳解

180萬獎金！數據挖掘，NLP，CV等23個賽道，2020 科大訊飛AI大賽正式發佈！

常用數據分析方法：方差分析及實現！

數據分析之Pandas缺失數據處理

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

阿里機器學習算法面經（已offer）

一面（簡歷面 半小時）

二面（視頻面 四十分鐘）

三面（P9交叉面 一小時）

四面（四十分鐘）：

五面（主管面 現場面 一小時五十分鐘）：

HR面（三十分鐘）：

一面（簡歷面半小時）

二面（視頻面四十分鐘）

三面（P9交叉面一小時）

五面（主管面現場面一小時五十分鐘）：