運維工程師面試的經歷及面試相關問題

轉載

$]8JN)U]9_~QYJSUI{Z[LLC4.png$

2018年1月4號面試

筆者其實沒有想到去面試，只是在智聯上更新了一下簡歷，就陸陸續續接到很多獵頭的郵件和電話，實在是沒準備好要去面試，就推掉了幾家公司的面試了。正因爲筆者也很久沒有面試了，筆者也想去面試學習一下，閒話少說，下面就分享給大家筆者在2018年1月4號上午10點30分的面試經歷：

首先，獵頭或者公司人資會把公司的介紹及崗位要求發到你郵箱（或者QQ、微信），下面這份是獵頭髮給我的崗位說明，爲了職業道德操守，公司的介紹和麪試通知信息我就不貼出來了，我就把崗位要求貼出來：

職位描述：

1、負責應用服務器的安裝、配置、優化與維護；

2、負責應用系統的日誌信息備份、管理、維護與分析；

3、負責應用系統的日常監測於維護、故障處理、性能分析與優化；

4、負責應用部署系統、環境配置系統、監控系統的開發、部署、升級與維護，建設高性能的運維平臺。

崗位要求:

1、熟悉Linux操作系統的基礎知識，熟練使用Linux常用操作命令；

2、熟練配置Nginx、HAproxy 等應用相關軟件的部署、配置與優化維護；

3、熟悉網絡基礎知識、熟悉TCP/IP的工作原理，會配交換機或路由器，能熟練的對網絡情況進行分析

4、熟悉shell/perl/python中的一種或多種進行運維程序的開發；

5、熟悉Nagios,Ganglia等監控軟件

看着上面的要求大家是不是覺得要求也不高啊，你要細看就會發現，這家公司要求的還挺多，不僅要會網絡知識（熟悉TCP/IP好像是每家單位的都會寫這樣的要求），還要會開發技能。相信很多做運維的兄弟在網絡這一塊是個頭疼的事情，都對交換機和路由器不怎麼會配置和管理。

然後，筆者詳細瞭解他們公司，瞭解崗位要求，在突擊複習一下可能會問到的知識點和技術點。到了面試的這天時間，早早的起牀，把牙一定要刷乾淨，特別是有口臭的兄弟，最好準備點口香糖，到達面試公司前嚼塊口香糖，以免因爲口氣的原因薰到面試官，讓你在面試官心裏減分。早點要記得吃，如果你是下午面試的話也要吃午飯，吃早點了精氣神就有了。還要注意，帶上你的簡歷和一支筆，雖然他們那邊也會有你的簡歷，爲了以防萬一還是準備好簡歷。

最後，關鍵點來了，就是和面試官溝通了，有筆試的公司會讓你做些面試題，沒有筆試就直接和面試官聊了，下面是我和面試官溝通完之後記住的一些問題，分享給大家看一下，筆者一共記住了7個問題，好像還有兩個問題實在想不起來了，如果大家有更恰當的回答一定要貼出來一起探討和進步：

1、介紹下自己？（幾乎每家公司首先都會讓你做個自我介紹，好像是必修課一樣）

筆者回答：此處省略筆者的自我介紹，筆者建議介紹自己的時間不宜過長，3-4分鐘爲宜，說多了面試官會覺得你太囉嗦了。說太少了也不行，那樣會讓人感覺你的經歷太簡單了、太空了。正常情況下，一般你在做自我介紹的同時，面試官這個時候在看你的簡歷，他需要一邊看簡歷、一邊聽你介紹自己，如果你說個幾句話就把自己介紹完了，他肯定還沒緩過神來，對你的映像會減分的。在介紹的同時思維要清晰，邏輯要清楚，最好是根據你簡歷上寫的經歷來介紹，這樣可以把面試官的思路帶到你這裏來，讓他思路跟着你走。不要東扯一句，西扯一句。竟量少介紹自己的性格、愛好（最好能不說就不說），你可以簡單羅列幹過幾家公司（最多羅列3家公司/也包含目前所在的公司，注意順序不要亂），都在那幾家公司負責什麼工作，都用過什麼技術，在着重介紹一下你目前所在的公司是負責哪些工作的，可以稍微詳細一點介紹，不要讓面試官聽着暈頭轉向的感覺。

2、灰度發佈如何實現？

筆者回答：其實對這個問題筆者也答的不好，就不寫出來誤導大家了。大家有好的方法可以共享出來。不過筆事後在知呼上看到了一位網友的建議覺得不錯，大家可以參考看一下：https://www.zhihu.com/question/20584476

3、Mongodb熟悉嗎，一般部署幾臺？

筆者回答：部署過，沒有深入研究過，一般mongodb部署主從、或者mongodb分片集羣；建議3臺或5臺服務器來部署。MongoDB分片的基本思想就是將集合切分成小塊。這些塊分散到若干片裏面，每個片只負責總數據的一部分。對於客戶端來說，無需知道數據被拆分了，也無需知道服務端哪個分片對應哪些數據。數據在分片之前需要運行一個路由進程，進程名爲mongos。這個路由器知道所有數據的存放位置，知道數據和片的對應關係。對客戶端來說，它僅知道連接了一個普通的mongod，在請求數據的過程中，通過路由器上的數據和片的對應關係，路由到目標數據所在的片上，如果請求有了迴應，路由器將其收集起來回送給客戶端。

4、如何發佈和回滾，用jenkins又是怎麼實現？

筆者回答：發佈：jenkins配置好代碼路徑（SVN或GIT），然後拉代碼，打tag。需要編譯就編譯，編譯之後推送到發佈服務器（jenkins裏面可以調腳本），然後從分發服務器往下分發到業務服務器上。

回滾：按照版本號到發佈服務器找到對應的版本推送

5、Tomcat工作模式？

筆者回答：Tomcat是一個JSP/Servlet容器。其作爲Servlet容器，有三種工作模式：獨立的Servlet容器、進程內的Servlet容器和進程外的Servlet容器。

進入Tomcat的請求可以根據Tomcat的工作模式分爲如下兩類：

Tomcat作爲應用程序服務器：請求來自於前端的web服務器，這可能是Apache, IIS, Nginx等；

Tomcat作爲獨立服務器：請求來自於web瀏覽器；

6、監控用什麼實現的？

筆者回答：現在公司的業務都跑在阿里雲上，我們首選的監控就是用阿里雲監控，阿里雲監控自帶了ECS、RDS等服務的監控模板，可結合自定義報警規則來觸發監控項。上家公司的業務是託管在IDC，用的是zabbix監控方案，zabbix圖形界面豐富，也自帶很多監控模板，特別是多個分區、多個網卡等自動發現並進行監控做得非常不錯，不過需要在每臺客戶機（被監控端）安裝zabbix agent。

7、你是怎麼備份數據的，包括數據庫備份？

筆者回答：在生產環境下，不管是應用數據、還是數據庫數據首先在部署的時候就會有主從架構、或者集羣，這本身就是屬於數據的熱備份；其實考慮冷備份，用專門一臺服務器做爲備份服務器，比如可以用rsync+inotify配合計劃任務來實現數據的冷備份，如果是發版的包備份，正常情況下有臺發佈服務器，每次發版都會保存好發版的包。

總結一下面試注意幾點事項，可能筆者也說得不太對，爲了我們運維工作的兄弟們都能拿到高薪，大家一定要指證出來一起進步、一起探討：

第一，你要對自己的簡歷很熟悉，簡歷上的寫的技能自己一定要能說出個一二，因爲面試官的很多問題都會挑你簡歷上寫的問。比如你簡歷上寫了這麼一條技能“熟悉mysql數據庫的部署安裝及原理”。你即然寫了這麼一條技能，你在怎麼不熟悉你也要了解mysql的原理，能說出個大概意思。萬一面試官問到了你寫的這一條，你都答不上來，那在他心裏你又減分了，基本上這次面試希望不大。

第二，如果面試官問到你不會的問題，你就說這個不太熟悉，沒有具體研究過，千萬別不懂裝懂，還扯一堆沒用的話題來掩飾，這樣只會讓面試官反感你。

第三，準備充分，竟可能多的記住原理性的知識，一般面試問的多的就是原理。很少問具體的配置文件是怎麼配置的。面試前也要了解清楚“職位描述”和“崗位要求”，雖然有時候大多數不會問到崗位要求的問題，但也要了解和熟悉。

第四，面試完後一定要總結，儘量記住面試官問的每一個問題，回去記錄下來，如果問到不會的問題，事後要立馬查百度或者找朋友搞清楚、弄明白，這樣你才能記勞，下次面試說不定又問到同樣的問題。

問完之後，面試官就跟我聊薪資待遇了，問我多少錢能達到自己的要求，我就不便透露了，可以私聊，哈哈，後續筆者會陸陸續續更新以前面試的經歷和問題，有需要的朋友可以轉載或者收藏起來一起討論。

2017年2月24號面試

基於大家熱情高昂的氣氛，筆者又花了一個下午的時間回憶並整理在2017年2月24號筆者在東三環邊上（快到東四環了，沒有地鐵過去，到了四惠還要轉公交車）的一家傳媒公司的面試經歷，還好筆者有做筆記的習慣，把之前面試的問題都記錄在案，這一次的面試筆者可是記憶猶新，因爲這次這家公司都跟筆者發offer了，實在是真心不想去這家公司就找原因推掉了，大家可別學我這麼不靠譜。下面是這家公司中的崗位要求說明：

崗位職責：
1、負責公司產品的版本控制、構建和發佈管理；
2、負責公司統一配置庫管理工作，權限管理與分配準確及時，定期完成配置備份；
3、負責公司內部開發/測試服務器的運行管理工作；
4、負責Linux操作系統的安裝、配置、監控和維護、問題處理、軟件升級、數據備份、應急響應、故障排除等、保證線上環境的穩定運行；
5、負責支撐平臺24×7穩定運行，並進行前瞻性容量規劃；
6、負責公司機房服務器日常維護及網絡系統安裝、部署、維護工作。

崗位要求：
1、計算機相關專業本科及以上學歷，2年以上運維或配置管理工作經驗；
2、至少熟悉一種監控系統搭建，如Nagios/Zabbix/等；
3、至少熟悉一種集羣管理工具，如Ansible/SaltStack等；
4、有使用集成發佈工具發佈構建經驗優先。比如：bamboo或者Jenkins；
5、熟悉Unix/Linux操作系統，熟悉Weblogic/tomcat等中間件，能夠編寫shell腳本，熟悉軟件開發過程及過程產品，有一定的網絡基礎；
6、熟悉rsyslog, flume等日誌收集和處理系統；
7、具有強烈的安全意識及較強的溝通協調和學習能力，良好的團隊合作精神，工作積極主動。

過去之後，前臺美眉把我帶到他們公司的地下室，我掃視了一下週圍的環境，貌似旁邊就是機房，因爲我聽到服務器的聲音。等了幾分鐘，面試官下來了，面試官目測比較瘦，看着跟我身材差不多（應該不到120），他說他是負責運維部的，然後開始就叫我先自我介紹，都是一個套路，免不了介紹的，所以兄弟們一定要把自我介紹練好。然後開始問我問題了，跟面試官聊得還行，問我應該有不下10個以上的問題，我記住了下面有10個問題：

1、LVS負載的原理，和Nginx負載有啥區別？

筆者回答：這個問題我覺得面試官司沒問好，正常都會這麼問“LVS有哪些負載均衡技術和調度算法?"。我回答就是按我說的這種問法回答的，反正他也頻繁點頭，當然，筆者回答的可能沒有下面我整理出來的那麼詳細，大概意思我都說明白了。

LVS是Liunx虛擬服務器的簡稱，利用LVS提供的負載均衡技術和linux操作系統可實現高性能、高可用的服務器集羣，一般LVS都是位於整個集羣系統的最前端，由一臺或者多臺負載調度器（Director Server）組成，分發給應用服務器（Real Server）。它是工作在4層（也就是TCP/IP中的傳輸層），LVS是基於IP負載均衡技術的IPVS模塊來實現的，IPVS實現負載均衡機制有三種，分別是NAT、TUN和DR，詳述如下：

 VS/NAT：即（Virtual Server via Network Address Translation）

也就是網絡地址翻譯技術實現虛擬服務器，當用戶請求到達調度器時，調度器將請求報文的目標地址（即虛擬IP地址）改寫成選定的Real Server地址，同時報文的目標端口也改成選定的Real Server的相應端口，最後將報文請求發送到選定的Real Server。在服務器端得到數據後，Real Server返回數據給用戶時，需要再次經過負載調度器將報文的源地址和源端口改成虛擬IP地址和相應端口，然後把數據發送給用戶，完成整個負載調度過程。

可以看出，在NAT方式下，用戶請求和響應報文都必須經過Director Server地址重寫，當用戶請求越來越多時，調度器的處理能力將稱爲瓶頸。

 VS/TUN ：即（Virtual Server via IP Tunneling）

也就是IP隧道技術實現虛擬服務器。它的連接調度和管理與VS/NAT方式一樣，只是它的報文轉發方法不同，VS/TUN方式中，調度器採用IP隧道技術將用戶請求轉發到某個Real Server，而這個Real Server將直接響應用戶的請求，不再經過前端調度器，此外，對Real Server的地域位置沒有要求，可以和Director Server位於同一個網段，也可以是獨立的一個網絡。因此，在TUN方式中，調度器將只處理用戶的報文請求，集羣系統的吞吐量大大提高。

 VS/DR：即（Virtual Server via Direct Routing）

也就是用直接路由技術實現虛擬服務器。它的連接調度和管理與VS/NAT和VS/TUN中的一樣，但它的報文轉發方法又有不同，VS/DR通過改寫請求報文的MAC地址，將請求發送到Real Server，而Real Server將響應直接返回給客戶，免去了VS/TUN中的IP隧道開銷。這種方式是三種負載調度機制中性能最高最好的，但是必須要求Director Server與Real Server都有一塊網卡連在同一物理網段上。

回答負載調度算法，IPVS實現在八種負載調度算法，我們常用的有四種調度算法（輪叫調度、加權輪叫調度、最少鏈接調度、加權最少鏈接調度）。一般說了這四種就夠了，也不會需要你詳細解釋這四種算法的。你只要把上面3種負載均衡技術講明白面試官就對這道問題很滿意了。接下來你在簡單說下與nginx的區別：

LVS的優點：

抗負載能力強、工作在第4層僅作分發之用，沒有流量的產生，這個特點也決定了它在負載均衡軟件裏的性能最強的；無流量，同時保證了均衡器IO的性能不會受到大流量的影響；
工作穩定，自身有完整的雙機熱備方案，如LVS+Keepalived和LVS+Heartbeat；
應用範圍比較廣，可以對所有應用做負載均衡；
配置性比較低，這是一個缺點也是一個優點，因爲沒有可太多配置的東西，所以並不需要太多接觸，大大減少了人爲出錯的機率。

LVS的缺點：

軟件本身不支持正則處理，不能做動靜分離，這就凸顯了Nginx/HAProxy+Keepalived的優勢。
如果網站應用比較龐大，LVS/DR+Keepalived就比較複雜了，特別是後面有Windows Server應用的機器，實施及配置還有維護過程就比較麻煩，相對而言，Nginx/HAProxy+Keepalived就簡單一點

Nginx的優點：

工作在OSI第7層，可以針對http應用做一些分流的策略。比如針對域名、目錄結構。它的正則比HAProxy更爲強大和靈活；
Nginx對網絡的依賴非常小，理論上能ping通就就能進行負載功能，這個也是它的優勢所在；
Nginx安裝和配置比較簡單，測試起來比較方便；
可以承擔高的負載壓力且穩定，一般能支撐超過幾萬次的併發量；
Nginx可以通過端口檢測到服務器內部的故障，比如根據服務器處理網頁返回的狀態碼、超時等等，並且會把返回錯誤的請求重新提交到另一個節點；
Nginx不僅僅是一款優秀的負載均衡器/反向代理軟件，它同時也是功能強大的Web應用服務器。LNMP現在也是非常流行的web環境，大有和LAMP環境分庭抗禮之勢，Nginx在處理靜態頁面、特別是抗高併發方面相對apache有優勢；
Nginx現在作爲Web反向加速緩存越來越成熟了，速度比傳統的Squid服務器更快，有需求的朋友可以考慮用其作爲反向代理加速器；

Nginx的缺點：

Nginx不支持url來檢測。
Nginx僅能支持http和Email，這個它的弱勢。
Nginx的Session的保持，Cookie的引導能力相對欠缺。

2、redis集羣的原理，redis分片是怎麼實現的，你們公司redis用在了哪些環境？

筆者回答：reids集羣原理：

其實它的原理不是三兩句話能說明白的，redis 3.0版本之前是不支持集羣的，官方推薦最大的節點數量爲1000，至少需要3(Master)+3(Slave)才能建立集羣，是無中心的分佈式存儲架構，可以在多個節點之間進行數據共享，解決了Redis高可用、可擴展等問題。集羣可以將數據自動切分(split)到多個節點，當集羣中的某一個節點故障時，redis還可以繼續處理客戶端的請求。

redis分片：

分片(partitioning)就是將你的數據拆分到多個 Redis 實例的過程，這樣每個實例將只包含所有鍵的子集。當數據量大的時候,把數據分散存入多個數據庫中,減少單節點的連接壓力,實現海量數據存儲。分片部署方式一般分爲以下三種：

（1）在客戶端做分片；這種方式在客戶端確定要連接的redis實例，然後直接訪問相應的redis實例；

（2）在代理中做分片；這種方式中，客戶端並不直接訪問redis實例，它也不知道自己要訪問的具體是哪個redis實例，而是由代理轉發請求和結果；其工作過程爲：客戶端先將請求發送給代理，代理通過分片算法確定要訪問的是哪個redis實例，然後將請求發送給相應的redis實例，redis實例將結果返回給代理，代理最後將結果返回給客戶端。

（3）在redis服務器端做分片；這種方式被稱爲“查詢路由”，在這種方式中客戶端隨機選擇一個redis實例發送請求，如果所請求的內容不再當前redis實例中它會負責將請求轉交給正確的redis實例，也有的實現中，redis實例不會轉發請求，而是將正確redis的信息發給客戶端，由客戶端再去向正確的redis實例發送請求。

redis用在了哪些環境：

java、php環境用到了redis，主要緩存有登錄用戶信息數據、設備詳情數據、會員簽到數據等

3、你會怎麼統計當前訪問的IP，並排序？

筆者回答：統計用戶的訪問IP，用awk結合uniq、sort過濾access.log日誌就能統計並排序好。一般這麼回答就夠了，當然你還可以說出其它方式來統計，這都是你的加分項。

4、你會使用哪些虛擬化技術？

筆者回答：vmware vsphere及kvm，我用得比較多的是vmware vsphere虛擬化，幾本上生產環境都用的vmware vsphere，kvm我是用在測試環境中使用。vmware 是屬於原生架構虛擬化技術，也就是可直接在硬件上運行。kvm屬於寄居架構的虛擬化技術，它是依託在系統之上運行。vmware vcenter

管理上比較方便，圖形管理界面功能很強大，穩定性強，一般比較適合企業使用。KVM管理界面稍差點，需要管理人員花費點時間學習它的維護管理技術。

5、假如有人反應，調取後端接口時特別慢，你會如何排查？

筆者回答：其實這種問題都沒有具體答案，只是看你回答的內容與面試官契合度有多高，能不能說到他想要的點上，主要是看你排查問題的思路。我是這麼說的：問清楚反應的人哪個服務應用或者頁面調取哪個接口慢，叫他把頁面或相關的URL發給你，首先，最直觀的分析就是用瀏覽器按F12，看下是哪一塊的內容過慢（DNS解析、網絡加載、大圖片、還是某個文件內容等），如果有，就對症下藥去解決（圖片慢就優化圖片、網絡慢就查看內網情況等）。其次，看後端服務的日誌，其實大多數的問題看相關日誌是最有效分析，最好用tail -f 跟蹤一下日誌，當然你也要點擊測試來訪問接口日誌纔會打出來。最後，排除sql，，找到sql去mysql執行一下，看看時間是否很久，如果很久，就要優化SQL問題了，expain一下SQL看看索引情況啥的，針對性優化。數據量太大的能分表就分表，能分庫就分庫。如果SQL沒啥問題，那可能就是寫的邏輯代碼的問題了，一行行審代碼，找到耗時的地方改造，優化邏輯。

6、mysql數據庫用的是主從讀寫分離，主庫寫，從庫讀，假如從庫無法讀取了、或者從庫讀取特別慢，你會如何解決？

筆者回答：這個問題筆者覺得回答的不太好，對mysql比較在行的朋友希望能給點建議。以解決問題爲前提條件，先添加從庫數量，臨時把問題給解決，然後抓取slow log ，分析sql語句，該優化就優化處理。慢要不就是硬件跟不上，需要升級；要不就是軟件需要調試優化，等問題解決在細化。

7、cpu單核和多核有啥區別？

筆者回答：很少有面試官會問這樣的問題，即然問到了，也要老實回答。還好筆者之前瞭解過CPU，我是這麼說的：雙核CPU就是能處理多份任務，順序排成隊列來處理。單核CPU一次處理一份任務，輪流處理每個程序任務。雙核的優勢不是頻率，而是對付同時處理多件事情。單核同時只能幹一件事，比如你同時在後臺BT下載，前臺一邊看電影一邊拷貝文件一邊QQ。

8、機械磁盤和固態硬盤有啥區別？

筆者回答：我擦，啥年代了，還問磁盤的問題，這面試官有點逗啊。那也要回答啊：

HDD代表機械硬盤，SSD代表固態硬盤。首先，從性能方面來說，固態硬盤幾乎完勝機械硬盤，固態硬盤的讀寫速度肯定要快機械硬盤，因爲固態硬盤和機械硬盤的構造是完全不同的（具體的構造就沒必要解釋了）。其次，固態盤幾乎沒有噪音、而機械盤噪音比較大。還有就是，以目前的市場情況來看，一般機械盤容量大，價格低；固態盤容量小，價格偏高。但是企業還是首選固態盤。

9、說一下用過哪些監控系統？

筆者回答：這個監控的問題又問到了，筆者在2018年1月4號也被問到類似這樣的問題，筆者曾經用過zabbix、nagios、 cacit等。但是在這次面試中只說用過zabbix和nagios。說完了之後，面試官就讓我說一下這兩個監控有啥區別：

從web功能及畫圖來講：

Nagios簡單直觀，報警與數據都在同一頁面，紅色即爲問題項。Nagios web端不要做任何配置。 Nagios需要額外安裝插件，且插件畫圖不夠美觀。

Zabbix監控數據與報警是分開的，查看問題項需要看觸發器，查看數據在最新數據查看。而且zabbix有很多其它配置項， zabbix攜帶畫圖功能，且能手動把多個監控項集在一個圖中展示。

從監控服務來講：

Nagios自帶的監控項很少。對一些變動的如多個分區、多個網卡進行監控時需要手動配置。

Zabbix自帶了很多監控內容，感覺zabbix一開始就爲你做了很多事，特別是對多個分區、多個網卡等自動發現並進行監控時，那一瞬間很驚喜，很省心的感覺。

從批量配置和報警來講：

Nagios對於批量監控主機，需要用腳本在server端新增host，並拷貝service文件。 Nagios用腳本來修改所有主機的services文件，加入新增服務。

Zabbix在server端配置自動註冊規則，配置好規則後，後續新增client端不需要對server端進行操作。 Zabbix只需手動在模板中新增一監控項即可。

總體來講：

Nagios要花很多時間寫插件，Zabbix要花很多時間探索功能。

Nagios更易上手，Nagios兩天弄會，Zabbix兩週弄會。

Zabbix畫圖功能比Nagios更強大

Zabbix對於批量監控與服務更改，操作更簡潔；Nagios如果寫好自動化腳本後，也很簡單，問題在於寫自動化腳本很費神。

10、給你一套環境，你會如何設計高可用、高併發的架構？

筆者回答：

如果這套環境是部署在雲端(比如阿里雲)，你就不用去考慮硬件設計的問題。可直接上阿里雲的SLB+ECS+RDS這套標準的高可用、高併發的架構。對外服務直接上SLB負載均衡技術，由阿里的SLB分發到後端的ECS主機；ECS主機部署多臺，應用拆分在不同的ECS主機上，儘量細分服務。數據庫用RDS高可用版本（一主一備的經典高可用架構）、或者用RDS金融版（一主兩備的三節點架構）。在結合阿里其它的服務就完全OK，業務量上來了，主機不夠用了，直橫向擴容ECS主機搞定。

如果這套環境託管在IDC，那麼你就要從硬件、軟件（應用服務）雙面去考慮了。硬件要達到高可用、高併發公司必須買多套網絡硬件設備（比如負載設備F5、防火牆、核心層交換、接入層交換）都必須要冗餘，由其是在網絡設計上，設備之間都必須有雙線連接。設備如果都是跑的單機，其中一個設備掛了，你整個網絡都癱瘓了，就談不上高可用、高併發了。其次在是考慮應用服務了，對外服務我會採用成熟的開源方案LVS+Keepalived或者Nginx+Keepalived，緩存層可以考慮redis集羣及Mongodb集羣，中間件等其它服務可以用kafka、zookeeper，圖片存儲可以用fastDFS或MFS，如果數據量大、又非常多，那麼可採用hadoop這一套方案。後端數據庫可採用 “主從+MHA”。這樣一套環境下來是絕對滿足高可用、高併發的架構。

在上一篇文章總結一下：運維工程師面試的經歷及面試相關問題（會持續更新）筆者也講到會持續更新，由於上一篇文章內容有點長，爲了便於大家閱讀，所以筆者就另起這篇文章繼續來講述一下筆者的其它面試過程的面試問題。

其實筆者寫這文章的目的很簡單，就是想和大家一起探討和學習咋們做運維的兄弟如何在面試的時候成功率能大幅度的提高，並且能拿到滿意的待遇，當然自身還是要不斷的學習，提高技術能力。還有就是大家去面試前看一下這篇文章對面試會有所幫助，面試的時候能更加的自信，筆者也想多交些朋友，共同學習和進步。下面分享一下筆者在2018年1月8號和海外面試官司的電話面試是怎麼進行的？

2018年1月8號海外電話面試

一次偶然的機會，筆者在一個招聘平臺中（我就不細說哪個平臺，免得有打廣告的意思）刷新崗位的時候突然看到一個新發布的崗位，仔細一看是海外的崗位，上面寫的待遇、福利、工作內容筆者都有點興趣，由於筆者也沒有嘗試過海外面試的機會和感覺，所以就和發佈這個崗位的獵頭聯繫上了。

獵頭問我要了簡歷，並把個人信息詳細豐富了一下，比如有沒有護照、工作了多久、個人職業規劃、期望到手的薪資等等。獵頭就把我的簡歷和詳細的個人信息推薦出去了，過了幾天時間，獵頭通知我簡歷篩選通過了，約個時間可以進行技術面試（電話面試），然後就這樣約在了2018年1月8號上午。

雖然這次是海外面試，但是面試官是我們華人，和面試官在電話中將近聊了2個小時左右，筆者聊的也口乾舌燥。這一次面試官將近問了40個左右的問題，量實大有點大，筆者也沒記住這麼多，大概記住了30多個問題，忘記開錄音了，不然這些問題都能分享出來。別看是海外的面試官，其實這次所問的問題在我們國內的面試中也常常會問到的，我們先來看一下海外的公司的崗位要求吧：

崗位職責：
1、日常線上項目的需求處理；
2、新項目上線對接的相關工作；
3、日常運維工具開發、維護、優化；
4、監控業務的運行狀態，及時處理項目運行中出現的故障，保障項目服務24x7穩定運行；
5、分析排除系統、數據庫、網絡、應用等故障及錯誤；
6、負責服務器的資源調配和系統安全、數據備份。
任職要求：
1. 熟悉linux操作系統，熟練使用一種或多種腳本語言（例如 Python/Perl/Shell）；
2. 熟悉至少一種共有云技術，多種運維平臺工具（Nagios, Zabbix，Puppet等）
3. 熟悉Nginx,Mysql, Redis, Keepalived, LVS等中間件的配置與調優；
4. 熟悉網絡部署，多種數據機房故障的發現和排除的工具，有做個跨機房數據同步的優先；
5. 熟悉mysql、redis、mongoDB的安裝、維護、性能優化；
6. 瞭解反向代理、負載均衡原理.
7. 有責任心，耐心，積極肯學的心態以及良好的溝通表達能力和團隊合作精神；

其實這個要求，我在上一篇文章也說到過，大多數公司都寫得差不多，很多公司自己懶的寫，直接照搬別的公司發出來崗位要求，所以我們只要瞭解它就可以了，面試的時候不一定會問到這些崗位的要求說明，你看這家公司沒有寫熟悉TCP/IP，其實面試官這一次有問到TCP/IP這個問題的。這次技術面試後總體面試官還是比較滿意，後來獵頭通知我一面過了，準備安排2018年1月11號下午進行二面（跟我談薪資、對海外工作的想法、人生規劃等話題）。好了，不多說了，大家自己慢慢看我和面試官聊的技術問題吧。

1、介紹下自己？

筆者回答：不管是電話面試還是現場面試，自我介紹是避免不了的，上一篇文章我有詳細介紹這塊的內容，這裏不做解釋了，感興趣的朋友參考我上一篇文章：

總結一下：運維工程師面試的經歷及面試相關問題（會持續更新）

2、爲什麼想着要離開現在的公司？

筆者回答：雖然是面試技術，但也會有很多面試官會不經意的問你這個問題，看起來很隨意的問題，其實這個問題裏面隱藏了很多信息，最直觀的就是看你這個人對企業的忠誠度、還能看你是不是心浮氣燥的性格等等。如果你曾經頻繁跳過槽，不管出於什麼原因，筆者個人都不建議寫在簡歷上，最好能夠合併一些工作時間和單位，企業是很擔心把你招來後會不會短時間你又跳槽了。當然如果都是因爲企業經營不善倒閉所至，就沒關係了。說到這裏，就想起了筆者曾經一位同事，連續在好幾家單位都幹倒閉了，這我也不知道說啥好了。。。好了，咋們接着往下走。

3、TCP/IP原理說一下？TCP有哪幾個狀態，分別是什麼意思？

筆者回答：以tcp/ip協議爲核心,分五層。tcp工作在第4層，主要有tcp和udp協議。其中tcp是可靠協議，udp是不可靠協議。 tcp傳輸之前，需要建立連接，通過三次握手實現。

TCP三次握手狀態：首先是closed狀態，當發起連接後，進入Listen狀態，當三次握手之後，進入EST狀態。三次握手中間還有一個臨時狀態:SYN_SENT。SYN_SENT 當應用程序發送ack之後，進入EST狀態,如果沒有發送，就關閉closed.

總結：大家一定要熟記tcp狀態轉換圖，參考 http://blog.csdn.net/wenqian1991/article/details/40110703 如下圖：

4、有個客戶說訪問不到你們的網站，但是你們自己測試內網和外網訪問都沒問題。你會怎麼排查並解決客戶的問題？

筆者回答：我們自己測了都沒問題，只是這個客戶訪問有問題，那肯定是要先聯繫到這個客戶，能遠程最好，問一下客戶的網絡是不是正常的，訪問其它的網站有沒有問題（比如京東、百度什麼的）。如果訪問其它網站有問題，那叫客戶解決本身網絡問題。如果訪問其它網站都沒問題，用ping和nslookup解析一下我們的網站是不是正常的，讓客戶用IP來訪問我們的網站是否可行，如果IP訪問沒問題，那就是客戶的DNS服務器有問題或者DNS服務器解析不到我們的網站。還有一種可能就是跨運營商訪問的問題，比如我們的服務器用的是北方聯通、而客戶用的是南方移動，就也有可能突然在某個時間段訪問不到，這種情況在龐大的中國網絡環境中經常發生（一般是靠CDN解決）。還有可能就是我們的網站沒有SSL證書，在公網是使用的是http協議，這種情況有可能就是沒有用https協議網站被運營商劫持了。

5、redhat 6.X版本系統和 centos 7.X版本有啥區別？

筆者回答：桌面系統（6/GNOE2.x、7/GNOME3.x）、文件系統（6/ext4、7/xfs）、內核版本（6/2.6x、7/3.10x）、防火牆（6/iptables、7/firewalld）、默認數據庫（6/mysql、7/mariadb）、啓動服務（6/service啓動、7/systemctl啓動）、網卡（6/eth0、7/ens192）等。

6、你會用什麼方法查看某個應用服務的流量使用情況？

筆者回答：如果是單一應用的服務器，只需要用iftop、sar等工具統計網卡流量就可以。如果服務器跑了多個應用，可以使用nethogs工具實現，它的特別之處在於可以顯示每個進程的帶寬佔用情況，這樣可以更直觀獲取網絡使用情況。

7、說一下你們公司怎麼發版的（代碼怎麼發佈的）？

筆者回答：我說什麼來着，這個問題又問到了。發佈：jenkins配置好代碼路徑（SVN或GIT），然後拉代碼，打tag。需要編譯就編譯，編譯之後推送到發佈服務器（jenkins裏面可以調腳本），然後從分發服務器往下分發到業務服務器上。

8、elk中的logstash是怎麼收集日誌的，在客戶端的logstash配置文件主要有哪些內容？

筆者回答：input、output兩大塊配置；input中指定日誌（type、path）等，output指定日誌輸出的目標（host、port）等。

9、ansible你用過它的哪些模塊，ansbile同時分發多臺服務器的過程很慢（它是逐臺分發的），你想過怎麼解決嗎？

筆者回答：用過ansible的（copy file yum ping command shell）等模塊；ansible默認只會創建5個進程,所以一次任務只能同時控制5臺機器執行.那如果你有大量的機器需要控制,或者你希望減少進程數,那你可以採取異步執行.ansible的模塊可以把task放進後臺,然後輪詢它.這使得在一定進程數下能讓大量需要的機器同時運作起來.

10、nginx有哪幾種調度算法，解釋一下ip hash和輪詢有啥不一樣？

筆者回答：常用的有3種調度算法（輪詢、ip hash、權重）。

輪詢：upstream按照輪詢（默認）方式進行負載，每個請求按時間順序逐一分配到不同的後端服務器，如果後端服務器down掉，能自動剔除。

ip hash：每個請求按訪問ip的hash結果分配，這樣每個訪客固定訪問一個後端服務器，可以解決session的問題。

權重：指定輪詢機率，權重（weight）和訪問比率成正比，用於後端服務器性能不均的情況。

11、nginx你用到了哪些模塊，在proxy模塊中你配置過哪些參數？

筆者回答：用到過（負載均衡upstream、反向代理proxy_pass、location、rewrite等）。

proxy模塊中配置過:proxy_set_header、proxy_connect_timeout、proxy_send_timeout、proxy_buffer_*

12、說一下iptables的原理，有哪些表、哪些鏈？怎麼修改默認策略全部爲DROP?

筆者回答：iptables是工作在TCP/IP的2、3、4層。你要說它的原理也不是幾話能概括的，當主機收到一個數據包後，數據包先在內核空間中處理，若發現目的地址是自身，則傳到用戶空間中交給對應的應用程序處理，若發現目的不是自身，則會將包丟棄或進行轉發。

4張表（raw表、mangle表、net表、filter表）

5條鏈（INPUT鏈、OUTPUT鏈、PORWARD鏈、PREROUTING鏈、POSTROUTING鏈）。

全部設置爲DROP：

#iptables -P INPUT DROP
#iptables -P OUTPUT DROP
#iptables -P FORWARD DROP

小結：iptables遠不止這幾句話就能描述清楚的，也不是隨便在網上趴些資料就能學好的，需要自己用起來，經過大量的實驗和實戰才能熟悉它，iptables真的很考驗運維人員的技術水平，大家一定要用心學好這個iptables。

13、如何開啓linux服務器路由轉發功能？

筆者回答：echo "1" > /proc/sys/net/ipv4/ip_forward

14、nginx中rewrite有哪幾個flag標誌位（last、break、redirect、permanent），說一下都什麼意思？

筆者回答：

last : 相當於Apache的[L]標記，表示完成當前的rewrite規則
break : 停止執行當前虛擬主機的後續rewrite指令集
redirect : 返回302臨時重定向，地址欄會顯示跳轉後的地址
permanent : 返回301永久重定向，地址欄會顯示跳轉後的地址

301和302不能簡單的只返回狀態碼，還必須有重定向的URL，這就是return指令無法返回301,302的原因了。這裏 last 和 break 區別有點難以理解：

last一般寫在server和if中，而break一般使用在location中
last不終止重寫後的url匹配，即新的url會再從server走一遍匹配流程，而break終止重寫後匹配
break和last都能組織繼續執行後面的rewrite指令

總結：關於nginx rewrite用法，筆者看到一篇文章總結的挺不錯，可以參考一下 https://www.jianshu.com/p/a1fce9358d44

15、你在shell腳本中用過哪些語法，case語法會用到哪些地方？

筆者回答：一般會用到if語句、for語句、while語句、case語句以及function函數的定義；case語句爲多選擇語句，可以用case語句匹配一個值與一個模式，如果匹配成功，執行相匹配的命令。最典型的case語法會用到啓動服務腳本的處理。

16、linux系統中你會用到什麼命令查看硬件使用狀態信息？

筆者回答：這個命令就很多了，比如：lscpu(查看cpu信息)、free -m（查看內存信息）、df -h（查看硬盤分區信息）、top（還可以動態查看cpu、內存使用情況的信息），/proc/目錄下也可以查看很多硬件信息。

17、我要過濾一段文本(test.txt)中第二列的內容？如果這段文件有很多特殊符號，比如用:（冒號）怎麼過濾它的第二段？如果我要過濾這段文本中，其中有一行只有7個符如何實現？

筆者回答： awk '{print $2}' tset.txt

awk -F':' '{print $2}' tset.txt

18、比如開發想找你查看tomcat日誌，但是catalia.out特別大，你不可能用vi打開去看，你會怎麼查看？如果你用 grep -i"error" 過濾只是包含error的行，我想同時過濾error上面和下面的行如何實現？

筆者回答：grep -i "error" catalia.out

grep -C 1 -i "error" catalia.out

參數-C：是匹配前後的行，後面1是匹配前後各1行

19、怎麼編寫一個定時計劃任務？裏面用到的最小單位是什麼？

筆者回答：crontab -e，最小單位是分鐘

20、zabbix如何修改其中監控的一臺服務器中內存閾值信息，比如正常內存使用到了80%報警，我想修改爲60%報警？

筆者回答：正常來說，一般會把監控的服務器統一加入到一個模板中，修改模板的其是某一項的監控項參數和告警閾值後，加入模板中的所有主機都會同步。如果單獨想修改其中某一臺服務器內存告警閾值，需要進入這臺主機，單獨創建一個告警Triggers，關聯這臺主機監控內存的項，配置好告警的閾值爲60%即可實現。其實，zabbix一切都爲圖形化操作，如果沒有接觸過zabbix的朋友，可能聽起來不太清楚。

21、mysql主從複製原理說一下？

筆者回答：mysql支持三種複製類型（基於語句的複製、基於行的複製、混合類開進的複製）。

如果你記不住太多內容，可以簡單說明一下原理：

(1) master將改變記錄到二進制日誌(binary log)中（這些記錄叫做二進制日誌事件，binary log events）；

(2) slave將master的binary log events拷貝到它的中繼日誌(relay log)；

(3) slave重做中繼日誌中的事件，將改變反映它自己的數據。

如果你能詳細記住它的原理，可以這麼回答：

該過程的第一部分就是master記錄二進制日誌。在每個事務更新數據完成之前，master在二日誌記錄這些改變。MySQL將事務串行的寫入二進制日誌，即使事務中的語句都是交叉執行的。在事件寫入二進制日誌完成後，master通知存儲引擎提交事務。

下一步就是slave將master的binary log拷貝到它自己的中繼日誌。首先，slave開始一個工作線程——I/O線程。I/O線程在master上打開一個普通的連接，然後開始binlog dump process。Binlog dump process從master的二進制日誌中讀取事件，如果已經跟上master，它會睡眠並等待master產生新的事件。I/O線程將這些事件寫入中繼日誌。

SQL slave thread（SQL從線程）處理該過程的最後一步。SQL線程從中繼日誌讀取事件，並重放其中的事件而更新slave的數據，使其與master中的數據一致。只要該線程與I/O線程保持一致，中繼日誌通常會位於OS的緩存中，所以中繼日誌的開銷很小。

22、用什麼命令可以查看上一次服務器啓動的時間、上一次誰登錄過服務器？

筆者回答：w命令查看上次服務器啓動時間。last命令查看登錄。

23、redis集羣原理說一下，正常情況下mysql有多個庫，redis也有多個庫，我怎麼進入redis集羣中的第2個庫？還有，我想查看以BOSS開頭的值？redis持久化是如何實現（一種是RDS、一種是AOF），說一下他們有啥不一樣？

筆者回答：這個redis原理的問題又問到了，看樣子很多面試官都很關心這個redis，在上一篇文章筆者的一次面試也有這個面試問題。

【集羣原理】：其實它的原理不是三兩句話能說明白的，redis 3.0版本之前是不支持集羣的，官方推薦最大的節點數量爲1000，至少需要3(Master)+3(Slave)才能建立集羣，是無中心的分佈式存儲架構，可以在多個節點之間進行數據共享，解決了Redis高可用、可擴展等問題。集羣可以將數據自動切分(split)到多個節點，當集羣中的某一個節點故障時，redis還可以繼續處理客戶端的請求。

【切庫】：單機情況下用select 2可以切換第2個庫，select 1可以切換第1個庫。但是集羣環境下不支持select。可參考https://yq.aliyun.com/articles/69349

【redis持久化】：持久化通俗來講就是將內存中的數據寫入硬盤中，redis提供了兩種持久化的功能（RDB、AOF），默認使用RDB的方式。

RDB：全量寫入持久化，而RDB持久化也分兩種（SAVE、BGSAVE）。

SAVE是阻塞式的RDB持久化，當執行這個命令時redis的主進程把內存裏的數據庫狀態寫入到RDB文件（即上面的dump.rdb）中，直到該文件創建完畢的這段時間內redis將不能處理任何命令請求。

BGSAVE屬於非阻塞式的持久化，它會創建一個子進程專門去把內存中的數據庫狀態寫入RDB文件裏，同時主進程還可以處理來自客戶端的命令請求。但子進程基本是複製的父進程，這等於兩個相同大小的redis進程在系統上運行，會造成內存使用率的大幅增加。

AOF：與RDB的保存整個redis數據庫狀態不同，AOF的持久化是通過命令追加、文件寫入和文件同步三個步驟實現的。AOF是通過保存對redis服務端的寫命令（如set、sadd、rpush）來記錄數據庫狀態的，即保存你對redis數據庫的寫操作。

爲了大家能夠更好的理解redis持久化，筆者建議大家可以看下這兩篇文章會比較好理解：

https://www.cnblogs.com/Fairy-02-11/p/6182478.html

http://blog.csdn.net/mishifangxiangdefeng/article/details/48977269

24、你在工作的過程中，遇到過你映像最深的是什麼故障問題，你又是如何解決？

筆者回答：這個問題主要也是考你排查故障的思路及用到的相關命令工具，其每個人在工作中都會遇到各種各樣的問題（不管是網絡問題、應用配置問題、還是APP打開慢/網站打開慢）等等。你只要記住一個你映像最爲深刻、最爲典型的故障就行。筆者也遇到過各種問題，我在這裏就是寫出來，怕誤導了大家。

25、在linux服務器上，不管是用rz -y命令還是tftp工具上傳，我把本地的一個文件上傳到服務器完成後，服務器上還是什麼都沒有，這有可能是什麼問題？

筆者回答：根據這種現象有可能是：服務器磁盤滿了；文件格式破壞了；或者你用的是普通用戶上傳，正好上傳的目錄沒有權限；還有可能就是你上傳的文件大小超出了該目錄空間的範圍。

26、你在工作中都寫過什麼腳本？

筆者回答：這個問題的回答別把話說得太大了，要結合實際情況來回答。寫過mysql、redis、mongodb等數據庫備份的腳本；服務器文件備份的腳本；日常代碼發佈的腳本；之前用nagios的時候寫過一些nagios插件的腳本。

27、rsync+inotify是實現文件實時同步的，加什麼參數才能實現實時同步，--delete參數又是什麼意思？

筆者回答：rsync是遠程同步工具、inotify是一種強大的異步文件系統系統監控機制。通過inotifywait 中的-m參數可以實現“始終保持事件監聽狀態”。rsync中的-delete參數是指“ 刪除那些DST中SRC沒有的文件”。

28、我想查看access.log中哪個IP訪問最多？

筆者回答：awk '{print $1}' access.log| sort | uniq -c |sort -rn -k 1 | head -1

上面的具體參數如果有不知道的，大家可以自行百度一下，這裏不說參數這麼細節的問題

29、在linux系統中，一般都會有swap內存，你覺得使用swap內存有什麼好處，在什麼情況下swap內存纔會被使用？你覺得在生產環境中要不要用swap內存？

筆者回答：好處：在內存不夠用的時候，將部分內存上的數據交換到swap空間上，以便讓系統不會因爲內存不夠用而導致oom或者更致命的情況出現。

什麼情況下會用swap：當系統的物理內存不夠用的時候，就需要將物理內存中的一部分空間釋放出來，以供當前運行的程序使用。那些被釋放的空間可能來自一些很長時間沒有什麼操作的程序，這些被釋放的空間被臨時保存到swap空間中，等到那些程序要運行時，再從swap中恢復保存的數據到內存中。這樣，系統總是在物理內存不夠時，才進行swap交換。

30、怎麼查看兩臺服務器之間的網絡是不是正常的，服務器是禁ping的？

筆者回答：不能用ping，那可以用telnet對方服務器的端口、或者互相訪問對方打開的服務。其它的測試方法筆者也沒想到，要是哪位朋友有好的方法不訪在下面留言討論。

31、比如我訪問百度網站，有什麼方法可以跟蹤經過了哪些網絡節點？

筆者回答：這個太簡單了吧，幹運維必備的網絡排查技能。用tracert命令就可以跟蹤，主要是查詢本機到另一個主機經過的路由跳數及數據延遲情況。然後你也可以把具體跟蹤後輸出的信息也說出來，你能說出來都是爲你加分的。

32、如果你們公司的網站訪問很慢，你會如何排查？

筆者回答：看到沒有，又問到了這個問題，筆者在上一篇文章 2017年2月14號的面試中面試官也問到同樣的問題。其實這種問題都沒有具體答案，只是看你回答的內容與面試官契合度有多高，能不能說到他想要的點上，主要是看你排查問題的思路。我是這麼說的：問清楚反應的人哪個服務應用或者頁面調取哪個接口慢，叫他把頁面或相關的URL發給你，首先，最直觀的分析就是用瀏覽器按F12，看下是哪一塊的內容過慢（DNS解析、網絡加載、大圖片、還是某個文件內容等），如果有，就對症下藥去解決（圖片慢就優化圖片、網絡慢就查看內網情況等）。其次，看後端服務的日誌，其實大多數的問題看相關日誌是最有效分析，最好用tail -f 跟蹤一下日誌，當然你也要點擊測試來訪問接口日誌纔會打出來。最後，排除sql，，找到sql去mysql執行一下，看看時間是否很久，如果很久，就要優化SQL問題了，expain一下SQL看看索引情況啥的，針對性優化。數據量太大的能分表就分表，能分庫就分庫。如果SQL沒啥問題，那可能就是寫的邏輯代碼的問題了，一行行審代碼，找到耗時的地方改造，優化邏輯。

33、我需要查看某個時間段的日誌(比如access.log日誌)，如何實現?

筆者回答：方法有很多種，比如我要看查的時間是2018年1月9號--1月10號的日誌吧。

比如可以用sed命令，格式爲：sed -n '/起始時間/,/結束時間/p' 日誌文件，如下：

sed -n '/09\/Jan\/2018/,/10\/Jan\/2018/p' access.log

比如可以用grep，格式爲：grep -E '起始時間|結束時間' 日誌文件，如下：

grep -E '09/Jan/2018|10/Jan/2018' access.log

當然，你還可以結合cat、grep 、awk這些命令一起來使用都行。

結語

好了，先到這裏吧，總結了這麼多、打了這麼多字也挺累的，希望大家可以給點鼓勵點個贊讓我更有動力寫下去。

有需要的朋友可以轉載或者收藏起來一起討論。

祝大家過年後都能找到滿意的工作，共同進步吧博友們！！！

運維工程師面試的經歷及面試相關問題

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

5月21日相聚上海張江！與文心大模型一起共建大模型產業應用生態圈

通義千問 2.5 “客串” ChatGPT4，你分的清嗎？

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

京東秒送售後系統退款業務重構心得| 京東零售技術團隊

Linux--grub

Linux文本處理工具三劍客---sed

Linux文本處理工具三劍客----awk

shell腳本基礎

Linux用戶管理命令

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結