1.服務器遇到故障如何排除?
http://blog.jobbole.com/36375/
必須先搞清楚故障的具體情況:
o 故障的表現是什麼?無響應?報錯?
o 故障是什麼時候發現的?
o 故障是否可重現?
o 有沒有出現的規律(比如每小時出現一次)
o 最後一次對整個平臺進行更新的內容是什麼(代碼、服務器等)?
o 故障影響的特定用戶羣是什麼樣的(已登錄的, 退出的, 某個地域的…)?
o 基礎架構(物理的、邏輯的)的文檔是否能找到?
o 是否有監控平臺可用? (比如Munin、Zabbix、 Nagios、 … 什麼都可以)
o 是否有日誌可以查看?(日誌管理工具比如Loggly、ELK、 Graylog…)
w 、last、 history查看有哪些用戶在線,做過哪些操作。
ps查看有哪些進程、分辨出哪些該有的和不該有的。
netstat查看相關端口。
free、 uptime 、top查看一下cpu、內存。
日誌!
2.服務器宕機了怎麼辦?
針對服務器可能發生的宕機情況,我們肯定要先設立應急預案。
財力允許的情況下,最好是爲每一臺服務器配備物理冗餘。同步更新數據,故障發生及時切換。
故障發生後,第一位是恢復業務,第二位是排查。
首先,啓動服務器,看是否能夠登錄,如果可以,可以通過如下方式進行檢查。
a、是否是應用程序導致內存溢出或者泄露,out of memory導致;
b、是否是進程過多或者不斷創建,耗盡資源導致;
c、是否是數據庫程序死鎖,連接數過多導致;
d、是否是應用程序異常導致;
e、是否是流量負載過大導致;
f、是否是遭受*********導致;
g、是否是誤操作導致;
可以通過查看系統日誌來查看是否有異常登錄現象的發生。當然了,如果連登錄都無法完成,或者通過如上的處理方法都沒能處理,那麼,您就聯繫客服人員進行排查。當然了,瞭解具體問題所在,也就不成問題了。
3、web訪問慢的,如何定位問題解決?
· 是否普遍較慢?檢測先環節:單個瀏覽器的問題?電腦問題?電信運行商?
· 查看服務器的同時連接數,是不是同時連接人數太多,已經超過服務器的正常負載。
· 查看服務器的TCP連接情況,是不是被DDOS了。
· 查看服務器的內存使用量,是不是某個應用出現問題,造成內存泄漏了。
· 通過iostat、vmsta查看cpu的io,磁盤的讀寫速率。
· 查看各種日誌。
· 數據庫的鏈接情況。
· 程序本身。
層層檢測,步步排查