排錯思路

1.服務器遇到故障如何排除?

     http://blog.jobbole.com/36375/

必須先搞清楚故障的具體情況:

o    故障的表現是什麼?無響應?報錯?

o    故障是什麼時候發現的?

o    故障是否可重現?

o    有沒有出現的規律(比如每小時出現一次)

o    最後一次對整個平臺進行更新的內容是什麼(代碼、服務器等)?

o    故障影響的特定用戶羣是什麼樣的(已登錄的, 退出的, 某個地域的…)?

o    基礎架構(物理的、邏輯的)的文檔是否能找到?

o    是否有監控平臺可用? (比如Munin、Zabbix、 Nagios、 … 什麼都可以)

o    是否有日誌可以查看?(日誌管理工具比如Loggly、ELK、 Graylog…)

    w 、last、 history查看有哪些用戶在線,做過哪些操作。

    ps查看有哪些進程、分辨出哪些該有的和不該有的。

    netstat查看相關端口。

    free、 uptime 、top查看一下cpu、內存。

    日誌!


2.服務器宕機了怎麼辦?

針對服務器可能發生的宕機情況,我們肯定要先設立應急預案。

財力允許的情況下,最好是爲每一臺服務器配備物理冗餘。同步更新數據,故障發生及時切換。

故障發生後,第一位是恢復業務,第二位是排查。

首先,啓動服務器,看是否能夠登錄,如果可以,可以通過如下方式進行檢查。

a、是否是應用程序導致內存溢出或者泄露,out of memory導致;

b、是否是進程過多或者不斷創建,耗盡資源導致;

c、是否是數據庫程序死鎖,連接數過多導致;

d、是否是應用程序異常導致;

e、是否是流量負載過大導致;

f、是否是遭受*********導致;

g、是否是誤操作導致;

  可以通過查看系統日誌來查看是否有異常登錄現象的發生。當然了,如果連登錄都無法完成,或者通過如上的處理方法都沒能處理,那麼,您就聯繫客服人員進行排查。當然了,瞭解具體問題所在,也就不成問題了。

 


3、web訪問慢的,如何定位問題解決?

·        是否普遍較慢?檢測先環節:單個瀏覽器的問題?電腦問題?電信運行商?

·        查看服務器的同時連接數,是不是同時連接人數太多,已經超過服務器的正常負載。

·        查看服務器的TCP連接情況,是不是被DDOS了。

·        查看服務器的內存使用量,是不是某個應用出現問題,造成內存泄漏了。

·        通過iostat、vmsta查看cpu的io,磁盤的讀寫速率。

·        查看各種日誌。

·        數據庫的鏈接情況。

·        程序本身。

層層檢測,步步排查



發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章