【轉】java.net.SocketException: No buffer space available (maximum connections reached?): JVM_Bind .

一個朋友讓我幫忙解決他服務器上一個JAVA應用出現的問題,我利用業務時間趕赴現場兩次,終於解決了這個疑難雜症,趕緊記錄下來,不求能解救曾經和我一樣困惑的勞苦大衆,但願自己別忘了。

一、問題的表現

首先說明一下環境,服務器是WINDOWS SERVER 2003,我對這個操作系統的特性不是很熟悉,只是當做普通的個人版操作系統來使用。我平時一般JAVA服務器都是安裝LINUX。

數據庫使用的SQL SERVER 2005,SP2。他的數據庫本來是SQL SERVER 2000的,是我上週幫他做的遷移。

中間件使用RESIN 2.1.17,這是我非常喜歡和熟悉的SERVLET容器,加不加裝APACHE都具有很好的WEB服務性能。

殺毒軟件使用的瑞星,雙網卡,硬件防火牆,什麼牌子我沒管。

那到底是什麼問題?

這個!

com.microsoft.sqlserver.jdbc.SQLServerException: 到主機  的 TCP/IP 連接失敗。 java.net.SocketException: No buffer space available (maximum connections reached?): JVM_Bind

RESIN啓動後,在短時間內正常,但是在沒有訪問的情況下,會在幾個小時後,自己死掉。靜態頁面沒有問題,也就是基於HTTPWEB服務器沒有死,涉及數據庫連接的,都不行。

二、分析

我是第一次碰到這個錯誤,趕緊GOOGLE。

我首先自己排除了是程序的問題,網上有人說,是數據庫連接沒有關閉,這樣的同志都是新手,而且我自己也可以肯定,程序是肯定沒有問題的,這個錯誤,出現的位置絕對比數據庫連接要底層的多。

網上的文章非常少,都看了一遍,總結一共有以下幾個原因。

1. Windows服務器運行自動更新。具體爲什麼自動更新運行後,就會消耗系統這麼多的SOCKET 連接,我還搞不清楚。但是有一點,自動更新肯定會佔用網絡帶寬和CPU,在服務器上,我覺得應該是關閉自動更新的,採用人工更新的方法。

2.機器中了木馬。木馬會打開很多後門,創建大量的連接,包括局域網肉雞上的,還有外網的。這也會導致機器出現無法上網,或者程序無法連接。在搜索到的結果中,大量的結果都是採用的SQLSERVER數據庫服務器,這是很容易招來木馬和病毒的服務器,大部分是SQLSERVER出問題,不是偶然的。

3.虛擬內存配置過低。第一次發現這個問題後,我到現場打開機器,確實報了一個虛擬內存的錯誤,說虛擬內容不足。

4.有不當程序創建了大量的短連接,由於程序的不健壯,導致SOCKET處於忙碌或者TIME_WAIT狀態,或者服務器和客戶端有一方出現異常,而另一方沒有得到通知,還在連接,持續不斷的做寫操作。

三、動手解決

經過分析,將準備採取的措施一一寫下來,我的腦袋不太好用,容易忘記東西。

措施如下,先做什麼,後做什麼,看到這篇文章的朋友,可以自己調整。

1. 優化RESIN的配置,適當的擴大連接池的數量,雖然不是這個問題,還是稍微擴大一點。配置了遠程監控,關閉了默認沒有做的目錄瀏覽,屏蔽了404等錯誤;使用HTTPD -INSTALL將RESIN安裝入服務,原來我的朋友是直接啓動的控制檯,這容易導致程序在控制檯緩存到頂後停止。關閉了HIBERNATE的SHOW_SQL開關。

2.關閉自動更新,並且關閉Background Intelligent Transfer Service服務。打開服務的時候,發現服務窗口5秒後會自動關閉,而且奇怪的服務非常多。同時看到NORTON已經被自動禁用了,打也打不開,得,這機器的病毒還不少。

3.殺毒。不看不知道,一看嚇一跳。我這哥們真是個大猛男,媽的,各種病毒都中了,還服務呢,這SERVER真是可憐啊!病了主人也不給看病,爲國家服務的機器,不可能沒有醫保嘛。親爸不管叔叔來給你治病。經過分析,中的病毒有U盤病毒,還有RUNAUTO..病毒,灰鴿子,傳奇木馬,各種不知名的後門和木馬,還被安裝了一個遠程控制的小東西。下載了一個360,想偷懶,結果根本無法安裝。刪除了RUNAUTO..,(我以前的博客有專門描述怎麼對付這玩意的)結果C盤都打不開了,只能在資源管理器中打開。還挺麻煩。於是找到病毒幾個藏身之所,分析了未知服務,用DOS刪除不掉,還是360的文件粉碎有用。什麼c:/windows/lsass.exe等等,cmd.exe.exe這都太普通了。具體過程也不是很清楚了,總之最後360可以安裝並更新了。360這東西確實好,木馬都清除了。現在服務窗口也不自動關閉了,NORTON也正常監控,機器沒有異常打開的端口,沒有莫名其妙的服務,恩,差不多了。

4.優化服務器設置。其實我也不知道這麼優化。看了看,虛擬內存都在C盤,C盤空間已經非常少了,找了點看的明白的東西,往別的盤搬了搬,看不懂的,不敢隨便給人家動。重新打開服務窗口,沒什麼用的服務都開着,把我確定的都關閉,什麼SERVER服務,還開着ADMIN$呢,趕緊都關了,他這機器根本用不着。還有什麼IIS,APACHE,開的還真全,我看還安裝了TOMCAT了,乾脆加上RESIN全打開算了,那真是夠熱鬧的,萬馬齊喑。我當然不允許這事出現,全乾掉。

5.檢查是否某個程序有漏洞。由於我自己在RESIN下還配置了一個只有我自己連GOOGLE的機器人都無法發現(並且也拒絕了機器人掃描)的小工具,之前就看到有外網IP不時的創建大量的連接,但都處於TIME_WAIT狀態。這也很要命。看了一下,除了這個WEB應用,還有一個每天自動接收數據的小程序。這個程序是使用的SOCKET長連接還是短連接就不知道了,有朋友關心這方面的內容可以詳細GOOGLE一下。但是這個程序確實是沒有被配置爲開機自動運行(我給加上了),可能是外網那個IP上的客戶端在不斷的尋求連接吧!SOCKET.close()是不馬上釋放連接的,而是設置爲TIME_WAIT狀態,這個時間默認是240S,也就是4分鐘。這太長了,有30秒(最小值)就可以了。在修改這個默認值的時候,還發現這臺機器並沒有開啓大端口服務,也就是高於5000的端口。這也是會出現“系統缺乏足夠緩衝區空間或者因爲隊列已滿無法執行套接字上操作”錯誤的!而那WEB服務就是配置到1萬以上端口的!趕緊,操作方法如下:

1. 啓動註冊表編輯器。 HKEY_LOCAL_MACHINE/SYSTEM/CurrentControlSet/Services/Tcpip/Parameters
2. 新建

值名稱:MaxUserPort
值類型: DWORD
值數據: 65534(用十進制的方法寫進去就可以,如果是十六進制,是FFFE,因爲4個F是65535嘛)
有效範圍: 5000 - 65534 (十進制)
默認: 0x1388 5000 (十進制)

新建

值名稱:TCPTimedWaitDelay
值類型: DWORD
值數據: 0000001e(也就是30,不行可以用WINDOWS計算器,很方便,這個表示TIME_WAIT的秒數)

OK!

經過一番折騰,我在震耳欲聾的轟鳴聲中,終於安撫了這臺哭泣的服務器,也馴服了幾匹小木馬,好好調教了我的RESIN服務器。順便說一句,我身後有臺什麼愛默生服務器,隔一會就象打嗝似的叫一聲,時常把我嚇到……

希望花費我1個多小時寫的這個總結,對我自己肯定有用,也希望能幫到更多的朋友,如果轉載,請註明出處。

(本博文來自向日蘑菇的——三十而悟,地址http://giscool.blog.163.com/blog/static/56088547200810151151355

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章