Java內存模型學習筆記(一)—— 基礎

1、併發編程模型的分類

在併發編程中,我們需要處理兩個關鍵的問題:1、線程間如何通信,2、線程間如何同步。通信是指線程之間以何種機制來交換信息,同步是指程序用於不同線程之間操作發生相對順序的機制。

在命令式編程中,線程之間的通信機制有兩種:共享內存和消息傳遞。在共享內存的併發模型中,線程之間共享程序的公共狀態,線程之間通過寫-讀內存中的公共狀態來進行隱式的進行通信。在消息傳遞的併發模型中,線程之間沒有公共狀態,線程之間必須通過明確的發送消息來顯式的進行通信。

在共享內存併發模型裏,同步是顯式進行的,因爲程序員必須顯式地指定某種方式或者編寫某段代碼需要線程之間互斥執行。在消息傳遞的併發模型裏,由於消息發送必須在消息的接收之前,因此同步是隱式進行的。

java的併發採用的是共享內存模型,java線程之間的通信總是隱式進行的,整個通信過程對程序員完全透明,如果程序員不理解隱式進行的線程之間通信的工作機制,那麼將會遇到各種莫名其妙的內存可見性問題。

2、JMM——java內存模型

在java中,所有的實例域、靜態域和數組元素都存儲在堆內存中,堆內存是線程之間共享的區域。局部變量、方法定義的參數和異常處理參數不會在線程之間共享,它們不會有內存可見性問題,也不受到內存模型的制約與影響。

java線程之間的通信由JMM(java內存模型)控制,JMM決定一個線程對共享變量的寫入何時對另一個線程可見。從抽象的角度來看,JMM定義了線程和主內存之間的抽象關係(高能預警!!):線程之間共享的變量存儲在主內存(main memory)中,每一個線程都有一個私有的本地內存(local memory),本地內存中存儲的是該線程對共享變量的拷貝副本。注意:本地內存是JMM的一個抽象概念,並不真實存在。java內存模型的抽象示意圖如下:

從圖上來看,線程A和線程B之間要通信的話,必須經歷下面兩個步驟:

  1. 首先,線程A將本地內存中更新過的共享變量刷新到主內存中;

  2. 然後,線程B到主內存中讀取共享變量(注意,此時的共享變量是被A更新過的)。

JMM模型兩條規定:

  • 線程對共享變量的所有操作必須在自己的內存中進行,不能直接從主內存中讀寫;

  • 不同線程之間無法直接訪問其它線程工作內存中的變量,線程間變量值的傳遞需要通過主內存來完成。

來一個示意圖說明一下這件事:

如圖所示,線程A和線程B的都將主內存中共享變量X拷貝到自己的工作內存中。假設,初始值是 x = 0。線程A在自己的本地內存中將 x 的值改爲了1,然後將這個修改過的x 刷寫到主內存中。線程B到主內存中讀取線程A修改過的值,此時,線程B的本地內存中的x的值也變成了1。這樣,線程A和線程B就完成了一次通信。

回顧一下整個過程,從整體看來,這兩個步驟實質上是線程A在給線程B發消息,而這個過程必須依賴於主內存。JMM通過控制主內存與每個線程的本地內存之間的交互,來提供內存可見性(一個線程對共享變量值的修改,能夠及時地被其它線程看到)。

因此,要實現共享變量的可見性,必須保證兩點:

  • 線程修改後的共享變量值能夠及時從工作內存刷新到主內存中;

  • 其他線程能夠及時的把共享變量的最新值從主內存更新到自己的工作內存中。

在Java語言層面支持的可見性實現原理方式有SynchronizeVolatile

3、指令重排

在執行一段程序的時候,爲了性能,編譯器和處理器常常會對一些指令進行重排。重排序分爲三種類型:

  • 編譯器優化的重排序:編譯器在不改變單線程語義的前提下,可以重新安排語句的執行順序。

  • 指令級並行的重排序:現代處理器採用了指令級並行技術來將多條指令重疊執行(計算機組成原理的課程中有講到)。如果不存在數據依賴性,處理器可以改變語句對應機器指令的執行順序。

  • 內存系統的重排序:由於處理器使用緩存和讀寫緩衝區,這使得加載和存儲操作看上去可能是在亂序執行。

從java源碼到最終實際執行的指令序列,分別會經歷下面三種重排序:

這些重排序可能導致多線程程序出現內存可見性問題。對於編譯器,JMM的編譯器重排序規則會禁止特定類型的編譯器重排序(不是所有的編譯器重排都禁止)。對於處理器排序,JMM的處理器重排序規則會要求java編譯器在生成指令序列時,插入特定類型的內存屏障(memory barriers,intel稱之爲memory fence)指令,通過內存屏障指令來禁止特定類型的處理器重排序(不是禁止所有的處理器重排序)。

JMM屬於語言級的內存模型,它確保不同的編譯器和不同的處理器平臺之上,通過禁止特定類型的編譯器重排序和處理器重排序指令,爲程序提供一致的內存可見性保證。

4、處理器重排序與內存屏障指令

現代的處理器使用寫緩衝區來臨時保存向內存中寫入的數據。寫緩衝區可以保證指令流水線持續運行,它可以避免處理器停頓下來等待向內存中寫入數據而產生的延遲。同時,通過批處理的方式刷新寫緩衝區,以及合併寫緩衝區對同一內存地址的多次寫,可以減少對內存總線的佔用。雖然寫緩衝區有這麼多好處,但每個處理器上的寫緩衝區,僅僅對它所在的處理器可見。這個特性會對內存操作的執行順序產生重要的影響:處理器對內存的讀/寫操作的執行順序,不一定與內存實際發生的讀/寫操作順序一致!爲了具體說明,請看下面示例:

Processor A Processor B
a = 1; //A1 b = 2; //B1
x = b; //A2 y = a; //B2

初始狀態:a = b = 0 , 處理器允許執行後得到結果:x = y = 0

這裏處理器A和處理器B可以同時把共享變量寫入自己的寫緩衝區(A1,B1),然後從內存中讀取另一個共享變量(A2,B2),最後才把自己寫緩存區中保存的髒數據刷新到內存中(A3,B3)。當以這種時序執行時,程序就可以得到x = y = 0的結果。

從內存操作實際發生順序來看,直到處理器A執行A3來刷新自己的寫緩存區,寫操作A1纔算真執行了。雖然處理器A執行內存操作的順序爲:A1->A2,但內存操作實際發生的順序卻是:A2->A1。此時,處理器A的內存操作順序被重排序了(處理器B的情況和處理器A一樣)。

這裏的關鍵是,由於寫緩衝區僅對自己的處理器可見,它會導致處理器執行內存操作的順序可能會與內存實際的操作執行順序不一致。由於現代的處理器都會使用寫緩衝區,因此現代的處理器都會允許對寫-讀操作重排序。

爲了保證內存可見性,java編譯器在生成指令序列的適當位置會插入內存屏障指令來禁止特定類型的處理器重排序。JMM把內存屏障指令分爲下列四類:

屏障類型 指令示例 說明
LoadLoadBarriers Load1; LoadLoad;
Load2
確保Load1數據的裝載,之前於Load2及所有後續裝載指令的裝載。
StoreStoreBarriers Store1;StoreStore;Store2 確保Store1數據對其他處理器可見(刷新到內存),之前於Store2及所有後續存儲指令的存儲。
LoadStoreBarriers Load1; LoadStore;Store2 確保Load1數據裝載,之前於Store2及所有後續的存儲指令刷新到內存。
StoreLoadBarriers Store1; StoreLoad;
Load2
確保Store1數據對其他處理器變得可見(指刷新到內存),之前於Load2及所有後續裝載指令的裝載。StoreLoad Barriers會使該屏障之前的所有內存訪問指令(存儲和裝載指令)完成之後,才執行該屏障之後的內存訪問指令。

StoreLoad Barriers是一個“全能型”的屏障,它同時具有其他三個屏障的效果。現代的多處理器大都支持該屏障(其他類型的屏障不一定被所有處理器支持)。執行該屏障開銷會很昂貴,因爲當前處理器通常要把寫緩衝區中的數據全部刷新到內存中(buffer fully flush)。

總結:Java編譯器在生成指令序列的適當位置會插入內存屏障指令來禁止特定類型的處理器重排序,從而讓程序按我們預想的流程去執行:

  • 保證特定操作的執行順序;

  • 影響某些數據(或則是某條指令的執行結果)的內存可見性。

5、Happens-Before規則

上面的內容講述了重排序原則,一會是編譯器重排序一會是處理器重排序,如果讓程序員再去了解這些底層的實現以及具體規則,那麼程序員的負擔就太重了,嚴重影響了併發編程的效率。

因此,JMM爲程序員在上層提供了happens-before規則,這樣我們就可以根據規則去推論跨線程的內存可見性問題,而不用再去理解底層重排序的規則。程序員對於兩個操作指令是否真的被重排序並不關心,程序員關心的是程序執行時的語義不能被改變(即執行結果不能被改變)。

從JDK5開始,java使用happens-before的概念來闡述操作之間的內存可見性。在JMM中,如果一個操作執行的結果需要對另一個操作可見,那麼這兩個操作之間必須要存在happens-before關係。這裏提到的兩個操作既可以是在一個線程之內,也可以是在不同線程之間。

兩個操作之間具有happens-before關係,並不意味着前一個操作必須要在後一個操作之前執行!happens-before僅僅要求前一個操作(執行的結果)對後一個操作可見,且前一個操作按順序排在第二個操作之前(the first is visible to and ordered before the second) 。

與程序員密切相關的happens-before規則如下:

  • 程序順序規則:一個線程中的每個操作,happens- before 於該線程中的任意後續操作;

  • 監視器鎖規則:對一個監視器鎖的解鎖,happens- before 於隨後對這個監視器鎖的加鎖;

  • volatile變量規則:對一個volatile域的寫,happens- before 於任意後續對這個volatile域的讀;

  • 傳遞性:如果A happens- before B,且B happens- before C,那麼A happens- before C;

  • 線程start()規則:主線程A啓動線程B,線程B中可以看到主線程啓動B之前的操作。也就是start() happens before 線程B中的操作;

  • 線程join()規則:主線程A等待子線程B完成,當子線程B執行完畢後,主線程A可以看到線程B的所有操作。也就是說,子線程B中的任意操作,happens-before join()的返回。

參考資料:

[1] 程曉明. 深入理解Java內存模型
[2] 周志明. 深入理解JVM虛擬機
[3] 程曉明,方騰飛,魏鵬. java併發編程的藝術

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章