序

這是一篇來自IEEE ACCESS的paper（影響因子19年3.745），18年4月發表，到本博客的時間點被引了18次，值得一提的或許是這文的一作是一個IEEE的Fellow YANG YANG。

摘要

覆蓋範圍和系統容量的折衷及聯合優化在大規模MIMO無線系統中是重要且有挑戰性的。

本文提出的方法名爲GAUSS（Group Alignment of User Signal Strength），用來支持大規模MIMO系統的用戶調度，爲優化覆蓋範圍和系統容量（CCO, Coverage and Capacity Optimization）提供有效參數。
此外，還提出了一種基於DRL的聯合優化覆蓋範圍和系統容量的算法（DECCO），其使用神經網絡動態推到CCO期間的GAUSS和SINR_min。
此外，還提出了一種小區間干擾協調（ICIC）以增強CCO的性能。

經仿真，DECCO可以在系統容量和覆蓋範圍之間進行平衡，並且可以顯著提升頻譜效率。

結論

we can set learning clusters to account for learning gains decreasing as opposed to the scale of networks. 未來將在大規模學習中實現覆蓋率和容量的優化。

介紹

MU-MIMO（多用戶MIMO）可獲得比SU-MIMO（單用戶MIMO）更好的性能，其可以在同一頻譜資源上對cell內的多個UE提供服務，藉此改善頻譜效率。CCO相關的系統參水包括參考信號功率、天線傾角、調度參數等。但是在MU-MIMO系統中配置這些參數以改善CCO是困難的。

具體來講，用戶調度機制負責給具有精確的時間和頻率分辨率的BS分配合適的頻譜資源，同時考慮信道質量和QoS要求。因此我們可以通過找到合適的調度參數來解決CCO而非調整天線傾角。

paper	時間和會議	方法	目的	不足
[6]A self-optimization method for coverage-capacity optimization in OFDMA networks with MIMO	2011; icst	$\alpha$ -fair （一個優化算法）	改善覆蓋範圍	僅在SU-MIMO下研究
[7]A novel dynamic Q-learning-based scheduler technique for LTE-advanced technologies using neural networks	2012; IEEE LCN	動態QL	聯合優化系統容量和用戶公平	僅在SU-MIMO下研究
[8]Joint user scheduling and power allocation for massive MIMO downlink with two-stage precoding	2016; ICCC	JSDM空間劃分及複用	聯合優化用戶調度和功率分配	僅優化系統速率，沒考慮覆蓋範圍
[9]Joint spatial division and multiplexing: Realizing massive MIMO gains with limited channel state information	2012; CISS	MAX user scheduling; Lagrange power optimization	聯合優化用戶調度和功率分配
[10]User grouping and scheduling for large scale MIMO systems with two-stage precoding	2014; ICC	K-means	用戶分組，給不同組分配資源	僅優化系統速率，沒考慮覆蓋範圍

本文關鍵貢獻

提出了一種新穎的調度參數GAUSS，以及統一的服務質量閾值SINRmin，以解決大規模MIMO系統中CCO的難題。
提出了一種CCO算法 DECCO，其可通過用戶調度方案中的預訓練神經網絡以及新穎的ICIC方案，動態推導GAUSS和SINRmin的最優組合。
重要指標：小區平均頻譜效率、小區邊緣的頻譜效率，系統容量和覆蓋範圍。

系統模型及問題陳述

大規模MIMO模型

如圖1所示，我們考慮大規模MIMO的下行傳輸，綠色部分表示小區中心，虛線與實線之間表示小區邊緣。對於該系統的CCO來說，用CSAE（小區平均頻譜效率）和CESE（小區邊緣頻譜效率）來描述系統容量，前者是小區中心範圍內用戶的頻譜效率的平均，後者是小區邊緣內用戶的頻譜效率的平均。

每個BS有M_t個天線，最多可同時使用N_r個天線爲K個用戶提供服務。假設M_t * (K * N_r)維的信道矩陣H在信道相干時間內不變。採用FDD（頻分雙工）的兩階段預編碼方案，接收信號y如下表示：

其中d是傳輸數據符號向量，z是高斯噪聲，B是外部預編碼輸出，P是內部預編碼輸出，H是信道矩陣。假設UE的信號以平均功率分配，標準化接收信號 $\tilde{y}$ 如下表示：

其中P_t是BS的總傳輸功率，N是噪聲功率，x和n是標準信號和高斯噪聲。Tr()表示矩陣的跡

問題陳述

考慮到干擾，用戶的SINR可表示爲：

在MU-MIMO的下行網絡中，BS的天線數量比小區內總的接收天線數量要多，因此使用分佈式的兩階段編碼方案可減少小區間/內干擾。

瞬時頻譜效率表示爲：

K是用戶數目，\ryo是第k個用戶的SINR。

某一特定區域的KPI定義爲：

其中CASE用50%的CDF表示，CESE用5%的CDF表示。

優化問題建模爲：

G是用戶的組，其中用戶的數量不能超過K*。

用戶信號強度的分組對準

本節介紹最優參數集GAUSS，根據奇異值分解（SVD），可得到：

把(8)代入(5)且 $\mu = P_t / N$ 可得到：

其中\lambda是MIMO中每個用戶的信道增益，對於小區邊緣的用戶此值較大，式(9)也可寫爲：

其中 $\gamma_i = \lambda_i/\lambda_1$ ， $\gamma_1 = 1,\gamma_i < 1(i\neq 1)$ $max(\lambda_i)$ 。到這裏我們可得知頻譜效率由小部分信道增益因子大的用戶來決定。如果小區中心的用戶和邊界的用戶同時調度，那麼中心用戶的吞吐量將會因邊界用戶而降低。也就是說，爲了防止上述情況出現，我們需要保證 $min(\lambda_i)$ 和 $max(\lambda_i)$ 不要差距太大。爲此，我們引入了新的參數“GAUSS”：

我們使用 $\xi_i$ 表徵i號用戶的平均信道增益，那麼式(10)可以表示爲

用戶的平均信道增益因子按升序排序，再結合用戶信號強度R的組對齊，可獲得圖2。

選擇一個用戶i後，以用戶ξi的平均信道增益爲中心，以用戶信號強度R的組對齊爲半徑，確定了可以參與調度過程的合格用戶。ξi左側的用戶信道條件優於用戶i，其右側的用戶信道條件 ξi不如用戶i。根據先前的分析，在調度過程中，我們應該根據用戶的信道條件獲得用戶集，而目標用戶集則由我們如何選擇R來控制，即GAUSS的值。進一步考慮SINRmin，我們可以得到以下不等式

如果ξi小於β，則調度用戶i可以滿足（11）中的約束，並且可以與其他用戶一起調度；否則，用戶i無法滿足（11）中的約束，並且無法與其他用戶一起調度以避免較低的SINR。從這個意義上說，β左側的用戶可以在調度時被重用，但β右側的用戶則不能被重用。另一觀察結果是SINRmin確定了β的位置，隨着SINRmin的減小，β的向右移動。因此，用戶的信道狀況越差，系統容量就會降低。但是，由於位於β右邊的用戶的SINR較高，因此可以提高覆蓋性能。當增加SINRmin時，系統容量和網絡覆蓋範圍反之亦然。

基於學習的覆蓋、容量聯合優化

A.先學知識

1）強化學習

RL作爲一個model-free的MDP的解法，狀態空間S 動作空間A 獎勵函數r是重要的設計要素，agent是執行動作的主體，其在每個時點觀察環境並獲取自己的狀態信息s_t，之後選擇動作a_t進行執行。動作執行後發生兩件事：1.狀態從s_t轉移到s_{t+1}；2.獲取收益r_t。

agent僅通過s_t瞭解環境，僅能控制自己的action。在每次狀態轉移的時候，我們的目標都是最大化回報R（注意與收益不同），R與收益r_t相關，其是一個隨機變量，通常用收益的累計折扣期望表徵： $R = \mathbb{E}[\sum^\infty_{t = 0}\gamma^ir_t]$ ，其中\gamma是0~1的折扣係數，表示相比未來的收益更重視當前這步的收益。

2）POLICY

每個時點agent執行決策的過程可以由policy（一種映射關係）表徵， $\pi(s, a) = Pr\{a_t = a| s_t = s\}, $ {\forall}$s\in \mathcal{S}, a \in \mathcal{A}$ ，即在狀態s的情況下選擇a動作執行的概率。在具體問題中，狀態空間和動作空間都很大，所以這個狀態和動作的映射關係一般不會用轉移概率表示。這種情況下，需要利用函數逼近法來表徵policy，即 $\pi_\theta(s, a)$ ，其中的\theta表示函數的參數（這裏將此函數想象成神經網絡比較合適，因爲實際上很多也是用NN的，這個\theta就是神經網絡的參數）。函數逼近的另一個優點在於，agent可以對相似的狀態採取相似的動作。

3）梯度上升算法

博主注：在強化學習的過程中，我們的總體目標並非是要最大化某個函數，而是要通過迭代不斷更新policy的參數，使其在面對各種狀態s的時候能做出最大化我們關心的參數的動作決策（具體來講，動作決策可以理解爲資源分配的方案等）。

在沒此狀態轉移更新policy的參數的時候，是以最大化R爲目標的，其通常使用梯度上升算法，如下所示：

其中的Q是在狀態s選擇動作a所得到的R的期望（這部分來自Q-learning，可以去看一下）。

參數\theta的更新過程如下圖所示：

B.用戶調度機制

用戶調度需同時考慮頻譜效率和用戶公平性，對於收割用戶，我們使用典型的PF調度銀子。對於其他用戶，我們根據用戶信號強度R採用分組對齊以確保頻譜效率，同時利用SINR_min來確保用戶估計的SINR不小於他來保證系統容量。我們假設L是即將被調度的用戶集合，g是已經已經完成調度的用戶結合，r_k是用戶k的瞬時數據速率，D_k是用戶k的平均數據速率，M是已完成調度的用戶的數量，K*是已完成調度的用戶的最大數量，\labmda_{min}和\lambda_{max}分別是最大和最小的奇異值，R是用戶信號強度最大的分組對齊的數值。

本文嘗試尋找每個TTI中SINR_{min}和R。最終的用戶調度有兩個階段構成：

每個TTI中，通過DRL算法識別SINR_{min}和R。
SINR_{min}和R由後續的用戶調度所使用。

1）深度強化學習算法構建

狀態空間：小區內的每個sector被定義爲agent，最大化cell的CASE和CESE。我們定義連續的狀態空間如下 $s_t=\{CASE_t, CESE_t\}$

動作空間：動作空間由SINR_min和R的參數及組成。假設存在m個離散的SINR_min和n個離散的R的數值。因此動作空間是m*n的矩陣。我們使用DNN作爲函數逼近來計算在於給給定state下的policy，policy的輸出以最大化回報爲目標。

收益：由式17決定，由CASE和CESE兩部分組成

其中\eta（0~1）是權衡CASE和CESE的權重。具體的r定義如下（ $r_{CESE_t}$ 類似）：

2）訓練

policy用神經網絡來表徵，其輸入爲狀態s_t，輸出爲不同動作的概率數值。每次訓練迭代我們在T個TTI上執行N個episodes(每個episode是從開始到結束的一個完整的馬爾科夫鏈的過程，其中的一個狀態轉移對應一個TTI)。

C.小區內干擾協調

zero forcing：迫零算法，用於在已知接收信號的前提下，通過導頻得知發射信號

干擾協調由測量和預編碼完成，緩和小區間干擾的基本策略是zero forcing，其需要相鄰小區的信道信息矩陣。爲了控制用於區間干擾協調的發射天線的空間自由度，我們定義了了一新系數：邊緣用戶對於區中心用戶的抑制比 $\delta$ ，其是需要抑制干擾的用戶的百分比，以調整在小區內和小區間空間自由度資源的分配。用e_s表示小區邊緣用戶的數量，\delta=1時表示所有的小區邊緣用戶需要執行干擾抑制，具體的區內干擾協調方法表示如下：

每個服務小區測量每個UE的下行平均SINR，並計算所有下行平均SINR低於SINR_min的用戶，並將這些用戶定義爲小區邊緣用戶。這些小區邊緣用戶按SINR升序排序。
每個服務小區發送一個命令給邊緣用戶以測量強幹擾的小區並且估計強幹擾小區的信道矩陣。
每個服務小區形成如表1所示的干擾矩陣
網絡中的每個小區都與X2接口上的各自的干擾矩陣表進行交互，並獲得相鄰小區的干擾邊緣用戶信息和這些用戶的信道矩陣
預編碼的時候，根據平均SINR的降序排序，每個服務小區選擇信道向量構成零空間的受干擾用戶，並通過選擇每個相鄰小區的第一個δ * e_s個用戶的信道來進行干擾抑制
服務小區生成被幹擾用戶信道矩陣的零空間矩陣，並將外部預編碼器與零空間矩陣相乘，以實現對相鄰小區的干擾抑制
服務小區構造內部預編碼以形成最終的預編碼矩陣

總之，整個DECCO算法是利用用戶預先訓練好的policy和隨後的小區間干擾協調方案組成的，在算法2中得到了總結。

仿真結果

仿真設置

參考國際電信聯盟(ITU)的三維城市宏蜂窩模型，BS內有64個天線，UE有兩個天線，使用JSDM方法作爲下行傳輸機制。SINR_min被離散化成15個數值，分別爲1dB到15dB，R被離散化成20個數值，分別爲25-500。其他參數列入表2。

網絡設計方面：輸入層兩個神經元，分別表示CASE和CESE，輸出層300個神經元，表示SINR_min和R的組合。隱藏層有兩個，每層100個神經元。此網絡共有6,000,000個參數。

網絡訓練

執行1000此迭代，每次迭代運行20次MC估計（Monte-Carlo可參見這篇博文），使用隨機梯度下降更新參數。

上圖展示了不同學習率的影響，可見0.01的學習率從長期來看效果較好。

權重因子的影響

這個權重是SASE和CESE之間的佔比，圖6展示了CASE的性能，圖7展示了CESE的性能。隨着 $\eta$ 的增大，對CASE的權重增大，因此其性能也變好。可以看到隨着BS數量的增加，CESE的下降速度比CASE下降的更快。從這個意義上說，應隨着BS數量的增加，通過學習控制CESE的貢獻權重因子1-\eta，以有效的優化CESE。

與其他CCO算法的比較

一個對照方案爲通過實驗獲得的最佳的SINR和R的固定配置，其用FO表示；另一個對照方案爲按比例公平調度的CCO方案，記作PF。DECCO算法中根據BS數量的不同，其參數整理如表3。

圖8 9描繪了提出的DECCO算法和FO、PFO算法的比較，FO算法在CASE上的性能優於PFO算法，但他的性能在CESE上的劣於PFO，因爲其安排了具有固定閾值的用戶，這些閾值無法跟蹤小區間的干擾變化。隨着BS數量的增加，DECCO算法相較於FO的優勢會降低。在使用中，我們可以通過對BS進行分組，以減輕大規模學習的學習效果。

圖10描繪了不同CCO算法頻譜效率的CDF，其中BS的數量N=7，其結果總結在表4中，其中SD是標準差的縮寫。 $\eta$ =0.3的DECCO在CASE上分別比FO算法和PFO算法高5.6％和18.1％。但對CESE，η= 0.3的DECCO算法分別比FO算法和PFO算法分別高62.9％和7.5％。很明顯CESE的性能增益要比CASE大，這是因爲CESE的比重要比CASE大。此外，正如我們前面所討論的，PFO算法在CESE上的性能優於FO算法。

當η= 0.8時，DECCO算法的性能在CESE方面分別比FO算法和PFO算法高22.2％和36.5％，對於CESE，DECCO算法的性能分別比FO算法和PFO算法分別高57.1％和3.8％。與η= 0.3相反，由於CASE在η= 0.8的獎勵計算中起着更重要的作用，因此CASE的性能增益大於CESE。這與我們對權重因素影響的研究相一致。

一個重要的觀察結果是，與FO算法相比，DECCO算法在最大化CESE方面比CASE具有更大的潛力。除此之外，與PFO算法相比，DECCO算法對CASE的改進更大。此外，DECCO算法的SD值較小，這意味着覆蓋率和容量優化性能更加公平和穩定。因此，我們講的DECCO算法在容量覆蓋率優化方面通常是最優方法。

[論文筆記]DECCO: Deep-Learning Enabled Coverage and Capacity Optimization for Massive MIMO Systems

序

摘要

結論

介紹