多隊列網卡是一種技術,最初是用來解決網絡IO QoS (quality of service)問題的,後來隨着網絡IO的帶寬的不斷提升,單核CPU不能完全處滿足網卡的需求,通過多隊列網卡驅動的支持,將各個隊列通過中斷綁定到不同的核上,以滿足網卡的需求。
常見的有Intel的82575、82576,Boardcom的57711等,下面以公司的服務器使用較多的Intel 82575網卡爲例,分析一下多隊列網卡的硬件的實現以及linux內核軟件的支持。
1.多隊列網卡硬件實現
圖1.1是Intel 82575硬件邏輯圖,有四個硬件隊列。當收到報文時,通過hash包頭的SIP、Sport、DIP、Dport四元組,將一條流總是收到相同的隊列。同時觸發與該隊列綁定的中斷。
圖1.1 82575硬件邏輯圖
2.什麼是RSS
RSS(Receive Side Scaling)是一種能夠在多處理器系統下使接收報文在多個CPU之間高效分發的網卡驅動技術。
- 網卡對接收到的報文進行解析,獲取IP地址、協議和端口五元組信息
- 網卡通過配置的HASH函數根據五元組信息計算出HASH值,也可以根據二、三或四元組進行計算。
- 取HASH值的低幾位(這個具體網卡可能不同)作爲RETA(redirection table)的索引
- 根據RETA中存儲的值分發到對應的CPU
基於RSS技術程序可以通過硬件在多個CPU之間來分發數據流,並且可以通過對RETA的修改來實現動態的負載均衡。
3.在DPDK中配置RSS
DPDK支持設置靜態hash值和配置RETA。 不過DPDK中RSS是基於端口的,並根據端口的接收隊列進行報文分發的。 例如我們在一個端口上配置了3個接收隊列(0,1,2)並開啓了RSS,那麼 中就是這樣的:
{0,1,2,0,1,2,0.........}
運行在不同CPU的應用程序就從不同的接收隊列接收報文,這樣就達到了報文分發的效果。
在DPDK中通過設置rte_eth_conf
中的mq_mode
字段來開啓RSS功能, rx_mode.mq_mode = ETH_MQ_RX_RSS
。
當RSS功能開啓後,報文對應的rte_pktmbuf
中就會存有RSS計算的hash值,可以通過pktmbuf.hash.rss
來訪問。 這個值可以直接用在後續報文處理過程中而不需要重新計算hash值,如快速轉發,標識報文流等。
RETA是運行時可配置的,這樣應用程序就可以動態改變CPU對應的接收隊列,從而動態調節報文分發。 具體通過PMD模塊的驅動進行配置,例如ixgbe_dev_rss_reta_update
和ixgbe_dev_rss_reta_query
。