概述
在計算機網絡中,二層是鏈路層,是以太網所在的層,識別的是設備端口的MAC地址。
DPDK作爲用戶態驅動,主要的目的也就是不需要讓報文經過操作系統協議棧而能實現快速的轉發功能。
網卡驅動在二層上的作用就是根據設定的目的端口,轉發報文到目的端口
程序流程
程序的主要流程如下:
每個邏輯核在任務分發後會執行如下的循環,直到退出
其中打印時間片在命令行參數中是可以自己設置的
代碼分析
運行參數:-c 1 -n 2 -- -q 1 -p 1
- -c:指定分配給DPDK使用的邏輯數,我只是使用一個核
- -n:每個CPU的內存通道數
- --:之後表示爲次參數
- -q:每個CPU管理的隊列數,這裏設置爲一個隊列
- -p:使用的端口,我測試的時候使用第一個端口
main
init EAL 註冊信號處理函數
ret = rte_eal_init(argc, argv); //解析 EAL 的參數 if (ret < 0) rte_exit(EXIT_FAILURE, "Invalid EAL arguments\n"); //當解析完了EAL的參數之後,argc減去EAL參數的個數同時argv後移這麼多位, //這樣就能保證後面解析程序參數的時候跳過了前面的EAL參數。 argc -= ret; argv += ret; force_quit = false; signal(SIGINT, signal_handler); signal(SIGTERM, signal_handler);
other init
解析參數
ret = l2fwd_parse_args(argc, argv); // 解析 l2fwd 的運行參數 if (ret < 0) rte_exit(EXIT_FAILURE, "Invalid L2FWD arguments\n"); printf("MAC updating %s\n", mac_updating ? "enabled" : "disabled"); // 默認開啓 mac updating 這一功能。
獲取主頻網口數
檢查掩碼和可用網口數量是否有衝突
重置使能端口列表
/* convert to number of cycles */ timer_period *= rte_get_timer_hz(); // 獲得CPU主頻,單位hz (1s多少個cycle),位於rte_cycles.h nb_ports = rte_eth_dev_count_avail(); //網口數量 if (nb_ports == 0) rte_exit(EXIT_FAILURE, "No Ethernet ports - bye\n"); /* check port mask to possible port mask */ if (l2fwd_enabled_port_mask & ~((1 << nb_ports) - 1)) //檢查掩碼和可用網口數量是否有衝突 rte_exit(EXIT_FAILURE, "Invalid portmask; possible (0x%x)\n", (1 << nb_ports) - 1); /* reset l2fwd_dst_ports */ for (portid = 0; portid < RTE_MAX_ETHPORTS; portid++) l2fwd_dst_ports[portid] = 0; //先重置使能端口列表 last_port = 0;
設置目的端口
每個邏輯核心在每個端口上分配一個專用的tx隊列。
RTE_ETH_FOREACH_DEV(portid) { // 使用RTE_ETH_FOREACH_DEV()宏來訪問所有的 ethdev /* skip ports that are not enabled */ if ((l2fwd_enabled_port_mask & (1 << portid)) == 0) continue; if (nb_ports_in_mask % 2) { l2fwd_dst_ports[portid] = last_port; l2fwd_dst_ports[last_port] = portid; } else last_port = portid; nb_ports_in_mask++; //這些邏輯可以實現 basicfwd 那樣的一對對端口互相轉發 } if (nb_ports_in_mask % 2) { printf("Notice: odd number of ports in portmask.\n"); l2fwd_dst_ports[last_port] = last_port; // 如果是奇數個端口,會有最後一個端口的 dst_port 是自己 }
在每一個端口上,配置邏輯核、配置隊列
rx_lcore_id = 0; // 從邏輯核心id 0開始 qconf = NULL; /* Initialize the port/queue configuration of each logical core */ // 在每一個端口上,配置邏輯核、配置隊列。 /* for (p = rte_eth_find_next_owned_by(0, o); \ (unsigned int)p < (unsigned int)RTE_MAX_ETHPORTS; \ p = rte_eth_find_next_owned_by(p + 1, o)) */ RTE_ETH_FOREACH_DEV(portid) { /* skip ports that are not enabled */ if ((l2fwd_enabled_port_mask & (1 << portid)) == 0) continue; /* get the lcore_id for this port */ // 爲該端口配置一個邏輯核。 while (rte_lcore_is_enabled(rx_lcore_id) == 0 || lcore_queue_conf[rx_lcore_id].n_rx_port == l2fwd_rx_queue_per_lcore) { /*從lcore id = 0 開始循環: 如果:如果該 lcore id 有效(已經被佔用),則檢查下一個邏輯核。 如果: lcore 是空閒的,要檢查該 lcore 上綁定了多少個端口, 如果到達了最大端口數量限制也會循環。*/ rx_lcore_id++; if (rx_lcore_id >= RTE_MAX_LCORE) // RTE_MAX_LCORE 宏 64 rte_exit(EXIT_FAILURE, "Not enough cores\n"); // 邏輯核心不足 } // 跳出循環時,rx_lcore_id 變量存儲了一個可用的 lcore id,綁定該端口到這個 lcore if (qconf != &lcore_queue_conf[rx_lcore_id]) { /* Assigned a new logical core in the loop above. */ qconf = &lcore_queue_conf[rx_lcore_id]; nb_lcores++; // qconf 是一個指針,指向當前進行配置的 lcore 的,用於存放配置信息的結構體 } qconf->rx_port_list[qconf->n_rx_port] = portid; qconf->n_rx_port++; // 綁定就是在這個核處理的端口列表中加上當前這個端口,然後該核綁定的端口數加 1。 printf("Lcore %u: RX port %u\n", rx_lcore_id, portid); } nb_mbufs = RTE_MAX(nb_ports * (nb_rxd + nb_txd + MAX_PKT_BURST + nb_lcores * MEMPOOL_CACHE_SIZE), 8192U); // mbuf中的元素個數,取 8192 和 //(端口數 * (隊列長度 * 2 + 一個 Burst 的 pkt 數量 + 邏輯核數 * cache size)) // 兩者中較大的一個。
初始化內存池
/* create the mbuf pool */ // 初始化內存池,用於 rx 隊列接收 pkt l2fwd_pktmbuf_pool = rte_pktmbuf_pool_create("mbuf_pool", nb_mbufs, MEMPOOL_CACHE_SIZE, 0, RTE_MBUF_DEFAULT_BUF_SIZE, rte_socket_id()); if (l2fwd_pktmbuf_pool == NULL) rte_exit(EXIT_FAILURE, "Cannot init mbuf pool\n");
初始化每一個端口
/* Initialise each port */ // 初始化每一個端口 RTE_ETH_FOREACH_DEV(portid) { struct rte_eth_rxconf rxq_conf; // rx queue 的配置信息 struct rte_eth_txconf txq_conf; // tx queue 的配置信息 struct rte_eth_conf local_port_conf = port_conf; // 配置端口時使用的配置信息 struct rte_eth_dev_info dev_info;// 以太網設備的信息 /* skip ports that are not enabled */ if ((l2fwd_enabled_port_mask & (1 << portid)) == 0) { printf("Skipping disabled port %u\n", portid); continue; } nb_ports_available++; /* init port */ printf("Initializing port %u... ", portid); fflush(stdout); // 清除寫緩衝區,強迫未寫入磁盤的內容立即寫入 rte_eth_dev_info_get(portid, &dev_info); // 獲取以太網設備信息 if (dev_info.tx_offload_capa & DEV_TX_OFFLOAD_MBUF_FAST_FREE) local_port_conf.txmode.offloads |= DEV_TX_OFFLOAD_MBUF_FAST_FREE; // mbuf fast free,支持快速發包 ret = rte_eth_dev_configure(portid, 1, 1, &local_port_conf); // 配置收發隊列各 1 條 /*本程序中,Rx隊列只能有一條,確保一個 lcore 負責輪詢一個 port Tx 隊列則可以根據可用的 lcore 數目更改。*/ if (ret < 0) rte_exit(EXIT_FAILURE, "Cannot configure device: err=%d, port=%u\n", ret, portid); ret = rte_eth_dev_adjust_nb_rx_tx_desc(portid, &nb_rxd, &nb_txd); if (ret < 0) rte_exit(EXIT_FAILURE, "Cannot adjust number of descriptors: err=%d, port=%u\n", ret, portid); rte_eth_macaddr_get(portid,&l2fwd_ports_eth_addr[portid]);// 獲取設備的MAC地址,寫在後一個結構體裏 /* init one RX queue */ // 配置 rx 隊列 fflush(stdout); rxq_conf = dev_info.default_rxconf; rxq_conf.offloads = local_port_conf.rxmode.offloads; ret = rte_eth_rx_queue_setup(portid, 0, nb_rxd, rte_eth_dev_socket_id(portid), &rxq_conf, l2fwd_pktmbuf_pool); if (ret < 0) rte_exit(EXIT_FAILURE, "rte_eth_rx_queue_setup:err=%d, port=%u\n", ret, portid); /* init one TX queue on each port */ // 每個 port 配置一條 tx 隊列 fflush(stdout); txq_conf = dev_info.default_txconf; txq_conf.offloads = local_port_conf.txmode.offloads; ret = rte_eth_tx_queue_setup(portid, 0, nb_txd, rte_eth_dev_socket_id(portid), &txq_conf); if (ret < 0) rte_exit(EXIT_FAILURE, "rte_eth_tx_queue_setup:err=%d, port=%u\n", ret, portid); /* Initialize TX buffers */ // 爲每個端口的 Tx 分配發送緩衝區 tx_buffer[portid] = rte_zmalloc_socket("tx_buffer", RTE_ETH_TX_BUFFER_SIZE(MAX_PKT_BURST), 0, // 宏RTE_ETH_TX_BUFFER_SIZE(x) :計算 tx buffer 的 size,參數x是包的個數 rte_eth_dev_socket_id(portid));// 爲 tx buffer 分配空間。 if (tx_buffer[portid] == NULL) rte_exit(EXIT_FAILURE, "Cannot allocate buffer for tx on port %u\n", portid); rte_eth_tx_buffer_init(tx_buffer[portid], MAX_PKT_BURST); // 初始化 Tx buffer,參數是 buffer 指針和 buffer size。 /* rte_eth_tx_buffer_set_err_callback() 對於不能被髮送的 pkt 配置回調函數。 在嘗試發送一個 tx buffer 的所有 pkt,遇到問題不能全部成功發送,就會觸發設置好的回調函數。 默認行爲是丟包。如果要其他的行爲(例如重傳,計數)則需要額外的代碼。也有設置好的API例如rte_eth_count_unsent_packet_callback()等,和本函數中用的也是。 參數 1. tx_buffer 指針,2.回調函數的指針。3. 回調函數的參數 */ ret = rte_eth_tx_buffer_set_err_callback(tx_buffer[portid], rte_eth_tx_buffer_count_callback, // 丟包,並更新計數器 &port_statistics[portid].dropped); // 計數器的指針放到第三個參數 if (ret < 0) rte_exit(EXIT_FAILURE, "Cannot set error callback for tx buffer on port %u\n", portid); /* Start device */ // 啓用設備 ret = rte_eth_dev_start(portid); if (ret < 0) rte_exit(EXIT_FAILURE, "rte_eth_dev_start:err=%d, port=%u\n", ret, portid); printf("done: \n"); rte_eth_promiscuous_enable(portid); // 混雜模式 printf("Port %u, MAC address: %02X:%02X:%02X:%02X:%02X:%02X\n\n", portid, l2fwd_ports_eth_addr[portid].addr_bytes[0], l2fwd_ports_eth_addr[portid].addr_bytes[1], l2fwd_ports_eth_addr[portid].addr_bytes[2], l2fwd_ports_eth_addr[portid].addr_bytes[3], l2fwd_ports_eth_addr[portid].addr_bytes[4], l2fwd_ports_eth_addr[portid].addr_bytes[5]); /* initialize port stats */ memset(&port_statistics, 0, sizeof(port_statistics)); } if (!nb_ports_available) { rte_exit(EXIT_FAILURE, "All available ports are disabled. Please set portmask.\n"); }
檢查所有鏈路的狀態
check_all_ports_link_status(l2fwd_enabled_port_mask); // 檢查所有鏈路的狀態,可以參考 flow_filtering
分配所有 lcore 執行函數
ret = 0; /* launch per-lcore init on every lcore */ // 這裏就是DPDK的典型執行方法,分配所有 lcore 執行函數 rte_eal_mp_remote_launch(l2fwd_launch_one_lcore, NULL, CALL_MASTER); RTE_LCORE_FOREACH_SLAVE(lcore_id) { if (rte_eal_wait_lcore(lcore_id) < 0) { ret = -1; break; } }
ctrl+c or kill 退出
RTE_ETH_FOREACH_DEV(portid) { if ((l2fwd_enabled_port_mask & (1 << portid)) == 0) continue; printf("Closing port %d...", portid); rte_eth_dev_stop(portid); rte_eth_dev_close(portid); printf(" Done\n"); } printf("Bye...\n"); return ret;
l2fwd_main_loop
獲取id 剔除多餘lcore 打印信息
//獲取自己的lcore_id lcore_id = rte_lcore_id(); // 獲取自己的 lcore id qconf = &lcore_queue_conf[lcore_id]; //分配後多餘的lcore 剔除 if (qconf->n_rx_port == 0) { // 因爲對每一個 lcore 都執行 main 線程,如果該 lcore 上沒有綁定端口,就無事可做。 RTE_LOG(INFO, L2FWD, "lcore %u has nothing to do\n", lcore_id); return; } RTE_LOG(INFO, L2FWD, "entering main loop on lcore %u\n", lcore_id); //打印信息 for (i = 0; i < qconf->n_rx_port; i++) { portid = qconf->rx_port_list[i]; RTE_LOG(INFO, L2FWD, " -- lcoreid=%u portid=%u\n", lcore_id, portid); // 顯示一下 lcore 和 port 的對應關係 }
收發循環
while (!force_quit) { cur_tsc = rte_rdtsc(); // 獲取從開機起至當前的時間戳 /* * TX burst queue drain * 發送邏輯 */ diff_tsc = cur_tsc - prev_tsc; if (unlikely(diff_tsc > drain_tsc)) { // 時間到了 //如果tx_buffer滿,會發送一批 pkt 出去。 //如果沒滿,爲了保證沒有沒被髮出的 pkt,所以每個一小段時間,也會發送隊列中的包 for (i = 0; i < qconf->n_rx_port; i++) { // 對 lcore 負責的每個端口 portid = l2fwd_dst_ports[qconf->rx_port_list[i]]; // 與之配對的端口 buffer = tx_buffer[portid]; sent = rte_eth_tx_buffer_flush(portid, 0, buffer); // 將 buffer 裏的 pkt 全部從 port id 的 0號 Tx queue 發出去 if (sent) // 返回值是成功發出的 pkt 數量 port_statistics[portid].tx += sent; } /* if timer is enabled */ if (timer_period > 0) { /* advance the timer */ timer_tsc += diff_tsc; /* if timer has reached its timeout */ if (unlikely(timer_tsc >= timer_period)) { /* do this only on master core */ if (lcore_id == rte_get_master_lcore()) { // 如果計時器到了,就打印一下信息。只在主核心打印信息 print_stats(); /* reset the timer */ timer_tsc = 0; } } } prev_tsc = cur_tsc; } /* * Read packet from RX queues * 接收邏輯 */ for (i = 0; i < qconf->n_rx_port; i++) { // 對 lcore 負責的每個端口 portid = qconf->rx_port_list[i]; // 獲取端口號 nb_rx = rte_eth_rx_burst(portid, 0, pkts_burst, MAX_PKT_BURST); // 收包,收到該端口的 0 號 rx queue port_statistics[portid].rx += nb_rx;// 更新端口上的收包計數器 for (j = 0; j < nb_rx; j++) { // 對每一個包 m = pkts_burst[j]; // 包的 mbuf 指針 // Prefetch: 預取一個 cache 行。參數是要取的地址,類型 void * // rte_pktmbuf_mtod:返回 mbuf 中 data 的起始地址 rte_prefetch0(rte_pktmbuf_mtod(m, void *)); l2fwd_simple_forward(m, portid); // 收包後進行 L2fwd !! } } }
l2fwd_simple_forward
(替換源MAC地址和目的MAC地址)
static void l2fwd_simple_forward(struct rte_mbuf *m, unsigned portid) { unsigned dst_port; int sent; struct rte_eth_dev_tx_buffer *buffer; dst_port = l2fwd_dst_ports[portid]; // 與之配對的端口 if (mac_updating) // 如果開啓了 mac updating 模式 l2fwd_mac_updating(m, dst_port); // 調整 MAC 地址 buffer = tx_buffer[dst_port]; // 該端口的 tx_buffer sent = rte_eth_tx_buffer(dst_port, 0, buffer, m); // 將收到的包緩存在 tx_buffer 裏,用於未來的發送。 // 返回值 如果爲0,表示 pkt 已經被緩存 // 返回值 N>0,表示由於緩衝區被flush導致N個pkt被髮送。 if (sent) port_statistics[dst_port].tx += sent; }