Linux網卡驅動

 
  一.Linux系統設備驅動程序概述

  1.1 Linux設備驅動程序分類

  Linux設備驅動程序在Linux的內核源代碼中佔有很大的比例,源代碼的長度日益增加,主要是驅動程序的增加。在Linux內核的不斷升級過程中,驅動程序的結構還是相對穩定。在2.0.xx到2.2.xx的變動裏,驅動程序的編寫做了一些改變,但是從2.0.xx的驅動到2.2.xx的移植只需做少量的工作。

  Linux系統的設備分爲字符設備(char device),塊設備(block device)和網絡設備(network device)三種。字符設備是指存取時沒有緩存的設備。塊設備的讀寫都有緩存來支持,並且塊設備必須能夠隨機存取(random access),字符設備則沒有這個要求。典型的字符設備包括鼠標,鍵盤,串行口等。塊設備主要包括硬盤軟盤設備,CD-ROM等。一個文件系統要安裝進入操作系統必須在塊設備上。

  網絡設備在Linux裏做專門的處理。Linux的網絡系統主要是基於BSD unix的socket機制。在系統和驅動程序之間定義有專門的數據結構(sk_buff)進行數據的傳遞。系統裏支持對發送數據和接收數據的緩存,提供流量控制機制,提供對多協議的支持。

  1.2 編寫驅動程序的一些基本概念

  無論是什麼操作系統的驅動程序,都有一些通用的概念。操作系統提供給驅動程序的支持也大致相同。下面簡單介紹一下網絡設備驅動程序的一些基本要求。

  1.2.1 發送和接收

  這是一個網絡設備最基本的功能。一塊網卡所做的無非就是收發工作。所以驅動程序裏要告訴系統你的發送函數在哪裏,系統在有數據要發送時就會調用你的發送程序。還有驅動程序由於是直接操縱硬件的,所以網絡硬件有數據收到最先能得到這個數據的也就是驅動程序,它負責把這些原始數據進行必要的處理然後送給系統。這裏,操作系統必須要提供兩個機制,一個是找到驅動程序的發送函數,一個是驅動程序把收到的數據送給系統。是驅動程序把收到的數據送給系統。

  1.2.2 中斷

  中斷在現代計算機結構中有重要的地位。操作系統必須提供驅動程序響應中斷的能力。一般是把一箇中斷處理程序註冊到系統中去。操作系統在硬件中斷髮生後調用驅動程序的處理程序。Linux支持中斷的共享,即多個設備共享一箇中斷。
 
    1.2.3 時鐘

  在實現驅動程序時,很多地方會用到時鐘。如某些協議裏的超時處理,沒有中斷機制的硬件的輪詢等。操作系統應爲驅動程序提供定時機制。一般是在預定的時間過了以後回調註冊的時鐘函數。在網絡驅動程序中,如果硬件沒有中斷功能,定時器可以提供輪詢(poll)方式對硬件進行存取。或者是實現某些協議時需要的超時重傳等。

二.Linux系統網絡設備驅動程序

  2.1 網絡驅動程序的結構

  所有的Linux網絡驅動程序遵循通用的接口。設計時採用的是面向對象的方法。一個設備就是一個對象(device 結構),它內部有自己的數據和方法。每一個設備的方法被調用時的第一個參數都是這個設備對象本身。這樣這個方法就可以存取自身的數據(類似面向對象程序設計時的this引用)。一個網絡設備最基本的方法有初始化、發送和接收。

   -------------------      ---------------------
  |deliver packets  |     |receive packets queue|
  |(dev_queue_xmit()) |     |them(netif_rx())   |
   -------------------      ---------------------
    |     |           /    
         /           |     |
  -------------------------------------------------------
  | methods and variables(initialize,open,close,hard_xmit,|
  | interrupt handler,config,resources,status...)     |
  -------------------------------------------------------
     |    |           /    
         /           |     |
   -----------------       ----------------------
   |send to hardware |      |receivce from hardware|
   -----------------       ----------------------
     |    |           /    
         /           |     |
   -----------------------------------------------------
  |         hardware media           |
   -----------------------------------------------------

  初始化程序完成硬件的初始化、device中變量的初始化和系統資源的申請、發送程序是在驅動程序的上層協議層有數據要發送時自動調用的。一般驅動程序中不對發送數據進行緩存,而是直接使用硬件的發送功能把數據發送出去。接收數據一般是通過硬件中斷來通知的。在中斷處理程序裏,把硬件幀信息填入一個 skbuff結構中,然後調用netif_rx()傳遞給上層處理。

  2.2 網絡驅動程序的基本方法

  網絡設備做爲一個對象,提供一些方法供系統訪問。正是這些有統一接口的方法,掩蔽了硬件的具體細節,讓系統對各種網絡設備的訪問都採用統一的形式,做到硬件無關性。

  下面解釋最基本的方法。

  2.2.1 初始化(initialize)

  驅動程序必須有一個初始化方法。在把驅動程序載入系統的時候會調用這個初始化程序。它做以下幾方面的工作。檢測設備。在初始化程序裏你可以根據硬件的特徵檢查硬件是否存在,然後決定是否啓動這個驅動程序。配置和初始化硬件。在初始化程序裏你可以完成對硬件資源的配置,比如即插即用的硬件就可以在這個時候進行配置(Linux內核對PnP功能沒有很好的支持,可以在驅動程序裏完成這個功能)。配置或協商好硬件佔用的資源以後,就可以向系統申請這些資源。有些資源是能)。配置或協商好硬件佔用的資源以後,就可以向系統申請這些資源。有些資源是可以和別的設備共享的,如中斷。有些是不能共享的,如IO、 DMA。接下來你要初始化device結構中的變量。最後,你可以讓硬件正式開始工作。

  2.2.2 打開(open)

  open這個方法在網絡設備驅動程序裏是網絡設備被激活的時候被調用(即設備狀態由down-->up)。所以實際上很多在initialize 中的工作可以放到這裏來做。比如資源的申請,硬件的激活。如果dev->open返回非0(error),則硬件的狀態還是down。

  open方法另一個作用是如果驅動程序做爲一個模塊被裝入,則要防止模塊卸載時設備處於打開狀態。在open方法裏要調用MOD_INC_USE_COUNT宏。

  2.2.3 關閉(stop)

  close方法做和open相反的工作。可以釋放某些資源以減少系統負擔。close是在設備狀態由up轉爲down時被調用的。另外如果是做爲模塊裝入的驅動程序,close裏應該調用MOD_DEC_USE_COUNT,減少設備被引用的次數,以使驅動程序可以被卸載。另外close方法必須返回成功(0==success)。

  2.2.4 發送(hard_start_xmit)

  所有的網絡設備驅動程序都必須有這個發送方法。在系統調用驅動程序的xmit時,發送的數據放在一個sk_buff結構中。一般的驅動程序把數據傳給硬件發出去。也有一些特殊的設備比如 loopback把數據組成一個接收數據再回送給系統,或者dummy設備直接丟棄數據。如果發送成功,hard_start_xmit方法裏釋放 sk_buff,返回0(發送成功)。如果發送成功,hard_start_xmit方法裏釋放sk_buff,返回0(發送成功)。如果設備暫時無法處理,比如硬件忙,則返回1。這時如果dev->tbusy置爲非0,則系統認爲硬件忙,要等到dev->tbusy置0以後纔會再次發送。 tbusy的置0任務一般由中斷完成。硬件在發送結束後產生中斷,這時可以把tbusy置0,然後用mark_bh()調用通知系統可以再次發送。在發送不成功的情況下,也可以不置dev->tbusy爲非0,這樣系統會不斷嘗試重發。如果hard_start_xmit發送不成功,則不要釋放 sk_buff。

傳送下來的sk_buff中的數據已經包含硬件需要的幀頭。所以在發送方法裏不需要再填充硬件幀頭,數據可以直接提交給硬件發送。sk_buff是被鎖住的(locked),確保其他程序不會存取它。

  2.2.5 接收(reception)

  驅動程序並不存在一個接收方法。有數據收到應該是驅動程序來通知系統的。一般設備收到數據後都會產生一箇中斷,在中斷處理程序中驅動程序申請一塊 sk_buff(skb),從硬件讀出數據放置到申請好的緩衝區裏。接下來填充sk_buff中的一些信息。skb->dev = dev,判斷收到幀的協議類型,填入skb->protocol(多協議的支持)。把指針skb->mac.raw指向硬件數據然後丟棄硬件幀頭 (skb_pull)。還要設置skb->pkt_type,標明第二層(鏈路層)數據類型。可以是以下類型:

  PACKET_BROADCAST : 鏈路層廣播

  PACKET_MULTICAST : 鏈路層組播

  PACKET_SELF   : 發給自己的幀

  PACKET_OTHERHOST : 發給別人的幀(監聽模式時會有這種幀)

  最後調用netif_rx()把數據傳送給協議層。netif_rx()裏數據放入處理隊列然後返最後調用netif_rx()把數據傳送給協議層。 netif_rx()裏數據放入處理隊列然後返回,真正的處理是在中斷返回以後,這樣可以減少中斷時間。調用netif_rx()以後,驅動程序就不能再存取數據緩衝區skb。

  2.2.6 硬件幀頭(hard_header)

  硬件一般都會在上層數據發送之前加上自己的硬件幀頭,比如以太網(Ethernet)就有14字節的幀頭。這個幀頭是加在上層ip、ipx等數據包的前面的。驅動程序提供一個 hard_header方法,協議層(ip、ipx、arp等)在發送數據之前會調用這段程序。硬件幀頭的長度必須填在dev-> hard_header_len,這樣協議層回在數據之前保留好硬件幀頭的空間。這樣hard_header程序只要調用skb_push然後正確填入硬件幀頭就可以了。

  在協議層調用hard_header時,傳送的參數包括(2.0.xx):數據的sk_buff,

   device指針,protocol,目的地址(daddr),源地址(saddr),數據長度(len)。數據長度不要使用sk_buff中的參數,因爲調用hard_header時數據可能還沒完全組織好。saddr是NULL的話是使用缺省地址(default)。daddr是NULL表明協議層不知道硬件目的地址。如果hard_header完全填好了硬件幀頭,則返回添加的字節數。如果硬件幀頭中的信息還不完全(比如daddr爲NULL,但是幀頭中需要目的硬件地址。典型的情況是以太網需要地址解析(arp)),則返回負字節數。hard_header返回負數的情況下,協議層會做進一步的 build header的工作。目前Linux系統裏就是做arp(如果hard_header返回正,dev->arp=1,表明不需要做 arp,返回負,dev->arp=0,做arp)。對hard_header的調用在每個協議層的處理程序裏。如ip_output。

 2.2.7 地址解析(xarp)

  有些網絡有硬件地址(比如Ethernet),並且在發送硬件幀時需要知道目的硬件地址。這樣就需要上層協議地址(ip、ipx)和硬件地址的對應。這個對應是通過地址解析完成的。需要做arp的的設備在發送之前會調用驅動程序的 rebuild_header方法。調用的主要參數包括指向硬件幀頭的指針,協議層地址。如果驅動程序能夠解析硬件地址,就返回1,如果不能,返回0。

  對rebuild_header的調用在net/core/dev.c的do_dev_queue_xmit()裏。

  2.2.8 參數設置和統計數據

  在驅動程序裏還提供一些方法供系統對設備的參數進行設置和讀取信息。一般只有超級用戶(root)權限才能對設備參數進行設置。設置方法有:

  dev->set_mac_address()

  當用戶調用ioctl類型爲SIOCSIFHWADDR時是要設置這個設備的mac地址。一般對mac地址的設置沒有太大意義的。

  dev->set_config()

  當用戶調用ioctl時類型爲SIOCSIFMAP時,系統會調用驅動程序的set_config方法。用戶會傳遞一個ifmap結構包含需要的I/O、中斷等參數。

  dev->do_ioctl()

  dev->do_ioctl()

  如果用戶調用ioctl時類型在SIOCDEVPRIVATE和SIOCDEVPRIVATE+15之間,系統會調用驅動程序的這個方法。一般是設置設備的專用數據。

  讀取信息也是通過ioctl調用進行。除次之外驅動程序還可以提供一個

  dev->get_stats方法,返回一個enet_statistics結構,包含發送接收的統計信息。

  ioctl的處理在net/core/dev.c的dev_ioctl()和dev_ifsioc()裏。

  2.3 網絡驅動程序中用到的數據結構

  最重要的是網絡設備的數據結構。定義在include/linux/netdevice.h裏。它的註釋已經足夠詳盡。

  struct device
{
 /*
  * This is the first field of the "visible" part of this structure
  * (i.e. as seen by users in the "Space.c" file). It is the name
  * the interface.
  */
 char          *name;
 /* I/O specific fields - FIXME: Merge these and struct ifmap into one */
 unsigned long      rmem_end;       /* shmem "recv" end   */
 unsigned long      rmem_end;       /* shmem "recv" end   */
 unsigned long      rmem_start;      /* shmem "recv" start  */
 unsigned long      mem_end;       /* shared mem end    */
 unsigned long      mem_start;      /* shared mem start   */
 unsigned long      base_addr;      /* device I/O address  */
 unsigned char      irq;         /* device IRQ number  */
 /* Low-level status flags. */
 volatile unsigned char start,        /* start an operation  */
             interrupt;      /* interrupt arrived  */
 /* 在處理中斷時interrupt設爲1,處理完清0。 */
 unsigned long      tbusy;        /* transmitter busy must be long
 for
 struct device      *next;
 /* The device initialization function. Called only once. */
 /* 指向驅動程序的初始化方法。 */
 int           (*init)(struct device *dev);
 /* Some hardware also needs these fields, but they are not part of the
   usual set specified in Space.c. */
 /* 一些硬件可以在一塊板上支持多個接口,可能用到if_port。 */
 /* 一些硬件可以在一塊板上支持多個接口,可能用到if_port。 */
 unsigned char      if_port;       /* Selectable AUI, TP,..*/
 unsigned char      dma;         /* DMA channel     */
 struct enet_statistics* (*get_stats)(struct device *dev);
 /*
  * This marks the end of the "visible" part of the structure. All
  * fields hereafter are internal to the system, and may change at
  * will (read: may be cleaned up at will).
  */
 /* These may be needed for future network-power-down code. */
 /* trans_start記錄最後一次成功發送的時間。可以用來確定硬件是否工作正常。*/
 unsigned long      trans_start; /* Time (in jiffies) of last Tx */
 unsigned long      last_rx;   /* Time of last Rx       */
 /* flags裏面有很多內容,定義在include/linux/if.h裏。*/
 unsigned short     flags;    /* interface flags (a la BSD)  */
 unsigned short     family;    /* address family ID (AF_INET) */
 unsigned short     metric;    /* routing metric (not used)  */
 unsigned short     mtu;     /* interface MTU value     */
 /* type標明物理硬件的類型。主要說明硬件是否需要arp。定義在
   include/linux/if_arp.h裏。 */
 unsigned short     type;     /* interface hardware type   */
 /* 上層協議層根據hard_header_len在發送數據緩衝區前面預留硬件幀頭空間。*/
 unsigned short     hard_header_len;   /* hardware hdr length */
 /* priv指向驅動程序自己定義的一些參數。*/
 void          *priv;    /* pointer to private data   */
 /* Interface address info. */
 unsigned char      broadcast[MAX_ADDR_LEN];   /* hw bcast add */
 unsigned char      pad;             /* make dev_addr aligned
 to 8
bytes */
 unsigned char      dev_addr[MAX_ADDR_LEN];    /* hw address  */
 unsigned char      addr_len;   /* hardware address length   */
 unsigned long      pa_addr;   /* protocol address       */
 unsigned long      pa_brdaddr;  /* protocol broadcast addr   */
 unsigned long      pa_dstaddr;  /* protocol P-P other side addr */
 unsigned long      pa_mask;   /* protocol netmask       */
 struct dev_mc_list   *mc_list;   /* Multicast mac addresses   */
 int          mc_count;   /* Number of installed mcasts  */
 struct ip_mc_list   *ip_mc_list;  /* IP multicast filter chain  */
 __u32         tx_queue_len;  /* Max frames per queue allowed */
 /* For load balancing driver pair support */
 unsigned long      pkt_queue;  /* Packets queued */
 struct device      *slave;    /* Slave device */
 struct net_alias_info     *alias_info;  /* main dev alias info */
 struct net_alias       *my_alias;   /* alias devs */
 /* Pointer to the interface buffers. */
 struct sk_buff_head   buffs[DEV_NUMBUFFS];
 /* Pointers to interface service routines. */
 int           (*open)(struct device *dev);
 int           (*hard_start_xmit) (struct sk_buff *skb,
                       struct device *dev);
 int           (*hard_header) (struct sk_buff *skb,
                     struct device *dev,
                     unsigned short type,
                     void *daddr,
                     void *saddr,
                     unsigned len);
 int           (*rebuild_header)(void *eth, struct device *dev,
                unsigned long raddr, struct sk_buff *skb);
#define HAVE_MULTICAST
 void          (*set_multicast_list)(struct device *dev);
#define HAVE_SET_MAC_ADDR
 int           (*set_mac_address)(struct device *dev, void *addr);
#define HAVE_PRIVATE_IOCTL
 int           (*do_ioctl)(struct device *dev, struct ifreq *ifr, int
 cmd);
#define HAVE_SET_CONFIG
 int           (*set_config)(struct device *dev, struct ifmap *map);
#define HAVE_HEADER_CACHE
 void          (*header_cache_bind)(struct hh_cache **hhp, struct dev
ice
*dev, unsigned short htype, __u32 daddr);
*dev, unsigned short htype, __u32 daddr);
 void          (*header_cache_update)(struct hh_cache *hh, struct dev
ice
*dev, unsigned char * haddr);
#define HAVE_CHANGE_MTU
 struct iw_statistics*  (*get_wireless_stats)(struct device *dev);
};


 2.4 常用的系統支持

  2.4.1 內存申請和釋放

  include/linux/kernel.h裏聲明瞭kmalloc()和kfree()。用於在內核模式下申請和釋放內存。

  void *kmalloc(unsigned int len,int priority);

  void kfree(void *__ptr);

  與用戶模式下的malloc()不同,kmalloc()申請空間有大小限制。長度是2的整次方。可以申請的最大長度也有限制。另外kmalloc() 有priority參數,通常使用時可以爲GFP_KERNEL,如果在中斷裏調用用GFP_ATOMIC參數,因爲使用GFP_KERNEL則調用者可能進入sleep狀態,在處理中斷時是不允許的。

  kfree()釋放的內存必須是kmalloc()申請的。如果知道內存的大小,也可以用kfree_s()釋放。

  2.4.2 request_irq()、free_irq()

  這是驅動程序申請中斷和釋放中斷的調用。在include/linux/sched.h裏聲明。request_irq()調用的定義:

  int request_irq(unsigned int irq,
            void (*handler)(int irq, void *dev_id, struct pt_regs *regs),
            unsigned long irqflags,
            const char * devname,
            void *dev_id);

  irq是要申請的硬件中斷號。在Intel平臺,範圍0--15。handler是向系統登記的中斷處理函數。這是一個回調函數,中斷髮生時,系統調用這個函數,傳入的參數包括硬件中斷號,device id,寄存器值。dev_id就是下面的request_irq時傳遞給系統的參數dev_id。 irqflags是中斷處理的一些屬性。比較重要的有SA_INTERRUPT,標明中斷處理程序是快速處理程序(設置SA_INTERRUPT)還是慢速處理程序(不設置SA_INTERRUPT)。快速處理程序被調用時屏蔽所有中斷。慢速處理程序不屏蔽。還有一個SA_SHIRQ屬性,設置了以後運行多個設備共享中斷。dev_id在中斷共享時會用到。一般設置爲這個設備的device結構本身或者NULL。中斷處理程序可以用dev_id找到相應的控制這個中斷的設備,或者用rq2dev_map找到中斷對應的設備。 

  void free_irq(unsigned int irq,void *dev_id);

  2.4.3 時鐘

  時鐘的處理類似中斷,也是登記一個時間處理函數,在預定的時間過後,系統時鐘的處理類似中斷,也是登記一個時間處理函數,在預定的時間過後,系統會調用這個函數。在include/linux/timer.h裏聲明。

 struct timer_list {
    struct timer_list *next;
    struct timer_list *prev;
    unsigned long expires;
    unsigned long data;
    void (*function)(unsigned long);
    };
    void add_timer(struct timer_list * timer);
    int del_timer(struct timer_list * timer);
    void init_timer(struct timer_list * timer);

  使用時鐘,先聲明一個timer_list結構,調用init_timer對它進行初始化。time_list結構裏expires是標明這個時鐘的週期,單位採用jiffies的單位。jiffies是Linux一個全局變量,代表時間。它的單位隨硬件平臺的不同而不同。系統裏定義了一個常數HZ,代表每秒種最小時間間隔的數目。這樣jiffies的單位就是1/HZ。Intel平臺jiffies的單位是1/100秒,這就是系統所能分辨的最小時間間隔了。所以expires/HZ就是以秒爲單位的這個時鐘的週期。

  function就是時間到了以後的回調函數,它的參數就是timer_list中的data。data這個參數在初始化時鐘的時候賦值,一般賦給它設備的device結構指針。

  在預置時間到系統調用function,同時系統把這個time_list從定時隊列裏清除。所以如果需要一直使用定時函數,要在function裏再次調用add_timer()把這個函數。

  I/O端口的存取使用:

  inline unsigned int inb(unsigned short port);

  inline unsigned int inb_p(unsigned short port);

  inline void outb(char value, unsigned short port);

  inline void outb_p(char value, unsigned short port);

  在include/adm/io.h裏定義。

  inb_p()、outb_p()與inb()、outb_p()的不同在於前者在存取I/O時有等待

  (pause)一適應慢速的I/O設備。

  爲了防止存取I/O時發生衝突,Linux提供對端口使用情況的控制。在使用端口之前,可以檢查需要的I/O是否正在被使用,如果沒有,則把端口標記爲正在使用,使用完後再釋放。系統提供以下幾個函數做這些工作。

  int check_region(unsigned int from, unsigned int extent);

void request_region(unsigned int from, unsigned int extent,const char *name)

  ;

  void release_region(unsigned int from, unsigned int extent);

  其中的參數from表示用到的I/O端口的起始地址,extent標明從from開始的端口數目。name爲設備名稱。

  void release_region(unsigned int from, unsigned int extent);

  其中的參數from表示用到的I/O端口的起始地址,extent標明從from開始的端口數目。name爲設備名稱。

  2.4.5 中斷打開關閉

  系統提供給驅動程序開放和關閉響應中斷的能力。是在include/asm/system.h中的兩個定義。

  #define cli() __asm__ __volatile__ ("cli"::)

  #define sti() __asm__ __volatile__ ("sti"::)

  2.4.6 打印信息

  類似普通程序裏的printf(),驅動程序要輸出信息使用printk()。在include/linux/kernel.h裏聲明。

  int printk(const char* fmt, ...);

  其中fmt是格式化字符串。...是參數。都是和printf()格式一樣的。

  2.4.7 註冊驅動程序

  如果使用模塊(module)方式加載驅動程序,需要在模塊初始化時把設備註冊

  到系統設備表裏去。不再使用時,把設備從系統中卸除。定義在drivers/net/net_init.h裏的兩個函數完成這個工作。

  int register_netdev(struct device *dev);

  void unregister_netdev(struct device *dev);

  dev就是要註冊進系統的設備結構指針。在register_netdev()時,dev就是要註冊進系統的設備結構指針。在 register_netdev()時,dev結構一般填寫前面11項,即到init,後面的暫時可以不用初始化。最重要的是name指針和init方法。name指針空(NULL)或者內容爲''或者name[0]爲空格(space),則系統把你的設備做爲以太網設備處理。以太網設備有統一的命名格式,ethX。對以太網這麼特別對待大概和Linux的歷史有關。

  init方法一定要提供,register_netdev()會調用這個方法讓你對硬件檢測和設置。

  register_netdev()返回0表示成功,非0不成功。

  2.4.8 sk_buff

  Linux網絡各層之間的數據傳送都是通過sk_buff。sk_buff提供一套管理緩衝區的方法,是Linux系統網絡高效運行的關鍵。每個 sk_buff包括一些控制方法和一塊數據緩衝區。控制方法按功能分爲兩種類型。一種是控制整個buffer鏈的方法,另一種是控制數據緩衝區的方法。 sk_buff組織成雙向鏈表的形式,根據網絡應用的特點,對鏈表的操作主要是刪除鏈表頭的元素和添加到鏈表尾。sk_buff的控制方法都很短小以儘量減少系統負荷。(translated from article written by AlanCox)

.alloc_skb() 申請一個sk_buff並對它初始化。返回就是申請到的sk_buff。

  .dev_alloc_skb()類似alloc_skb,在申請好緩衝區後,保留16字節的幀頭空間。主要用在Ethernet驅動程序。

  .kfree_skb() 釋放一個sk_buff。

  .skb_clone() 複製一個sk_buff,但不復制數據部分。

  .skb_copy()完全複製一個sk_buff。

  .skb_dequeue() 從一個sk_buff鏈表裏取出第一個元素。返回取出的sk_buff

  .skb_dequeue() 從一個sk_buff鏈表裏取出第一個元素。返回取出的sk_buff,如果鏈表空則返回NULL。這是常用的一個操作。

  .skb_queue_head() 在一個sk_buff鏈表頭放入一個元素。

  .skb_queue_tail() 在一個sk_buff鏈表尾放入一個元素。這也是常用的一個操作。網絡數據的處理主要是對一個先進先出隊列的管理,skb_queue_tail()和skb_dequeue()完成這個工作。

  .skb_insert() 在鏈表的某個元素前插入一個元素。

  .skb_append() 在鏈表的某個元素後插入一個元素。一些協議(如TCP)對沒按順序到達的數據進行重組時用到skb_insert()和skb_append()。

  .skb_reserve() 在一個申請好的sk_buff的緩衝區裏保留一塊空間。這個空間一般是用做下一層協議的頭空間的。

  .skb_put() 在一個申請好的sk_buff的緩衝區裏爲數據保留一塊空間。在

  alloc_skb以後,申請到的sk_buff的緩衝區都是處於空(free)狀態,有一個tail指針指向free空間,實際上開始時tail就指向緩衝區頭。skb_reserve()在free空間裏申請協議頭空間,skb_put()申請數據空間。見下面的圖。

  .skb_push() 把sk_buff緩衝區裏數據空間往前移。即把Head room中的空間移一部分到Data area。

  .skb_pull() 把sk_buff緩衝區裏Data area中的空間移一部分到Head room中。

  --------------------------------------------------
      |      Tail room(free)            |
      --------------------------------------------------
      --------------------------------------------------
            After alloc_skb()
      --------------------------------------------------
      | Head room |    Tail room(free)        |
      --------------------------------------------------
            After skb_reserve()
      --------------------------------------------------
      | Head room |   Data area   | Tail room(free) |
      --------------------------------------------------
            After skb_put()
      --------------------------------------------------
      |Head| skb_ |  Data      | Tail room(free) |
      |room| push |          |         |
      |  |    Data area     |         |
      --------------------------------------------------
            After skb_push()
      --------------------------------------------------
      |  Head  | skb_ | Data area | Tail room(free) |
      |      | pull |      |         |
      |      | pull |      |         |
      |  Head room   |      |         |
      --------------------------------------------------
            After skb_pull()

 三.編寫Linux網絡驅動程序中需要注意的問題

  3.1 中斷共享

  Linux系統運行幾個設備共享同一個中斷。需要共享的話,在申請的時候指明共享方式。系統提供的request_irq()調用的定義:

    int request_irq(unsigned int irq,
          void (*handler)(int irq, void *dev_id, struct pt_regs *regs),
          unsigned long irqflags,
          const char * devname,
          void *dev_id);

  如果共享中斷,irqflags設置SA_SHIRQ屬性,這樣就允許別的設備申請同一個中斷。需要注意所有用到這個中斷的設備在調用 request_irq()都必須設置這個屬性。系統在回調每個中斷處理程序時,可以用dev_id這個參數找到相應的設備。系統在回調每個中斷處理程序時,可以用dev_id這個參數找到相應的設備。一般dev_id就設爲device結構本身。系統處理共享中斷是用各自的dev_id參數依次調用每一箇中斷處理程序。

  3.2 硬件發送忙時的處理

  主CPU的處理能力一般比網絡發送要快,所以經常會遇到系統有數據要發,但上一包數據網絡設備還沒發送完。因爲在Linux裏網絡設備驅動程序一般不做數據緩存,不能發送的數據都是通知系統發送不成功,所以必須要有一個機制在硬件不忙時及時通知系統接着發送下面的數據。

  一般對發送忙的處理在前面設備的發送方法(hard_start_xmit)裏已經描述過,即如果發送忙,置tbusy爲1。處理完髮送數據後,在發送結束中斷裏清tbusy,同時用mark_bh()調用通知系統繼續發送。

  但在具體實現我的驅動程序時發現,這樣的處理系統好象並不能及時地知道硬件已經空閒了,即在mark_bh()以後,系統要等一段時間纔會接着發送。造成發送效率很低。2M線路只有10%不到的使用率。內核版本爲2.0.35。

  我最後的實現是不把tbusy置1,讓系統始終認爲硬件空閒,但是報告發送不成功。系統會一直嘗試重發。這樣處理就運行正常了。但是遍循內核源碼中的網絡驅動程序,似乎沒有這樣處理的。不知道癥結在哪裏。

  3.3 流量控制(flow control)

  網絡數據的發送和接收都需要流量控制。這些控制是在系統裏實現的,不需要驅動程序做工作。每個設備數據結構裏都有一個參數dev-> tx_queue_len,這個參數標明發送時最多緩存的數據包。在Linux系統裏以太網設備(10/100Mbps)標明發送時最多緩存的數據包。在 Linux系統裏以太網設備(10/100Mbps)tx_queue_len一般設置爲100,串行線路(異步串口)爲10。實際上如果看源碼可以知道,設置了dev->tx_queue_len並不是爲緩存這些數據申請了空間。這個參數只是在收到協議層的數據包時判斷髮送隊列裏的數據是不是到了tx_queue_len的限度,以決定這一包數據加不加進發送隊列。發送時另一個方面的流控是更高層協議的發送窗口(TCP協議裏就有發送窗口)。達到了窗口大小,高層協議就不會再發送數據。

接收流控也分兩個層次。netif_rx()緩存的數據包有限制。另外高層協議也會有一個最大的等待處理的數據量。

  發送和接收流控處理在net/core/dev.c的do_dev_queue_xmit()和netif_rx()中。

  3.4 調試

  很多Linux的驅動程序都是編譯進內核的,形成一個大的內核文件。但對調試來說,這是相當麻煩的。調試驅動程序可以用module方式加載。支持模塊方式的驅動程序必須提供兩個函數:int init_module(void)和void cleanup_module(void)。init_module()在加載此模塊時調用,在這個函數裏可以register_netdev()註冊設備。init_module()返回0表示成功,返回負表示失敗。cleanup_module()在驅動程序被卸載時調用,清除佔用的資源,調用 unregister_netdev()。

  模塊可以動態地加載、卸載。在2.0.xx版本里,還有kerneld自動加載模塊,但是2.2.xx中已經取消了kerneld。手工加載使用insmod命令,卸載用rmmod命令,看內核中的模塊用lsmod命令。

  編譯驅動程序用gcc,主要命令行參數-DKERNEL -DMODULE。並且作爲模塊加載的驅動程序,只編譯成obj形式(加-c參數)。編譯好的目標文放/lib/modules/2.x.xx/misc下,在啓動文件裏用insmod加載。

  四.進一步的閱讀

  Linux程序設計資料可以從網上獲得。這就是開放源代碼的好處。並且沒有什麼“未公開的祕密”。我編寫驅動程序時參閱的主要資料包括:

  Linux內核源代碼

  《The Linux Kernel Hacker's Guide》by Michael K. Johnson

  《Linux Kernel Module Programming Guide》by Ori Pomerantz

  《Linux下的設備驅動程》by olly in BBS水木清華站

  可以選擇一個模板作爲開始,內核源代碼裏有一個網絡驅動程序的模板,drivers/net/skeleton.c。裏面包含了驅動程序的基本內容。但這個模板是以以太網設備爲對象的,以太網的處理在Linux系統裏有特殊“待遇”,所以如果不是以太網設備,有些細節上要注意,主要在初始化程序裏。

  最後,多參照別人寫的程序,聽聽其他開發者的經驗之談大概是最有效的幫助了。
發佈了28 篇原創文章 · 獲贊 2 · 訪問量 5萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章