glob 模式匹配簡介

轉自：http://www.zybang.com/question/62a9c6f4f875fc3cab6dead25a3a7ad8.html

英文原版地址：http://www.man7.org/linux/man-pages/man7/glob.7.html

個人觀點：最近項目需要用到了模式匹配路徑下的文件名的功能，網上的資料幾乎都是一樣的，還是看man手冊裏寫的比較全面。

我使用了系統函數fnmatch，第三個參數寫得是0，實現了* ？【】的模式匹配，和正則表達式還差很多，但是這個功能也比較不錯了，

在網上找了源代碼，有兩份，一份是apple的，另一份是linux的。

apple源代碼：http://www.man7.org/linux/man-pages/man3/glob.3.html

linux源代碼詳見coreutils-8.25/lib/fnmatch.c以下粘出部分代碼：

int
fnmatch (const char *pattern, const char *string, int flags)
{
# if HANDLE_MULTIBYTE
#  define ALLOCA_LIMIT 2000
  if (__builtin_expect (MB_CUR_MAX, 1) != 1)
    {
      mbstate_t ps;
      size_t patsize;
      size_t strsize;
      size_t totsize;
      wchar_t *wpattern;
      wchar_t *wstring;
      int res;

      /* Calculate the size needed to convert the strings to
         wide characters.  */
      memset (&ps, '\0', sizeof (ps));
      patsize = mbsrtowcs (NULL, &pattern, 0, &ps) + 1;
      if (__builtin_expect (patsize != 0, 1))
        {
          assert (mbsinit (&ps));
          strsize = mbsrtowcs (NULL, &string, 0, &ps) + 1;
          if (__builtin_expect (strsize != 0, 1))
            {
              assert (mbsinit (&ps));
              totsize = patsize + strsize;
              if (__builtin_expect (! (patsize <= totsize
                                       && totsize <= SIZE_MAX / sizeof (wchar_t)),
                                    0))
                {
                  errno = ENOMEM;
                  return -1;
                }

              /* Allocate room for the wide characters.  */
              if (__builtin_expect (totsize < ALLOCA_LIMIT, 1))
                wpattern = (wchar_t *) alloca (totsize * sizeof (wchar_t));
              else
                {
                  wpattern = malloc (totsize * sizeof (wchar_t));
                  if (__builtin_expect (! wpattern, 0))
                    {
                      errno = ENOMEM;
                      return -1;
                    }
                }
              wstring = wpattern + patsize;

              /* Convert the strings into wide characters.  */
              mbsrtowcs (wpattern, &pattern, patsize, &ps);
              assert (mbsinit (&ps));
              mbsrtowcs (wstring, &string, strsize, &ps);

              res = internal_fnwmatch (wpattern, wstring, wstring + strsize - 1,
                                       flags & FNM_PERIOD, flags);

              if (__builtin_expect (! (totsize < ALLOCA_LIMIT), 0))
                free (wpattern);
              return res;
            }
        }
    }

# endif /* HANDLE_MULTIBYTE */

  return internal_fnmatch (pattern, string, string + strlen (string),
                           flags & FNM_PERIOD, flags);
}

以下是從網上轉載的，對man手冊中glob的翻譯：

GLOB

Section: \7Linux Programmer's Manual\7 (7)
Updated: 12 June
1998
Index
NAME
glob - 形成路徑名稱
描述 (DESCRIPTION)
很久以前在 UNIX V6 版中有一個程序 /etc/glob 用來展開通配符模板.
不久以後它成爲 shell 內建功能. 現在人們開發了類似的庫函數 glob(3), 讓用戶程序實現同樣的功能.
此規則遵循 (POSIX 1003.2, 3.13).
通配符匹配 (WILDCARD MATCHING)
包含 '?', '*' 或 '[' 字符的字符串稱爲通配符模板(wildcard
pattern). 形成路徑名(globbing) 指一種操作, 把通配符模板展開爲匹配該串的路徑名. 匹配定義爲:
不在方括弧中的 '?' 匹配任意單個字符.
不在方括弧中的 '*' 匹配任意字符串, 包括空串.
字符集 (Character classes)
對於表達式 `[...]', 如果在第一個 '['符後面出現的第一個字符不是
'!', 則該表達式匹配任意一個在 `[...]'內出現的字符. 方括弧內不能有空串, 因此 ']' 可以作爲第一個字符出現在
方括弧內. (像這樣, '[][!]' 匹配下列三個字符中的任意一個, '[', ']' 和 '!'.)
範圍集 (Ranges)
字符集有一個特例: 用 '-' 分開的兩個字符表示一個範圍集. (像這樣, `[A-Fa-f0-9]'
等於 `[ABCDEFabcdef0123456789]'.) 把 '-' 放到方括弧內的開頭或最後可以獲得它的本意. (像這樣,
`[]-]' 匹配 ']'和'-' 中任意一個. 而 `[--/]' 匹配 `-', `.' 和`/'中任意一個.)
補集 (Complementation)
表達式 '[!...]' 表示一個字符, 該字符不匹配方括弧內去掉開頭 '!' 後的
表達式. (像這樣, `[!]a-]' 匹配除了 ']', 'a' 和 '-' 的任意一個字符.)
要去掉 '?', '*' 和 '[' 的特殊含義, 可以通過前面加一個反斜槓; 或者在 shell 命令行中, 通過引號來引用
這些字符. 在方括弧內這些字符顯露出本意, 所以, '[[?*\]' 匹配這四個字符中的一個: '[', '?', '*', '\'.
路徑名 (PATHNAME)
形成路徑名功能應用於路徑中的每一個成員部分. 路徑中的 '/' 不能被通配符 '?' 或
'*', 或範圍集如 '[.-0]' 匹配. 範圍集不能直接包含 '/', 否則導致語法錯誤.
如果待匹配的文件名以'.'開頭, 那麼這個 '.' 字符必須直接給出. (比如說, 用 'tar c .' 會更好.)
空列表 (EMPTY LISTS)
上述的簡單優雅規則, 把通配符模板展開爲匹配的路徑名, 來源於最初的 UNIX 定義. 它
允許展開出空串, 例如 xv -wait 0 *.gif *.jpg
這裏可能沒有 *.gif 文件 (而且不算錯誤).
然而, POSIX 要求句法錯誤或路徑名列表爲空時, 保留通配符模板不變. (譯註: 即不展開.)
在 bash 中可以通過設置 allow_null_glob_expansion=true 把它強置爲傳統的
風格. (其他地方也有類似的問題, 例如, 老式的語句是
rm `find . -name "*~"`
新的寫法爲
rm -f nosuchfile `find . -name "*~"`
以避免由於空參數調用 rm 而產生錯誤信息.)
注意 (NOTES)
正規表達式 (Regular expressions)
注意, 通配符模板不是正規表達式, 儘管它們有點象. 首先, 它匹配文件名,
而不是正文; 其次, 規則不一樣, 例如正規表達式裏的 '*' 代表零個或多個前面內容的重複.
正規表達式的方括弧表達式用 '^' 引導取反操作, (而不是 '[!...]'). POSIX 聲明, 在通配符模板中, '[^...]'
未做定義.
字符集和國際化 (Character classes and Internationalization )
當然, 範圍集最初指
ASCII的範圍, 因此 '[ -%]' 意思是 '[ !"#$%]',
一些 UNIX實現把這個歸納爲: 範圍 X-Y 指 X的編碼到 Y的編碼之間的編碼字符. 可是, 這要求用戶知道他們本地系統的
字符編碼, 此外, 如果本地的字母表順序和字符集順序不對應, 那就更不方便了.
因此, POSIX 對通配符模板和正規表達式的方括弧表達法作了重大擴展, 上面我們知道了方括弧表達式中的三個類型, 它們是
(i) 取補集 (ii) 直接列出的單個字符和 (iii) 範圍集.
POSIX 對範圍集在國際化方面作了更有力的說明, 並且增加了三個類型:
(iii) 範圍 X-Y 由 X 和 Y 之間所有的字符組成 (包括X和Y), X 和 Y 的當前編碼序列由當前場合的 LC_COLLATE
分類定義.
(iv) 命名字符集, 象
[:alnum:] [:alpha:] [:blank:] [:cntrl:]
[:digit:] [:graph:] [:lower:] [:print:]
[:punct:] [:space:] [:upper:] [:xdigit:]
因此可以用 '[[:lower:]]' 代替 '[a-z]', 它在丹麥語裏同樣有效, 雖然丹麥的字母表裏 'z' 後面還有
三個字母. 這些字符集由當前場合的 LC_CTYPE 分類定義.
(v) 符號對映, 象 '[.ch.]' 或 '[.a-acute.]', 在 '[.' 和 '.]' 之間的字符串是定義在當前場合的
對映元素. 注意這可以是多字符元素.
(vi) 等類表達式, 象 '[=a=]', 在 '[=' 和 '=]' 之間的字符串是任意等類中的對映元素, 它定義在當前場合.
例如, '[[=a=]]' 可以等同於 `[a徉溻]' (警告: 這裏有 Latin-1 字符), 也就是
`[a[.a-acute.][.a-grave.][.a-umlaut.][.a-circumflex.]]'.
SEE ALSO
sh(1), glob(3), fnmatch(3),
locale(7), regex(7)

glob 模式匹配簡介

記一次 .NET某工業設計軟件崩潰分析

創建 Vue3 項目

TS + Webpack 整合 Jest

分享5款.NET開源免費的Redis客戶端組件庫

安卓手機如何登錄抖音境外版

golang開發 gorilla websocket的使用

面試官：如果不允許線程池丟棄任務，應該選擇哪個拒絕策略？

嵌入式汽車電子學習路線

Mac卸載 Node npm，升級 Node

uni.showModel內容換行

VS2008靜態編譯配置選項的位置

linux（Ubuntu）下配置minicom

linux下的root密碼的更改，找回

linux中的VirtualBox（win2003）共享主機的串口設置

linux文件的mtime，ctime，atime

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結