oz grep源碼分析

oz grep源碼分析
今天在筆記本上折騰ubuntu18，真是很好玩。
配置低的本上，裝ubuntu,真划算。原來4G跑win10總是慢得不行，現在跑linux，感覺還是很快的。
我在本子上讀regex.c這個文件，一個地方卡住了。

   for (p = pat; *p; p++) {
       lp = mp;
       switch(*p) {

       case '.':               /* match any char.. */
           store(ANY);
           break;

       case '^':               /* match beginning.. */
           if (p == pat)
               store(BOL);
           else {
               store(CHR);
               store(*p);
           }
           break;

       case '$':               /* match endofline.. */
           if (!*(p+1))
               store(EOL);
           else {
               store(CHR);
               store(*p);
           }
           break;

case '[': /* match char class..*/
store(CCL);

           if (*++p == '^') {
               mask = 0377;
        //0377==11 111 111,與它異或，按位取反。:w
               p++;
           }
           else
               mask = 0;

           if (*p == '-')       /* real dash */
               chset(*p++);
           if (*p == ']')       /* real brac */
               chset(*p++);
           while (*p && *p != ']') {
               if (*p == '-' && *(p+1) && *(p+1) != ']') {
                   p++;
                   c1 = *(p-2) + 1;
                   c2 = *p++;
                   while (c1 <= c2)
                       chset((CHAR)c1++);
               }
#ifdef EXTEND
               else if (*p == '\\' && *(p+1)) {
                   p++;
                   chset(*p++);
               }
#endif
               else
                   chset(*p++);
           }
           if (!*p)
               return badpat("Missing ]");

           for (n = 0; n < BITBLK; bittab[n++] = (char) 0)
               store(mask ^ bittab[n]);

           break;

這是在re_comp中進行編譯，把正則表達式翻譯成中間碼。此處，把'[1-9]'翻譯成
'123456789'，但你看呀，
如果p指向[，此時，先存儲“CCL”，接着，判斷
*++p,此時，p指向1,所以下面兩個判斷不用做，因爲不是-，也不是]，那就來到了
           while (*p && *p != ']') {
               if (*p == '-' && *(p+1) && *(p+1) != ']') {
                   p++;
                   c1 = *(p-2) + 1;
                   c2 = *p++;
                   while (c1 <= c2)
                       chset((CHAR)c1++);
               }
#ifdef EXTEND
               else if (*p == '\\' && *(p+1)) {
                   p++;
                   chset(*p++);
               }
#endif
               else
                   chset(*p++);
           }
此時，p指向'[1-9]'中的1,所以執行循環中第三分支
               else
                   chset(*p++);
把1保存進去。接着p++,此時p指向-
那好，接着循環，因爲*p=='-'所以執行第一分支
               if (*p == '-' && *(p+1) && *(p+1) != ']') {
                   p++; //p指向'-'，++後指向9
                   c1 = *(p-2) + 1;//c1指向1
                   c2 = *p++;   //p指向9，c2也指向9，但p++後指向]
                   while (c1 <= c2)
                       chset((CHAR)c1++);
               }
此分支，完成的是就是把23456789這幾個字符保存好。
此時，用話不好說，請看代碼中註釋。這個分支做完後，p指向],因此，要跳出循環。
做下一步處理
           for (n = 0; n < BITBLK; bittab[n++] = (char) 0)
               store(mask ^ bittab[n]);
也就是把16字節的位置保存到中間代碼數組中去。
此時，p指向],那程序如何處理]的呢？
程序只有如下分支
case .
case $
case [
case *
case +
....
如果不是這些字符，它是：
       default :               /* an ordinary char */
           store(CHR);
           store(*p);
           break;
可是，中間代碼編譯結果中根據沒有存儲]呀，況且存儲了也沒意義。你看：
yang@DESKTOP-V9HS3B6:~/grep$ echo "12345" | ./ogrep '[1-9]+'
pattern: [1-9]+
nfacode:
        CCL [123456789]
CLOSURE CCL [123456789]
看到沒，正則表達式翻譯的結果中根據沒有】
我想呀想，不停地翻代碼。總是不得勁。
後來，忽然想，不對，這裏有個break,就是
case [
   把[1-9]變成ccl 123456789保存到中間碼，此時p指向]，
   break
結束本次循環後，到哪了？
   for (p = pat; *p; p++) {//此處有p++,哈哈，我明白了。原來在這裏！！！
       lp = mp;
       switch(*p) {

       case '.':
看到我的註釋沒？p本來指向],這是沒錯的，但break後，p++，就跳過了]
通過讀程序，發現自己的程序功底還是有欠缺。
同樣的錯誤犯了兩次。前一次，看代碼
           for (n = 0; n < BITBLK; bittab[n++] = (char) 0)
               store(mask ^ bittab[n]);
這裏，是把16字節的位圖存儲到中間代碼結果中去。當時我曾想，你把bittab[]保存進去了，你下次使用是，要初始化吧，那在哪兒初始化呢？？？
我找呀找！
你肯定要初始化的，不然如果這樣寫正則表達式'[a-z'] hello [1-9]'那如何搞？
前面使用的位置如果不初始化，後面且不是變成了[a-z1-9]。當時是用kindle讀代碼，想呀想，後來明白了。
       for (n = 0; n < BITBLK; bittab[n++] = (char) 0)//此處有bittab[n++] = (char)
               store(mask ^ bittab[n]);
作者在for的最後做了。
代碼要經常讀，太好了。

oz grep源碼分析

ruby.c源碼分析

gawk1.01源碼awk3.c分析

gawk1.01源碼安裝續

gawk1.01源碼分析awk.y衝突了

ruby0.49編譯

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結