發現Python的源代碼中關於字符串fastsearch算法的一個筆誤！

原創

2020-05-20 23:58

今天繼續看Python源代碼中的PyStringObject結構，發現了它的一個子字符串的查找算法很有趣，研究了一把，這個算法在這裏叫做fastsearch。真的不錯，它在進行字符跳的時候，是m長度的跳，而不是一個個的跳。其實，算法還是很簡單的，仔細分析一下就可以得出了。在分析算法的同時，我發現這個算法一點小小的瑕疵，現在敘述如下：

#define FAST_COUNT 0

#define FAST_SEARCH 1

Py_LOCAL_INLINE(Py_ssize_t)

fastsearch(const STRINGLIB_CHAR* s, Py_ssize_t n,

const STRINGLIB_CHAR* p, Py_ssize_t m,

int mode)

{

long mask;

Py_ssize_t skip, count = 0;

Py_ssize_t i, j, mlast, w;

w = n - m;

if (w < 0)

return -1;

/* look for special cases */

if (m <= 1) {

if (m <= 0)

return -1;

/* use special case for 1-character strings */

if (mode == FAST_COUNT) {

for (i = 0; i < n; i++)

if (s[i] == p[0])

count++;

return count;

} else {

for (i = 0; i < n; i++)

if (s[i] == p[0])

return i;

}

return -1;

}

mlast = m - 1;

/* create compressed boyer-moore delta 1 table */

//skip = mlast - 1; //???

skip = mlast; //Modified by deng_zf

/* process pattern[:-1] */

for (mask = i = 0; i < mlast; i++) {

mask |= (1 << (p[i] & 0x1F));

if (p[i] == p[mlast])

skip = mlast - i - 1;

}

/* process pattern[-1] outside the loop */

mask |= (1 << (p[mlast] & 0x1F));

for (i = 0; i <= w; i++) {

/* note: using mlast in the skip path slows things down on x86 */

if (s[i+m-1] == p[m-1]) {

/* candidate match */

for (j = 0; j < mlast; j++)

if (s[i+j] != p[j])

break;

if (j == mlast) {

/* got a match! */

if (mode != FAST_COUNT)

return i;

count++;

i = i + mlast;

continue;

}

/* miss: check if next character is part of pattern */

if (!(mask & (1 << (s[i+m] & 0x1F))))

i = i + m;

else

i = i + skip;

} else {

/* skip: check if next character is part of pattern */

if (!(mask & (1 << (s[i+m] & 0x1F))))

i = i + m;

}

if (mode != FAST_COUNT)

return -1;

return count;

}

有問題的和我修改後的語句我使用紅色表示。我的解釋如下：

假設：

原字符串爲s，長度爲n，例如s = “abdefg”，n = 6

子字符串爲p，長度爲m，例如p = “bcd”, m = 3

通過計算可知：

mlast = m – 1 = 2

skip = mlast – 1 = 1

好，現在讓程序運行。程序在進入for (i = 0; i <= w; i++){}這個循環的第一遍中，會運行到後面的語句i = i + skip。此時的i = 0, skip = 1，所以運行完成這條語句之後，i的值變成了1。然後，程序進入第二次循環，這時通過i++，i的值變成了2。也就是取字符串s中的子字符串“def”與p進行比較，這顯然是不成立的，這次比較必定要浪費的。

爲什麼呢？

因爲s中的第二個字符’d’在第一次比較中做爲最後一個字符進行比較的，它和p中的最後一個字符相同。而因爲p的最後一個字符與前面的所有字符不同，所以在進行第二次比較中做爲首字符的’d’肯定也不會和p中的第一個字符相同的，所以這次比較肯定要失敗的。

造成這種情況就是因爲skip在進行初始化的時候有問題，應該是skip = mlast，而不是skip = mlast – 1。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

發現Python的源代碼中關於字符串fastsearch算法的一個筆誤！

.Net 8.0 下的新RPC，IceRPC之試試的新玩法"打洞"

關於遊戲付費的一點想法

我通過CKA和CKS啦！

《最新出爐》系列入門篇-Python+Playwright自動化測試-42-強大的可視化追蹤利器Trace Viewer

大數據怎麼學？對大數據開發領域及崗位的詳細解讀，完整理解大數據開發領域技術體系

三個爲Google+服務的網站

解決Google+的一個小問題：打不開帖子裏面的鏈接

慎用一鍵修改hosts軟件

發現Python的源代碼中關於字符串fastsearch算法的一個筆誤！

用Eclipse開發PHP項目

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結