敏感詞檢測算法review

字符串匹配是一個技術活,敏感詞檢測首先有一個敏感詞詞庫,也就是敏感詞的列表。

第一個想到的方法把敏感詞放到一個set裏,再待檢測的文本分詞,到set裏去匹配;

第二種方法是遍歷set,用正則表達式來過濾。

以上兩種方法,在數據量小的時候沒有問題,但是,當數據量非常大的時候,性能就不行了。

前綴樹算法:
https://blog.csdn.net/qq_37410328/article/details/83183673

AC自動機:
https://blog.csdn.net/weixin_33973600/article/details/91664339

DFA算法:
https://www.cnblogs.com/zyguo/p/4705086.html

github:
https://github.com/toolgood/ToolGood.Words

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章