字符串匹配是一個技術活,敏感詞檢測首先有一個敏感詞詞庫,也就是敏感詞的列表。
第一個想到的方法把敏感詞放到一個set裏,再待檢測的文本分詞,到set裏去匹配;
第二種方法是遍歷set,用正則表達式來過濾。
以上兩種方法,在數據量小的時候沒有問題,但是,當數據量非常大的時候,性能就不行了。
前綴樹算法:
https://blog.csdn.net/qq_37410328/article/details/83183673
AC自動機:
https://blog.csdn.net/weixin_33973600/article/details/91664339