FST（Finite-State Transducer) 原理

原創

我是真的我

2018-10-20 09:29

參考依據：Weighted Finite-State Transducer Algorithms An Overview
這是一篇由紐約計算機和數學教授，同時也是全球人工智能超級大咖Mehryar Mohri在美國最大電信公司AT & T 工作期間撰寫的論文《加權有限狀態轉換器算法概述》，原文專業術語和數學概念太多，非數學和計算機科學專業的很難讀懂，但是身爲一個IT民工也不需要我們能完全讀懂，所以這裏我只講FST在Lucene中的應用，用來補充我的上一篇文章《Elasticsearch原理分析》

Finite StateTransducers 簡稱 FST，通常中文譯作有窮狀態轉換器或者有限狀態傳感器，我更偏向於後者，因爲後者更加貼近原意。FST目前在語音識別和自然語言搜索、處理等方向被廣泛應用。
FST的功能更類似於字典，Lucene4.0在查找Term時使用了FST算法，用來快速定位Term的位置。FST的數據結構可以理解成（key,value）的形式，
在同義詞過濾器SynonymFilter的實現中甚至可以用HashMap代替，不過相比較於HashMap，它的優點是：

可以用O(length(key)) 也就是查詢時間複雜度來找到key對應的value。
以字節的方式來存儲所有的Term，重複利用Term Index的前綴和後綴，使Term Index小到可以放進內存，減少存儲空間，不過相對的也會佔用更多的cpu資源。
FST還可以用來快速確定term是否在系統中。
如何構建一個FST？假設有如下的Term Index（是排序過的）：

String inputValues[] = {"mop","moth","pop","star","stop","top"};
long outputValues[] = {0,1,2,3,4,5};

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

{@org.springframework.beans.factory.annotation.Qualifier(value=webFluxConversionService)}

No qualifying bean of type ‘org.springframework.core.convert.ConversionService’ available: expected at least 1 bean

2020-07-07 19:33:25

從Java內存模型的角度思考線程安全與併發

併發的兩個關鍵問題 1、線程之間如何通信 2、線程之間如何同步　　通信是指線程之間以何種機制來交換信息，在命令式編程中，通信機制有兩種：共享內存和消息傳遞；JAVA的併發採用的是共享內存，線程之間的通信總是隱式進行。　　同步

2020-07-07 04:03:22

一文帶你徹底瞭解java類加載器

什麼是類加載器？類加載器有哪些？通過類的限定名獲取該類的二進制字節流的代碼塊叫做類加載器。主要有四種類加載器 1，啓動類加載器：這個類加載器負責放在<JAVA_Home>\lib目錄中的，或者被-Xbootclasspat

2020-07-07 00:00:20

springMvc的工作流程簡介

文章目錄背景springMvc是什麼？流程分析整體流程核心流程組件介紹SpringMvc的一些理解爲什麼要使用springMvc？什麼是MVC設計模式？SpringMvc的優點springMvc的常用註解及其作用背景最近在開發

2020-07-07 00:00:19

什麼是循環依賴？Spring是如何解決循環依賴這個問題的？

什麼是循環依賴？其實就是循環引用，也就是兩個或則兩個以上的bean互相持有對方，最終形成閉環。比如A依賴於B，B依賴於C，C又依賴於A。怎麼產生的？ Spring的單例對象的初始化主要分爲三步：（1）createBeanInst

快乐的大儿童附体

2020-07-06 16:32:22

動態生成驗證碼案例（Java）

動態生成驗證碼案例（Java）博客說明文章所涉及的資料來自互聯網整理和個人總結，意在於個人學習和經驗彙總，如有什麼地方侵權，請聯繫本人刪除，謝謝！ servlet代碼 package cn.guizimo.web.serv

2020-07-06 06:48:09

JSP--JSTL（JSP標準標籤庫）

JSP–JSTL（JSP標準標籤庫）博客說明文章所涉及的資料來自互聯網整理和個人總結，意在於個人學習和經驗彙總，如有什麼地方侵權，請聯繫本人刪除，謝謝！概念 JavaServer Pages Tag Library J

2020-07-06 06:48:09

Java--小項目（登錄、增刪改查、分頁、搜索）

Java–小項目（登錄、增刪改查、分頁、搜索）博客說明文章所涉及的資料來自互聯網整理和個人總結，意在於個人學習和經驗彙總，如有什麼地方侵權，請聯繫本人刪除，謝謝！概念技術選型 Servlet、JSP、MySQL、JDB

2020-07-06 06:48:09

Java--MVC開發模式

Java–MVC開發模式博客說明文章所涉及的資料來自互聯網整理和個人總結，意在於個人學習和經驗彙總，如有什麼地方侵權，請聯繫本人刪除，謝謝！ Jsp演變歷史早期只有servlet，只能使用response輸出標籤數據，

2020-07-06 06:47:59

Tomcat下載和修改端口

一下載地址 http://jakarta.apache.org 第一步第二步第三步三修改Tomcat的端口打開Tomcat文件夾找到conf文件夾找到server.xml文件打開搜索”8080”,然後修改

2020-07-05 16:28:09

ElasticSearch的入門使用

ElasticSearch概述 Elaticsearch，簡稱爲es， es是一個開源的高擴展的分佈式全文檢索引擎，它可以近乎實時的存儲、檢索數據；本身擴展性很好，可以擴展到上百臺服務器，處理PB級別（大數據時代）的數據。es也

2020-07-05 03:10:34

ELK日誌收集分析系統及與Springboot的整合

ELK日誌收集分析系統 ELK Stack 是Elasticsearch、Logstash、Kiban三個開源軟件的組合。在實時數據檢索和分析場合，三者通常是配合共用，而且又都先後歸於 Elastic.co 公司名下，故有此簡稱

2020-07-05 03:10:34

從源碼角度理解ReentrantLock（java.util.concurrent.locks.ReentrantLock）

文章目錄一、ReentrantLock介紹二、ReentrantLock繼承關係三、Sync3.1 主要實現的方法四、FairSync(公平鎖)4.1 加鎖4.2 加鎖失敗，進入等待4.3 釋放鎖五、非公平鎖5.1 加鎖5.2 釋

2020-07-04 07:50:54

Oracle數據庫的基本使用和高級查詢

1.Oracle體系結構本次使用的是Oracle18c數據庫版本 java學習交流Q羣:1004577069 1>數據庫 Oracle數據庫時數據的物理存儲,這就包括(數據庫文件ORA或者DBF,控制文件,聯機日誌,參數文件)

CSS最难的编程语言

2020-07-03 18:29:34

動態代理技術適用的場景是什麼?

java的動態代理是基於JDK中Proxy和InvocationHandler來實現的，InvocationHandler用於實現接口的方法和業務的增強，Proxy通過調用native方法在內存中生成字節碼，從而生成指定接口的實現

CSS最难的编程语言

2020-07-03 18:29:34

24小時熱門文章

最新文章

最新評論文章