曼孚科技：AI算法領域常用的39個術語（上）

算法是人工智能(AI)核心領域之一。

本文整理了算法領域常用的39個術語，希望可以幫助大家更好地理解這門學科。

1.Attention 機制

Attention的本質是從關注全部到關注重點。將有限的注意力集中在重點信息上，從而節省資源，快速獲得最有效的信息。

2.Encoder-Decoder 和 Seq2Seq

Encoder-Decoder 模型主要是 NLP 領域裏的概念。它並不特指某種具體的算法，而是一類算法的統稱。Encoder-Decoder 算是一個通用的框架，在這個框架下可以使用不同的算法來解決不同的任務。

Encoder-Decoder 這個框架很好的詮釋了機器學習的核心思路：

將現實問題轉化爲數學問題，通過求解數學問題，從而解決現實問題。

Seq2Seq(是 Sequence-to-Sequence 的縮寫)，就如字面意思，輸入一個序列，輸出另一個序列。這種結構最重要的地方在於輸入序列和輸出序列的長度是可變的。

3.Q-Learning

Q學習是強化學習中基於價值的學習算法。

4.AdaBoost

AdaBoost是Adaptive Boosting的縮寫。

AdaBoost是一種迭代算法，其核心思想是針對同一個訓練集訓練不同的分類器(弱分類器)，然後把這些弱分類器集合起來，構成一個更強的最終分類器(強分類器)。

5.隨機森林(Random Forest)

隨機森林屬於集成學習中Bagging(Bootstrap Aggregation的簡稱)的方法。

在機器學習中，隨機森林是一個包含多個決策樹的分類器，並且其輸出的類別是由個別樹輸出的類別的衆數而定。

☆隨機森林可以在很多地方使用：

對離散值的分類;

對連續值的迴歸;

無監督學習聚類;

異常點檢測。

7.學習向量量化( Learning Vector Quantization)

在計算機科學中，學習向量量化 (LVQ)是一種基於原型的監督學習統計學分類算法。 LVQ是向量量化的監督版本。

學習向量量化(Learning Vector Quantization,簡稱LVQ)屬於原型聚類，即試圖找到一組原型向量來聚類，每個原型向量代表一個簇，將空間劃分爲若干個簇，從而對於任意的樣本，可以將它劃入到它距離最近的簇中，不同的是LVQ假設數據樣本帶有類別標記，因此可以利用這些類別標記來輔助聚類。

8.K鄰近(K-Nearest Neighbors)

K最近鄰(K-Nearest Neighbor，KNN)分類算法，是一個理論上比較成熟的方法，也是最簡單的機器學習算法之一。

該方法的思路是：在特徵空間中，如果一個樣本附近的K個最近(即特徵空間中最鄰近)樣本的大多數屬於某一個類別，則該樣本也屬於這個類別。

用官方的話來說，所謂K近鄰算法，即是給定一個訓練數據集，對新的輸入實例，在訓練數據集中找到與該實例最鄰近的K個實例(也就是上面所說的K個鄰居)，這K個實例的多數屬於某個類，就把該輸入實例分類到這個類中。

☆優點：

理論成熟，思想簡單，既可以用來做分類也可以用來做迴歸;

可用於非線性分類;

訓練時間複雜度爲O(n);

對數據沒有假設，準確度高，對outlier不敏感;

KNN是一種在線技術，新數據可以直接加入數據集而不必進行重新訓練;

KNN理論簡單，容易實現;

☆缺點：

樣本不平衡問題(即有些類別的樣本數量很多，而其它樣本的數量很少)效果差;

需要大量內存;

對於樣本容量大的數據集計算量比較大(體現在距離計算上);

樣本不平衡時，預測偏差比較大。如：某一類的樣本比較少，而其它類樣本比較多;

KNN每一次分類都會重新進行一次全局運算;

K值大小的選擇沒有理論選擇最優，往往是結合K-折交叉驗證得到最優K值選擇。

9.線性判別分析(Linear Discriminant Analysis)

線性判別分析(LDA)是對費舍爾的線性鑑別方法的歸納，這種方法使用統計學，模式識別和機器學習方法，試圖找到兩類物體或事件的特徵的一個線性組合，以能夠特徵化或區分它們。所得的組合可用來作爲一個線性分類器，或者，更常見的是，爲後續的分類做降維處理。

應用於面部識別領域(在計算機化的臉部識別中，每一張臉由大量像素值表達。 LDA在這裏的主要作用是把特徵的數量降到可管理的數量後再進行分類。每一個新的維度都是模板裏像素值的線性組合。使用費舍爾線性判別得到的線性組合稱爲費舍爾臉，而通過主成分分析得到稱爲特徵臉。)

9.TF-IDF

簡單來說，向量空間模型就是希望把查詢關鍵字和文檔都表達成向量，然後利用向量之間的運算來進一步表達向量間的關係。比如，一個比較常用的運算就是計算查詢關鍵字所對應的向量和文檔所對應的向量之間的 “相關度”。

10.元學習(Meta Learning)

元學習的思想是學習「學習(訓練)」過程。

元學習是人工智能領域裏一個較新的方向，被認爲是實現通用人工智能的關鍵。

元學習的核心是具備自學能力。

元學習通常被用在：優化超參數和神經網絡、探索好的網絡結構、小樣本圖像識別和快速強化學習等。

11.遺傳算法(Genetic Algorithm | GA)

遺傳算法(Genetic Algorithm)是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型，是一種通過模擬自然進化過程搜索最優解的方法。

遺傳算法是從代表問題可能潛在的解集的一個種羣(population)開始的，而一個種羣則由經過基因(gene)編碼的一定數目的個體(individual)組成。

遺傳算法借鑑了生物學中的遺傳原理，是模擬達爾文生物進化論的自然選擇和遺傳學機理的生物進化過程的計算模型，是一種通過模擬自然進化過程搜索最優解的方法。

其本質是一種高效、並行、全局搜索的方法，能在搜索過程中自動獲取和積累有關搜索空間的知識，並自適應地控制搜索過程以求得最佳解。

12.判別式模型(Discriminative Model)

在機器學習領域判別模型是一種對未知數據 y 與已知數據 x 之間關係進行建模的方法。判別模型是一種基於概率理論的方法。已知輸入變量 x ，判別模型通過構建條件概率分佈 P(y|x) 預測 y 。

13.產生式模型(Generative Model)

在機器學習中，生成模型可以用來直接對數據建模(例如根據某個變量的概率密度函數進行數據採樣)，也可以用來建立變量間的條件概率分佈。條件概率分佈可以由生成模型根據貝葉斯定理形成。

14.Latent Dirichlet Allocation|LDA

LDA(Latent Dirichlet Allocation)是一種文檔主題生成模型，也稱爲一個三層貝葉斯概率模型，包含詞、主題和文檔三層結構。

LDA是一種非監督機器學習技術，可以用來識別大規模文檔集(document collection)或語料庫(corpus)中潛藏的主題信息。

15.啓發式算法(Heuristic)

一個基於直觀或經驗構造的算法，在可接受的花費(指計算時間和空間)下給出待解決組合優化問題每一個實例的一個可行解，該可行解與最優解的偏離程度一般不能被預計。

現階段，啓發式算法以仿自然體算法爲主，主要有蟻羣算法、模擬退火法、神經網絡等。

16.粒子羣算法(Particle Swarm Optimization | PSO)

PSO 算法屬於進化算法的一種，和模擬退火算法相似，它也是從隨機解出發，通過迭代尋找最優解，它也是通過適應度來評價解的品質，但它比遺傳算法規則更爲簡單，它沒有遺傳算法的“交叉”(Crossover) 和“變異”(Mutation) 操作，它通過追隨當前搜索到的最優值來尋找全局最優。

17.深度學習(Deep Learning)

深度學習是機器學習中一種基於對數據進行表徵學習的方法。

其屬於機器學習的範疇，可以說是在傳統神經網絡基礎上的升級，約等於神經網絡。它的好處是用非監督式或半監督式的特徵學習和分層特徵提取高效算法來替代手工獲取特徵。

深度學習是機器學習研究中的一個新的領域，其動機在於建立、模擬人腦進行分析學習的神經網絡，它模仿人腦的機制來解釋數據，例如圖像，聲音和文本。

18.人工神經網絡(Artificial Neural Network | ANN)

ANN從信息處理角度對人腦神經元網絡進行抽象，建立某種簡單模型，按不同的連接方式組成不同的網絡。

未完待續...

曼孚科技：AI算法領域常用的39個術語（上）

數據標註行業的主流發展趨勢及面臨的挑戰丨曼孚科技

數據標註案例分享：搜索結果相關性匹配標註項目丨曼孚科技

數據標註案例分享：車輛前置攝像頭數據採集標註項目丨曼孚科技

標註案例分享：道路病害圖片數據標註項目丨曼孚科技

德勤發佈《全球人工智能發展白皮書》，AI開啓全方位商業化進程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結