神經網絡的發展歷程

 

第一代人工神經網絡

1943年,心理學家Warren McCulloch和數理邏輯學家Walter Pitts在合作的《A logical calculus of the ideas immanent in nervous activity》論文中提出並給出了人工神經網絡的概念及人工神經元的數學模型,從而開創了人工神經網絡研究的時代。1949年,心理學家唐納德·赫布在《The Organization of Behavior》論文中描述了神經元學習法則。

      進一步,美國神經學家Frank Rosenblatt提出可以模擬人類感知能力的機器,並稱之爲“感知機”。1957年,在Cornell航空實驗室中,他成功在IBM704機上完成了感知機的仿真,並於1960年,實現了能夠識別一些英文字母的基於感知機的神經計算機—Mark1。

     第一代神經網絡能夠對簡單的形狀(如三角形、四邊形)進行分類,人們逐漸認識到這種方法是使用機器實現類似於人類感覺、學習、記憶、識別的趨勢。

     但是,第一代神經網絡的結構缺陷制約了其發展。感知機中特徵提取層的參數有人手工調整,這違背了其“智能”的要求。另一方面,單層結構限制了它的學習能力,很多函數都超出了它的學習範疇。

 

第二代神經網絡

  1985年,Geoffrey Hinton使用多個隱藏層來代替感知機中原先的單個特徵層,並使用BP算法(Back-propagation algorithm,proposed in 1969,practicable in 1974)來計算網絡參數

        1989年,Yann LeCun等人使用深度神經網絡來識別信件中郵編的手寫體字符。後來Lecun進一步運用CNN(卷積神經網絡)完成了銀行支票的手寫體字符識別,識別正確率達到商用級別。儘管該算法取得巨大的成功,但是它在數據集上訓練了大約三天。

網絡結構上分爲輸入層、多個隱層層和輸出層,在訓練網絡前隨機初始化權重,通過BP算法調整網絡參數。

        BP算法並不總能很好的運行。即使使用隨機梯度下降,BP算法依舊很容易陷入局部最優解。並且隨着網絡層數的增加,訓練的難度越來越大。

        第二代神經網絡主要有以下缺點:

        1.必須要對有標註的數據進行訓練,無法對無標註數據進行訓練

        2.隨着層數的增加,BP傳回的信號會越來越弱,以至限制了網絡的層數

        3.在多個隱藏層之間來回傳播導致訓練過慢

        4.其可能導致網絡陷入局部最優解

        5.有許多參數需要人類憑藉經驗和技巧進行手工設定,如網絡層數、結點單元數等超參數,這些參數不能智能選取也制約了神經網絡的發展

        而後人們嘗試增加數據集、預估初始化權值的方法,以克服人工神經網絡的缺陷。然而,SVM的出現使得人工神經網絡的研究陷入寒冬。

        SVM(Support Vector Machines)的簡單結構使得其訓練速度很快並且比較容易實現。同時,由於SVM的簡單結構,其善於應對簡單特徵而不善於應對複雜特徵。使用SVM進行學習需要對特定問題的先驗知識,然而很難找到一些通用的先驗知識。同時SVM的特徵並不是自己選取的,而是人手工提取的。

        儘管SVM在某些領域表現的很好,由於淺層結構的致命缺陷,它並不是人工智能領域好的發展趨勢。

 1958,Davidhubel和Torsten Wiesel進行了瞳孔區域與大腦皮層神經元對應關係的研究,發現後腦皮層中存在方向選擇性細胞,大腦皮層對原始信號做低級抽象,逐漸向高級抽象迭代。

        進一步的科學研究表明,和人類的許多認知能力相關的大腦皮層並不顯示地預處理感知信號,而是讓它們通過一個複雜的模塊層次結構,久而久之,就可以根據觀察結果呈現的規律來表達它們。

        總的來說,人的視覺系統的信息處理是分級的,從低級的V1區提取邊緣特徵,再到V2區的形狀或者目標的部分等,再到更高層,整個目標、目標的行爲等。有就是說高層的特徵是低層特徵的組合,從低層到高層的特徵表示越來越抽象。這一生理學發現促成了計算機人工智能,在四十年後的突破性發展。

        1995年前後,Bruno Olshausen和David Field同時用生理學和計算機手段研究視覺問題。他們提出稀疏編碼算法,使用400張圖像碎片進行迭代,遴選出最佳的碎片權重係數。令人驚奇的是,被選中的權重基本都是照片少不同物體的邊緣線,這些線段形狀相似,區別在於方向。

         Bruno Olshausen和David Field的研究結果與四十年前David和Torsten Wiesel的生理髮現不謀而合。更進一步的研究表明,深度神經網絡的信息處理是分級的,和人類一樣是從低級邊緣特徵到高層抽象表示的複雜層級結構。

        研究發現這種規律不僅存在於圖像中,在聲音中也存在。科學家們從未標註的聲音中發現了20中基本聲音結構,其餘的聲音可以由這20中基本結構組成。1997年,LSTM(一種特殊的RNN)被提出並在自然語言理解方面具有良好效果

 

第三代神經網絡

      2006年,Hinton提出了深度置信網絡(DBN),一種深層網絡模型。使用一種貪心無監督訓練方法來解決問題並取得良好結果。DBN(Deep Belief Networks)的訓練方法降低了學習隱藏層參數的難度。並且該算法的訓練時間和網絡的大小和深度近乎線性關係。

        區別於傳統的淺層學習,深度學習更加強調模型結構的深度,明確特徵學習的重要性,通過逐層特徵變換,將樣本元空間特徵表示變換到一個新特徵空間,從而使分類或預測更加容易。與人工規則構造特徵的方法相比,利用大數據來學習特徵,更能夠刻畫數據的豐富內在信息。

        相較淺層模型,深度模型具有巨大的潛力。在有海量數據的情況下,很容易通過增大模型來達到更高的正確率。深度模型可以進行無監督的特徵提取,直接處理未標註數據,學習結構化特徵,因此深度學習也叫做Unsupervised Feature Learning。隨着GPU、FPGA等器件被用於高性能計算、神經網絡硬件的出現和分佈式深度學習系統的出現,深度學習的訓練時間被大幅縮短,使得人們可以通過單純的增加使用器件的數量來提升學習的速度。深層網絡模型的出現,使得世界上無數難題得以解決,深度學習已成爲人工智能領域最熱門的研究方向。

2010年,美國國防部DARPA計劃首次資助深度學習項目。

        2011年,微軟研究院和谷歌的語言識別研究人員先後採用DNN技術降低語音識別錯誤率20%-30%,是該領域10年來最大突破

        2012年,Hinton將ImageNet圖片分類問題的Top5錯誤率由26%降低至15%。同年Andrew Ng與Jeff Dean搭建Google Brain項目,用包含16000個CPU核的並行結算平臺訓練超過10億個神經元的深度網絡,在玉瑩識別和圖像識別領域取得突破性進展。

        2013年,Hinton創立的DNN Research公司被Google收購,Yann LeCun加盟Facebook的人工智能實驗室。

        2014年,Google將語言識別的精準度從2012年的84%提升到如今的98%,移動端Android系統的語言識別正確率提高了25%。人臉識別方面,Google的人臉識別系統FaceNet在LFW上達到99.63%的準確率。

        2015年,Microsoft採用深度神經網絡的殘差學習方法將Imagenet的分類錯誤率降低至3.57%,已低於同類試驗中人眼識別的錯誤率5.1%,其採用的神經網絡已達到152層。

        2016年,DeepMind使用了1920個CPU集羣和280個GPU的深度學習圍棋軟件AlphaGo戰勝人類圍棋冠軍李世石。

        國內對深度學習的研究也在不斷加速:

        2012年,華爲在香港成立“諾亞方舟實驗室”從事自然語言處理、數據挖掘與機器學習、媒體社交、人際交互等方面的研究。

        2013年,百度成立“深度學習研究院”(IDL),將深度學習應用於語言識別和圖像識別、檢索,2014年,Andrew Ng加盟百度。

        2013年,騰訊着手建立深度學習平臺Mariana,Mariana面向識別、廣告推薦等衆多應用領域,提供默認算法的並行實現。

        2015年,阿里發佈包含深度學習開放模塊的DTPAI人工智能平臺。

        深度學習的研究已經滲透到生活的各個領域,已成爲人工智能技術的主要發展方向。人工智能最終的目的是使機器具備與人相當的歸納能力,學習能力,分析能力和邏輯思考能力,雖然當前的技術離這一目標還很遙遠,但是深度學習無疑提供了一種可能的途徑,使得機器在單一領域的能力超越人類。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章