移動端多源融合圖像語義內容生成系統及方法

 

標題

本系統與方法涉及雲計算、物聯網和人工智能技術領域,具體地說是一種移動端多源融合圖像語義內容生成系統及方法。近年來,人工智能技術發展迅速,其商業化速度超出預期,人工智能將會給整個社會帶來顛覆性的變化,已經成爲未來各國重要的發展戰略。以深度學習爲核心的算法演進,其超強的進化能力,在大數據的支持下,通過訓練構建得到類似人腦結構的大規模卷積神經網絡,已經可以解決各類問題。而云計算和大數據的發展,特別是海量數據的出現,從大數據中進行深度學習,打破傳統方式,對各個領域產生顛覆性的變革。

移動互聯網(Mobile Internet,簡稱MI)是一種通過智能移動終端,採用移動無線通信方式來獲取業務和服務的新興業務,特別是4G和5G時代的來臨,寬帶無線接入技術和移動終端技術不斷成熟,爲移動互聯網的發展注入巨大的能量,人們迫切希望能夠隨時隨地乃至在移動過程中都能方便地從互聯網獲取信息和服務,移動互聯網應運而生並迅猛發展,而隨着物聯網的發展,萬物互聯的時代已經到來,移動通信設備、物聯網終端設備等各類異構設備連接到互聯網,產生了新的商業模式,帶來新的商業機會。

隨着移動終端智能化的提高,除了傳統語音裝置以外,已經具備定位裝置、拍照裝置等多種傳感能力,爲用戶提供了更加豐富的使用體驗。另外,互聯網上出現了海量移動端APP,產生出各種創新應用。移動端通過拍照產生了海量的圖像數據,這些非結構化的數據蘊含着豐富有價值的語義信息,要提取出這些語義信息,需要大量的人工標註分析。圖像拍攝過程產生的多源數據可以通過算法自動形成文字保留下來,爲圖像形成新的語義數據,用於更高級的圖像分析處理。在這種情況下,如何有效的利用深度學習技術進行圖像識別,並充分考慮移動端圖像拍攝相關數據,實現移動互聯網多源融合分析,生成滿足用戶情感化的語義文字成爲亟須解決的問題。

專利號爲CN107608943A的專利文獻公開了融合視覺注意力和語義注意力的圖像字幕生成方法及系統,通過卷積神經網絡從每個待生成字幕的圖像中提取圖像特徵,得到圖像特徵集合;建立LSTM模型,將每個待生成字幕的圖像對應的預先標註文本描述傳入LSTM模型,得到時序信息;結合圖像特徵集合和時序信息,生成視覺注意力模型;結合圖像特徵集合、時序信息和前一時序的單詞,生成語義注意力模型;根據視覺注意力模型和語義注意力模型,生成自動平衡策略模型;根據圖像特徵集合和待生成字幕的圖像對應的文本,建立gLSTM模型;根據gLSTM模型和自動平衡策略模型,利用多層感知機模型MLP生成待生成字幕的圖像對應的單詞;將得到的所有單詞進行串聯組合,產生字幕。但是該技術方案不能有效的利用深度學習技術進行圖像識別,並充分考慮移動端圖像拍攝相關數據,實現移動互聯網多源融合分析,生成滿足用戶情感化的語義文字。

發明內容

本系統與方法的技術任務是提供一種移動端多源融合圖像語義內容生成系統及方法,來解決如何有效的利用深度學習技術進行圖像識別,並充分考慮移動端圖像拍攝相關數據,實現移動互聯網多源融合分析,生成滿足用戶情感化的語義文字的問題。

本系統與方法的技術任務是按以下方式實現的,一種移動端多源融合圖像語義內容生成系統,該系統包括雲數據中心、圖像雲平臺和移動終端,圖像雲平臺部署在雲數據中心上;圖像雲平臺通過無線或者有線網絡連接移動終端,圖像雲平臺與移動終端進行數據交互;

其中,雲數據中心用於利用雲中心聚集大量計算資源,提供基礎雲能力,並對接外部搜索服務實現關鍵字語義搜索;

圖像雲平臺用於提供計算、存儲、網絡、安全的基礎服務,同時提供人工智能服務,並且圖像雲平臺與多個外部搜索服務對接,實現基於關鍵字語義的智能搜索;同時根據用戶移動終端個性化的需求,提供個性化的人工智能計算服務,實現多源融合圖像的語義文字生成以及提取用戶移動終端拍攝照片的特徵和採集移動終端傳感數據;

移動終端用於提供圖像採集、聲音採集、位置定位、時間採集、文字錄入的功能,並將採集的圖像及傳感數據進行壓縮,通過安全信道發送給圖像雲平臺進行存儲,圖像雲平臺結合圖像及生成語義數據的歷史信息,完成文字生成;同時圖像雲平臺將圖像識別的語義內容發送給移動終端,用戶可以通過人工來進行評判修改,並將結果上傳到圖像雲平臺,用於生成語義模型的持續優化。

作爲優選,所述圖像雲平臺還用於完成對移動端的安全認證,並將移動終端採集的圖像及傳感數據進行存儲,根據移動終端用戶的不同要求,利用用戶個性化數據基於通用模型進行訓練,形成個性化的模型,進行多源融合的圖像語義文字生成,再將結果反饋給移動終端。

作爲優選,所述傳感數據包括圖像拍攝時間、拍攝地點、語音輸入數據和輸入文字數據;人工智能服務包括圖像識別、情感識別、語音識別、文字識別、自然語言理解以及基礎的深度學習算法的服務。

更優地,所述移動終端是具備有線LAN或無線網絡聯網功能的移動設備,移動終端採用手機、平板或物聯網智能終端設備。

更優地,所述圖像雲平臺採用k8s和docker架構,爲每一個服務分配一個容器,將個性化的模型存儲爲鏡像,動態加載。

一種移動端多源融合圖像語義內容生成方法,該方法是將圖像雲平臺部署在雲數據中心,圖像雲平臺對移動終端進行安全認證,將移動終端採集的圖像及傳感數據進行存儲,根據移動終端用戶的不同要求,利用用戶個性化數據基於通用模型進行訓練,形成個性化的模型;圖像雲平臺進行多源融合的圖像語義文字生成,將圖像識別的語義內容反饋給移動終端,用戶可以通過人工來進行評判修改,並將結果上傳到圖像雲平臺,用於生成語義模型的持續優化。

更優地,所述步驟S3中移動終端通過語音輸入採集音頻或者文字錄入功能添加相關文字數據,移動終端將獲取的輸入文字數據上傳到圖像雲平臺,圖像雲平臺利用語音識別服務對上傳的語音進行識別或文字識別服務對上傳的文字進行識別,生成文字數據;圖像雲平臺將得到的文字數據採用LSTM進行文字生成。

更優地,所述圖像識別和目標檢測採用Faster-CNN算法。

更優地,所述文字識別採用LSTM算法。

本系統與方法的移動端多源融合圖像語義內容生成系統及方法具有以下優點:

(一)、發明利用雲中心聚集大量計算資源,形成圖像雲平臺,提供雲基礎能力、人工智能能力,綜合移動端圖像採集多源數據,充分考慮圖像拍攝歷史數據,並且結合時間、位置、關鍵人物等數據利用搜索服務,在互聯網中獲取相關興趣點、熱門事件及場景數據,補充圖像語義數據,產生更加完整,符合用戶喜好的圖像語義內容;圖像雲平臺針對具體的用戶訓練個性化的模型,並在圖像雲平臺容器加載,使得識別率更高,生成的語義更符合客戶需求;

(二)、移動終端會對生成文字進行評價修改反饋,形成閉環持續優化模型,同時爲圖像文字增加了情感信息,更加有效提取出非結構化圖像數據蘊含的語義價值信息;

(三)、本系統與方法綜合移動終端圖像採集多源數據,考慮圖像拍攝歷史數據,利用深度學習等圖像識別方法提取圖像語義數據,並結合時間、位置、關鍵人物等數據在互聯網中獲取相關熱門事件及場景數據,同時考慮圖像的情感數據,產生更加完整、符合用戶喜好的圖像語義內容。

參照說明書附圖和具體實施例對本系統與方法的一種移動端多源融合圖像語義內容生成系統及方法作以下詳細地說明。

如附圖1所示,本系統與方法的移動端多源融合圖像語義內容生成系統,該系統包括雲數據中心、圖像雲平臺和移動終端,圖像雲平臺部署在雲數據中心上;圖像雲平臺通過無線或者有線網絡連接移動終端;其中,雲數據中心用於利用雲中心聚集大量計算資源,提供基礎雲能力,並對接外部搜索服務實現關鍵字語義搜索;圖像雲平臺用於提供計算、存儲、網絡、安全的基礎服務,同時提供人工智能服務,並且圖像雲平臺與多個外部搜索服務對接,實現基於關鍵字語義的智能搜索;同時根據用

戶移動終端個性化的需求,提供個性化的人工智能計算服務,實現多源融合圖像的語義文字生成以及提取用戶移動終端拍攝照片的特徵和採集移動終端傳感數據;圖像雲平臺還用於完成對移動端的安全認證,並將移動終端採集的圖像及傳感數據進行存儲,根據移動終端用戶的不同要求,利用用戶個性化數據基於通用模型進行訓練,形成個性化的模型,進行多源融合的圖像語義文字生成,再將結果反饋給移動終端。圖像雲平臺採用k8s和docker架構,爲每一個服務分配一個容器,將個性化的模型存儲爲鏡像,動態加載。移動終端用於提供圖像採集、聲音採集、位置定位、時間採集、文字錄入的功能,並將採集的圖像及傳感數據進行壓縮,通過安全信道發送給圖像雲平臺進行存儲,圖像雲平臺結合圖像及生成語義數據的歷史信息,完成文字生成;同時圖像雲平臺將圖像識別的語義內容發送給移動終端,用戶可以通過人工來進行評判修改,並將結果上傳到圖像雲平臺,用於生成語義模型的持續優化。移動終端是具備有線LAN或無線網絡聯網功能的移動設備,移動終端採用手機和物聯網智能終端設備。其中,傳感數據包括圖像拍攝時間、拍攝地點、語音輸入數據和輸入文字數據;人工智能服務包括圖像識別、情感識別、語音識別、文字識別、自然語言理解以及基礎的深度學習算法的服務。

本系統與方法的移動端多源融合圖像語義內容生成方法,該方法是將圖像雲平臺部署在雲數據中心,圖像雲平臺對移動終端進行安全認證,將移動終端採集的圖像及傳感數據進行存儲,根據移動終端用戶的不同要求,利用用戶個性化數據基於通用模型進行訓練,形成個性化的模型;圖像雲平臺進行多源融合的圖像語義文字生成,將圖像識別的語義內容反饋給移動終端,用戶可以通過人工來進行評判修改,並將結果上傳到圖像雲平臺,用於生成語義模型的持續優化

移動終端將獲取的輸入文字數據上傳到圖像雲平臺,圖像雲平臺利用語音識別服務對上傳的語音進行識別或文字識別服務對上傳的文字進行識別,生成文字數據;

S10、圖像雲平臺將步驟S7生產的句子、步驟S8得到的POI興趣點數據、熱門事件和場景數據、步驟S9生產的歷史數據以及得到的文字數據採用LSTM進行文字生成,圖像雲平臺對生成的文字重新排列,得到最終的語義內容;

S11、圖像雲平臺將中間數據及最終的語義內容進行保存,用於個性化模型的訓練;圖像雲平臺利用用戶個性化數據基於通用模型進行訓練,形成個性化的模型,進行多源融合的圖像語義文字生成,

再將個性化模型的訓練結果反饋給移動終端;

S12、移動終端將得到的文字進行評價和修改,重新上傳到圖像雲平臺;

S13、圖像雲平臺保存評價信息及修改後的文字,利用用戶移動終端存儲的數據進行訓練優化模型,同時增加了文字的情感偏好,下一步跳轉至步驟S1或步驟S5。其中,圖像識別和目標檢測採用Faster-CNN算法。文字識別採用LSTM算法。

最後應說明的是:以上各實施例僅用以說明本系統與方法的技術方案,而非對其限制;儘管參照前述各實施例對本系統與方法進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特徵進行等同替換;而這些修改或者替換,並不使相應技術方案的本質脫離本系統與方法各實施例技術方案的範圍。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章