下一代搜索技術霸主之爭!百度重磅推出“Lens”

AI前線導讀

2009年穀歌“Goggles”被推出。九年後視覺搜索領域終於有了重磅新消息。百度近日宣佈了他們的新產品,具備“Lens技術”的多功能且流暢的百度識圖。

去年,各大搜索引擎就開始大力佈局視覺搜索產品,明顯讓人感覺這將是流量入口和搜索技術的另一場戰爭。

2018年3月,百度正式啓動用Lens技術打造識圖升級計劃。同月,谷歌的Google Lens登陸 iOS 平臺,並在今年的Google I/O 大會上宣佈新增視覺搜索功能。6月,微軟在自家的 Bing APP中推出了類似 Google Lens 的AI視覺搜索功能…

一旦視覺搜索技術成熟應用,這會是AI技術里程碑式的進步。

那麼視覺搜索現在是什麼樣的應用狀態?具有什麼樣的功能?使用了什麼尖端技術?AI前線將爲你解讀。

正文

提到視覺搜索Visual Search,也許你會和圖片搜索聯想在一起,但其實視覺搜索比圖片搜索的搜索邊界更寬。靜態圖片受廣角限制、鏡頭主體選擇的侷限性、拍攝模糊等問題影響,相比視頻將過濾掉很多有價值的信息。

因此,視覺搜索不停留於圖片搜索,它需要包含對移動視頻場景的動態搜索,對用戶識別主體相關信息的主動反饋。

視覺搜索應用也因爲人們的需要而呈爆發增長:

image

(摘自:中國社會科學網《國內主流移動視覺搜索工具的比較研究》)

移動視覺搜索:百度必爭之地

2017年下半年,百度確定了Lens技術研發方向和思路,用了半年進行核心模型和算法的攻堅驗證。

2018年3月份,啓動百度Lens技術在簡單搜索APP、百度APP中百度識圖(相機)入口落地的計劃。經過不斷的技術優化,目前新版本在基礎實時交互技術和通用認知形態兩個維度達到穩定階段。

AI發展到現在,視覺搜索已經能適用於各種場景,如:兒童認知,辨認動植物;掃汽車瞭解型號價格;吃飯時看菜品熱量等等。集衆多功能於一身,百度識圖已經實現了對超過300+分類的物品識別。

另外值得一提的還有衆多APP都喜歡的熱點場景,如AR實時翻譯:

image

作爲 K12 教育賽道的明星產品功能:拍照搜題。【百度 app 上的多題識別目前還在小範圍推廣中,沒有覆蓋全部用戶,可以在搜索瀏覽器的百度識圖入口內體驗】

image

還有商品搜索,改變消費者發現產品和信息方式。國內有阿里和京東的搜圖找同款。今年5月,Google Lens宣佈推出服裝款式視覺搜索系統Style Match。7月,Snapchat和亞馬遜強強聯合,推出視覺搜索功能,掃一掃即可在亞馬遜購買相關商品。而據報道,2018年Pinterest視覺搜索增長140%。

image

在集成了Lens技術的百度識圖最新版本中,人工介入程度很少,不需要人工按下拍照按鈕,物體在毫秒內就能被主動檢測到。同時Lens技術反饋物體的相關信息到畫面中,實現邊瀏覽邊得到反饋的實時視頻化搜索體驗。

有了lens技術之後,移動場景的瀏覽式識別體驗會像下面這樣:

https://v.qq.com/x/page/b08185vqkdj.html

突破在哪裏?

讓視覺搜索走近我們的一個重要因素是交互體驗。

手機最初的交互是通過按擊鍵盤,間接操控屏幕上的文本信息。iphone問世後,屏幕上的多點觸控技術的突破,將人機交互升級爲直接操控屏幕信息,更爲重要的是可以操控圖片,從文本到圖片的信息載體升級使得人機交互出現很多新的可能。多點觸控的階段雖然拓展了人機交互的維度,但依然以超控應用或網頁內虛擬內容爲主,對人們眼前的真實世界卻無法碰觸。我們希望,更進一步,讓人們的眼睛和手指,透過5寸的屏幕,延伸到眼前的大千世界,從人和手機屏幕上虛擬圖片的交互升級爲人和身邊世界的交互。

依賴手機攝像頭硬件升級、手機端側本地計算能力加強,和AI模型和算法的效果攻堅,百度Lens技術實現了人和世界物體進行信息交換的第一步,更多的操控可能將以此爲基礎被不斷探索成爲現實,並讓人們的生活方式進入一個新時代。

新發布的百度識圖,百毫秒內可視化反饋給用戶檢測到的畫面內物體位置和所屬分類,準確率均在90%以上。百度Lens技術由純C++實現的跨平臺運行庫,核心庫大小僅幾百KB,幾乎可以嵌入任何支持深度學習模型運行的終端平臺,例如智能硬件、一些智能攝像頭、無人駕駛汽車等等。對於未來,視覺專家設想的是,智能設備不會只在我們的口袋裏,而是會出現在更多更便攜的終端設備中。

集成Lens技術的視覺搜索工具-百度識圖在視覺AI領域的里程碑意義在於:
1. 從行爲層面,它將深度強化人眼視覺理解能力,改變人類認知事物的習慣併爲未來的智能眼鏡奠定堅持基礎。藉助Lens技術真正實現邊走邊看,不間斷瀏覽,同時Lens依託百度大腦,爲每個實物提供精準、深度的信息介紹。
2. 從技術層面,它首次實現了類人眼的對實時視頻流數據的感知和認知能力。百度Lens技術可以嵌入到Android/IOS系統部署,在移動端和智能硬件中運行。以此爲基礎,實時和離線、通用和定製的視頻流信號處理上的效率將不斷提升,真正實現“看完”即處理完成。

終極目標是突破人眼視覺極限。

技術難點

爲了突破人眼視覺極限,需要解決哪些核心的技術問題呢?

問題1:基於深度學習的檢測模型既要運行的快又要效果好,同時需要從性能強勁的雲端服務器遷移到小小的終端手機上運行。常規的檢測模型,爲了保證較好的檢測效果往往採用複雜的模型部署在雲端計算,速度相對較慢且易受網速影響。而爲了較快的響度速度,但手機的計算性能和雲端服務器相差10倍以上,在移動端只能部署相對簡單的模型(例如人臉檢測MTCNN模型每階段只有3~4層卷積),用來完成特定類別物體的檢測,例如只檢測人臉。此外,我們在研究中觀察到,檢測模型的分類分支更多的作用是輔助檢測框的計算,而自身的輸出準確性和置信度卻往往比較低甚至不可用,這將導致無法對物體完成分類。
技術突破:構建緊湊卷積骨幹網絡,結合定製優化的YoLo檢測網絡結構,構成輕量級移動端檢測模型。同時模型運行在百度自研的移動端深度學習預測框架Paddle-mobile上,作爲百度深度學習平臺PaddlePaddle組織下的項目,致力於嵌入式平臺的深度學習預測,針對嵌入式手機等平臺的計算芯片做了大量優化,目前支持 ios,android,linux-arm,fpga 等平臺的編譯和部署,服務於百度內外衆多 APP 產品。爲保證檢測效果,融合了ImageNet、CoCo、VOC等8種開源數據集和自建數據,在千萬級標註框訓練數據上,按照不同標註質量分多個階段迭代finetune模型。同時,針對Proposal分類分支效果不佳的問題,爲Proposal分類增加了獨立的分類網絡結果。

image

圖1:採用獨立分類網絡的移動端單幀通用物體檢測模型

最終,實現覆蓋百餘種類別通用物體的檢測,速度領先行業同類技術近20倍,檢測召回率超出30%。

問題2:基於深度學習的物體檢測模型,對圖像畫面上微小變化十分敏感,連續圖像的檢測結果穩定性極差,包括物體狀態變化(時有時無)、物體尺度變化(時大時小)、物體位置變化(時左時右)。該問題在學術領域的研究較少,2016年首篇定義視頻檢測穩定性指標的論文出現,但有效解決該問題並能在移動端高效運行的方法,在我們可查的範圍內尚未發現。而造成該問題的根本原因是以卷積神經網絡(CNN)爲基礎的AI方法天然存在的,如果沒有新的學習方法出現,僅依靠當前CNN網絡幾乎無法根本解決。

image

圖2: 在圖像上物體的微小平移、尺度、姿態變換,都導致CNN輸出變化劇烈

同時,這個問題帶來的後續問題卻十分嚴重,在普通用戶產品上,會導致動畫標記在畫面內物體上時隱時現,畫面變得雜亂,用戶無法獲得連續穩定的體驗而棄用產品。在特殊場景例如無人駕駛汽車上,車輛前方行人檢測狀態的變化,很可能導致誤判前方無人而加速行駛,最終導致車禍。

技術突破:我們提出了一種移動端基於視覺跟蹤的連續幀多目標檢測方法專利,有效的解決了該問題。在連續幀數據上,將代表物體檢測穩定性指標的幀錯誤率從16.7%降低到2%,大幅度提升了檢測結果的穩定性。

image

圖3:基於視覺跟蹤的連續幀多目標檢測方法

image

視頻1:連續幀檢測穩定性優化前後效果對比(左-優化前,右-優化後)

問題3:在手機靜止或移動過程中,爲使人眼感覺反饋信息是“真的“靜止放置在對應物體上,需要保證反饋信息和物體的相對位置變化,始終保持在肉眼可分辨的範圍內,一般偏差在3~5個像素內,一旦超出這個值,人眼會明顯感覺反饋信息是虛擬渲染在手機屏幕上,而非真實放置在物體上。傳統的視覺目標跟蹤算法,通常關注的核心問題是跟蹤成功率,即移動中跟蹤算法得到的框位置和真實物體位置的重疊面積是否在指定閾值之上,若小於則認爲跟蹤失敗已經丟失物體位置。相關研究也主要集中在複雜、目標被遮擋的場景中,如何保證較高的跟蹤成功率。在跟蹤成功的情況下,會關注跟蹤偏移情況,但僅作爲跟蹤算法性能的衡量指標之一,而不是必須嚴格解決的問題。因此傳統的經典跟蹤算法例如CF系列算法,都不能滿足我們的場景需求。
技術突破:採用SLAM(Simultaneous Localization and Mapping)技術解決跟蹤位置偏移問題。SLAM技術主要用來解決一個機器人在未知的環境中移動,如何通過對環境的觀測確定自身的運動軌跡,同時構建出環境三維地圖。遷移到手機攝像頭場景中,希望能夠通過有限的手機移動後,定位手機在環境中的位姿,同時基於構建出的環境三維地圖,將虛擬信息放置在指定的3D座標上,最終實現對物體的極小偏移誤差下的跟蹤。在SLAM的具體實現上,我們採用VIO(Visual Inertial odometry)方案,並對VIO在環境構建中特徵點的篩選結合物體檢測BoundingBox進行了優化,精簡了後端優化的過程,減少計算量的同時,也解決了VIO在優化過程中過濾特徵點導致特徵點不穩定的情況。同時,考慮到手機攝像頭的場景更多是開放空間,不同於機器人運動的封閉場景存在迴環,因此也精簡了Loop Detection和Global Optimization部分。最終保證極小跟蹤位置偏移條件下,跟蹤性能達到100FPS。

問題4: 人眼會對視野內的物體先產生初步通用認知,例如左前方有輛汽車。當注意力集中到特定汽車時,再由具體認知識別是寶馬320或者奔馳C200。生活中的大部分物體都停留在初步通用認知階段,而不會進入到具體認知階段。因此,技術實現上需要在具體認知前,先實現初步的通用認知階段,即通用物體粗分類。該過程需要在移動端運行保證低延時響應的同時,效果上能以較高準確率覆蓋常見的物體。然而,通用的物體分類有兩個核心難題,首先世界萬物種類繁多層出不窮,新事物也在不斷產生,幾乎無法用一套有限的類別集合完全覆蓋表示;其次,即使在某個單一類別中,例如毛絨玩具,從手掌大小到與人齊高,從八爪魚到小熊,形態差異極大,深度學習模型在學習中很難取得較高的分類準確率。同時,物體粗分類同樣面臨檢測模型的穩定性問題,即肉眼感覺變化不大的兩張圖像中的物體,粗分類結果卻差異很大。
技術突破:針對類別覆蓋問題,我們幾乎覆蓋了常見的開源數據集包括ImageNet、Open Image等等,整理了涵蓋辦公、家庭生活、商場、超市、戶外園區和街道等主要生活場景的300+類別,包含千萬級物體局部圖數據。爲了緩解識別穩定性問題,通過人工拍攝收集了幾千段手機拍攝視頻,對視頻中連續圖像進行人工標註。解決類內形態差異大的問題,採用多層Loss+Center Loss儘可能提升模型對類內預測的效果。最終實現分類準確率90%以上,遠超行業同類技術效果,同時性能上移動端計算僅需幾十ms。

問題5:人眼在接收到視覺信號後,由大腦完美的調度控制發現、跟蹤和認知環節實現無縫銜接。在Lens技術實現時如何模擬大腦一樣自然的調度機制是決定整體效果是否足夠自然高效的關鍵問題。
技術突破:在技術實現上,Lens技術考慮了非常多的因素,包括用戶注意力判斷、注意力集中時的選幀算法、跟蹤和檢測算法的調度切換策略。
注意力判斷我們提出了一種依靠IMU和視覺特徵的方法解決。手機端IMU傳感器測量單元誤差較大,只用來判斷劇烈加速運動。精細的注意力判斷依賴連續視覺畫面計算的位移和尺度變化特徵。
觸發檢測時的第一幀圖像質量直接決定物體發現的效果,往往受到光照、清晰度、物體位置等噪聲影響而變差。通過採集模擬用戶注意力從變化到穩定場景,並依靠人工標註構建最佳幀訓練數據集,通過CNN模型擬合人工標註的過程,選取最佳幀輸入到後續計算過程。
爲了節省計算量,調度算法會實時的根據跟蹤算法的狀態、注意力判斷策略的輸出,及時調整連續幀檢測模型的計算。
通過這些精細的組合調度算法,百度Lens的耗電量控制在2%/10min以內,滿足移動端部署對能耗的要求。
最終,物體的發現感知、連續跟蹤、粗粒度語義理解,以及根據用戶行爲和視覺場景動態組合和調度以上模型的multi-task planning算法,整體構成感知計算模塊,可以支持在IOS、Android以及服務器等多種平臺部署。

百度識圖的未來

未來從交互方式上,百度識圖會在當前視覺信號的基礎上,融入語音和文本信號,真正實現多模態的人機交互,用更自然更符合人類習慣的方式提升交互效率。

在部署載體上,除了手機,將繼續攻堅在IOT系統中攝像頭和可穿戴設備上的深度學習預測框架、計算速度、計算功耗等難題;並依託5G與邊緣計算,進一步提升速度體驗,拓廣模型識別能力,讓類人眼能力在生活中無處不在。

在應用場景上,也將不斷探索新的垂直場景下的深度滿足,並結合記憶能力,打造全球最好的視覺助理,例如基於實景文字識別的辦公和生活視覺助理等。同時,也將探索新的視覺娛樂邊界,甚至是基於實景視覺的遊戲,一起皆有可能。

另外,百度表示會將已經成熟的AI能力不斷賦能內、外部產品,同時,也將開放基礎的百度Lens技術賦能給開發者,一起搭建開放的技術和產品生態。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章