2000+萬智能終端、8000+萬億條數據集,長虹如何做快速交互式分析?

 

長虹公司概況

 

 

長虹創始於 1958 年,公司前身國營長虹機器廠是我國“一五”期間的 156 項重點工程之一,是當時國內唯一的機載火控雷達生產基地。

 

從軍工立業、彩電興業,到信息電子的多元拓展,長虹已成爲集軍工、消費電子、核心器件研發與製造爲一體的綜合型跨國企業集團,並正向具有全球競爭力的信息家電內容與服務提供商挺進。

 

歷經三個階段、50 餘年的發展,長虹的銷售額在近兩年,連續突破 1000 億,成爲四川第一大企業。

 

長虹智能化發展歷程

 

 

長虹的大數據研究始於 2009 年開始啓用的 ERP 企業管理系統。

 

當時,剛剛開始佈局數據化的長虹業務數據量不大,用戶併發數也比較少。隨着企業發展,長虹開展了多元化業務,圍繞智能終端,通過更多的渠道和更多的手段,大幅提升數據採樣的量級和多樣化,進而掀起長虹在大數據浪潮下的變革和創新。

 

2014年,我們緊跟時代步伐,選擇走 Hadoop 這條路,自建公司的大數據存儲和計算平臺,並依託大數據平臺進行整個公司的數據業務開發。

 

 

有了大數據處理平臺,智能化轉型核心總結而言就是企業上雲、業務上雲以及設備要上雲,實現公司行政流程、業務流程、生產流程、財務流程的高度信息化、智能化。

 

上雲之後,業務的行爲會以數據的形式沉澱到各個數據庫,然後匯聚到企業數據倉庫,通過對數據的加工,形成相應的數據服務能力,也就是今天所說的數據中臺,最終服務於長虹的新興業務,提升企業的競爭力。

 

長虹大數據技術的演進

 

 

爲了響應不斷變化的業務需求,長虹大數據的技術發展棧主要如這裏展示的 Hadoop 這條路的發展歷程,主流的開源軟件我們都使用。

 

2016 年,我們在總結長虹的數據特性以及業務需求後開始分析,在我們 2000 多萬智能終端、8000 多萬億條數據集的場景下如何做到快速交互式的查詢分析?經典的 Hive 已經沒法滿足快速查詢的需求,因此我們開始調研 Apache Kylin 及其商業版 Kyligence Enterprise,並將其作爲一個重要的組件工具納入平臺。

 

 

 

圍繞着我們整個數據的特點,我們在當時確定整體的進化方向,使用 Kylin 加 Druid 的聯合方式做整體的業務分析。

 

 

依託紮實的技術平臺,我們總結形成了長虹的大數據業務架構,底層是一個 TinyVoice 平臺及大數據基礎平臺,做數據採集、數據存儲、數據管理等。過程中建立公司的整個數據標準體系,而且我們的數據標準體系過審了國家 DCMM 的認證,是四川省首家拿到三級認證的企業。基於標準化之後的數據,搭建了個性化推薦、精準營銷、供應鏈評級等服務於研發、生產、製造等各個方向的系統,最終服務於公司的經營業務。

 

應用案例

 

光說數據或者光說大數據都是不行的。數據如果脫離了業務,其實沒什麼價值,下面介紹一下我們應用大數據技術做的真正有業務價值的案例。

 

端子分析

 

 

原來電視機上有很多不同接口,當時我們就想了解下我們用戶到底會接哪些接口。於是我們在 2014 年 10 月,對 6 萬多個有效聯網智能電視終端樣本數據的輸入端做了一個統計分析。

 

根據統計我們發現,長虹 CHiQ 電視高端用戶用 HDMI 接口的數量最大,傳統 CVBS 和 ATV 接口需求量仍然很大,VGA 、YPBPR 使用佔比很少。針對 VGA 的用戶我們深入分析其 IP 來源,我們發現大部分來自於 CBD 等辦公場地,故判斷這部分用戶應該是企業拿來做投影的,且量特別大,當時就我們建議裁剪。裁剪之後,電視機不僅節省了硬件成本,還節約出了硬件空間,多的硬件空間可以用於其他部件的擺放,從而提升了產品競爭力。

 

個性化推薦

 

 

電視的個性化推薦和視頻網站的個性化推薦不太一樣,我們是沒有做內容的,所以我們做推薦,依託自建的媒體庫推薦對應的視頻軟件。

 

另一個和視頻網站不同的是,電視機實際是以家庭的方式存在的,在用戶家裏有不同的人在用,老人、孩子、家庭主婦等不同的角色可能都在用這個電視機,但是每個人的喜好不同,這就給我們的精準推薦帶來了挑戰:我們如何確定這個時間點背後的是個什麼樣的角色呢?

 

最終我們通過聲紋識別、行爲訓練和分析,形成了家庭 ID 識別的深度模型,它能識別你是男性女性老人小孩,然後整體形成家庭畫像,再以家庭畫像爲依託,對用戶進行千人千面的精準推薦。

 

智能財務 OCR(光學字符識別)識別

 

 

我們公司在做財務上雲的過程中,進行了財務的集中化處理,集中化之後就累計了大量的數據需要進行精細化的採集和分析,所以我們開發了一套 OCR 系統來做票據數據的採集。

 

實際業務開展過程我們會在 A4 紙上貼很多票,所以 OCR 系統需要首先對票據進行切割,切割完成後票據有些是歪的,我們需要把它旋轉。由於我們的票據種類有很多,所以預處理做完之後,系統需要對它進行自動分類,也就是自動分撿的系統所要做的事情。分撿完之後我們會進行票據字符識別,字符識別完成後會進行字段的匹配,我們在字段這裏加了語義糾偏的處理方式。

 

舉一個例子,比如成都東站或者成都站,我們會根據爬取的信息,它會有車次信息,圖譜會進行檢索,檢索這個車到底有沒有經過成都站還是成都東站,以這個信息輔助我做整個字段識別的糾偏,從而提升整體的票面識別率。

 

目前,我們的 OCR 圖像字符串識別率在國內、國際都屬於領先地位,識別率達到97.9%,支持的票據類別 50 類,行業第一,形成 80.5 萬條的標註數據集,改善了文字識別領域的一些核心算法,併成功形成了發票識別領域的語義庫。

 

在這個項目過程中我們也實現了 20 多個自系統的數據統一歸集,歸集到一個數據中。在此之上,我們使用 Kyligence 構建了我們的數據倉庫和數據集市,在解決構建非實時這個問題時,還用了 Hive 外表和查詢下壓相結合的方式來滿足業務查詢聯動的需求。

 

除此之外還做很多數據相關的應用比如工業大數據、輿情監控分析、戰略營銷地圖、供應鏈管理、外匯金融、語義雲等等。

 

作者簡介:蒲文龍,長虹集團數據服務部技術總監,擅長 Hadoop Eco 的大數據系統架構設計和海量數據下的高併發、高可用應用系統架構設計;主導建設了長虹 Matrix Cloud 基礎雲平臺、長虹大數據基礎平臺、長虹標籤畫像體系、長虹個性化推薦體系、長虹工業大數據平臺以及長虹大數據平臺數據標準體系。目前致力於 Cloud Native 技術和大數據技術在長虹海量物聯網設備上的應用和實現。

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章