數據治理與大模型一體化實踐

引言:

大模型落地到當前這個階段,核心關注點還是領域大模型,而領域大模型落地的前提在於兩點:需求端,對當前應用的降本增效以及新應用的探索;供給端,訓練技術已經有較高的成熟度。

專家介紹:

柏海峯

滴普科技 Deepexi產品線總裁

負責企業大模型產品的規劃、技術架構設計和應用解決方案的全體系打造,承擔公司基礎產品核心競爭力及創新力的構建。擁有豐富的企業數字化轉型諮詢與實施和產品研發管理經驗,曾任華爲技術研發經理、微軟中國顧問、IBM(GBS)諮詢總監以及營銷雲SaaS產品創業經驗,服務過中移動、華潤、工商銀行等多個世界500強企業。

降本增效方面,以機器學習團隊的構成爲例,滴普科技Deepexi產品線總裁柏海峯介紹道:“傳統機器學習或者說小模型的技術落地,對人才的要求很高,但企業往往沒有意識到這個問題。具體來說,一般需要構建一個綜合性的團隊即數據科學團隊,團隊中需要數據開發工程師、BI工程師、商業分析師、數據科學家、算法工程師等崗位,人力成本很高,除了互聯網、金融行業的大型企業,傳統企業或中小型企業很難組建這樣的團隊。”

人才要求高的原因在於,不同崗位的技能差異非常大,相關工具和技術棧也比較分散,比如在某個具體應用領域的AI模型也是採用不同的算法,數據處理層面的pipeline,很多時候自動化的實現也不夠完善。總之,不同的釘子只能用不同的錘子,而每一把錘子都不便宜。

因此,儘管小模型對算力、數據要求沒有那麼高,但要調出好的效果,複雜度還是很高的。除了技術因素,在團隊協作和業務適配方面,也還有很多難題。

“大模型帶來的首要好處就是,它一下子把技術門檻拉低了,把整個技術棧從輸入到輸出的鏈條變得很短,原本需要很多人的數據科學團隊,變成只需要一個人加多個Copilot就可以完成,這個人甚至可以是業務部門的,這是非常有想象力的。”

訓練技術方面,大模型一般都是先進行self supervised learning,構建通用大模型,然後經過supervised fine-tuning訓練,針對特定任務,構建領域大模型初版,最後通過RLHF訓練,對齊人類價值,完成類似於人類學習成長的解題、實習、社會工作三步曲。

其中後兩步是大模型微調並構建領域大模型的主要步驟,可以把訓練前回答問題很散漫的通用大模型Llama 2 13B,訓練成專業性很強的chatbot——Llama 2 13B-chat。

微調可以減少大模型的幻覺,增加模型輸出的一致性、專業性,並且只需要通用模型訓練的千分之一或者萬分之一的數據量。

需求端和供給端條件具備,商業模式就有了雛形,那麼,企業要發揮的作用就是,效能建設。

▼01.效能建設:數據爲道、模型爲術

效能建設的核心變量,在於數據治理。但這個“數據”,和大數據時代的“數據”,內涵又有很大不同。

傳統的數據治理,針對數據分析場景,主要面向結構化數據,包括主動元數據、AI增強治理等技術,已成比較成熟的體系。

而數據治理的新內涵,面向大模型訓練常見的非結構化數據。

非結構化數據治理的首要難題是,高質量的領域數據獲取的成本。

大模型微調的典型方法是instruction fine tuning,也就是指令微調,ChatGPT和Llama 2都是指令微調的產物。指令微調採用的數據,就是prompt加上response的問答對,要麼由更強大的大模型比如GPT-4生成,要麼由人工生成。

進一步的微調強化還可以採用Explanation Tuning——解釋微調,這是一種數據增強技術,主要是通過成熟的大模型將對prompt的回答進行step by step的拆解,從而獲得更容易理解的數據。這主要是基於這樣的經驗,即提示大模型一步一步拆解問題並解答,可以顯著提高準確率。此外,還存在像Neftune這種通過將數據經過模型添加噪聲之後再進行訓練,就能顯著增加推理準確率的魔法一般的數據增強技術。

除了增強,AI模型也可以反過來幫助將雜亂的非結構化數據進行壓縮提煉,提取知識。一般來說,可以在公網中使用Claude2、GPT-4、GPT-3.5(ChatGPT),以prompt的形式將數據進行信息提取,就可以把大量的文檔數據變成結構化的知識。如果企業考慮到數據安全的問題,就可以在本地部署Llama 2 13B、ChatGLM2 6B等本地大模型,來處理這些文檔。

也就是說,非結構化數據其實在很大程度上正在藉助已有的成熟模型來處理,其中包括了小模型和大模型。

“比如說在石化行業的數據有很大部分都是多模態的,包括勘探鑽井時收集的圖像數據、地震探測中收集的地理數據、安全監控視頻的數據、物聯網IoT數據等等,非常複雜。這些數據要得到利用,就要通過小模型、大模型的技術從裏面提取出顯性的、隱性的知識,從而能夠讓被訓練的大模型也能夠看懂,這就是非結構化數據的治理方法。”

採用大模型、小模型來代替人力從非結構化數據中提取高質量數據,可以極大降低人力處理的成本。

業內對大模型一直有着這樣的質疑聲音,認爲現在的大模型就是把小模型做過的事情重做一遍,“但實際上,大模型和小模型形成了層次更豐富的模型棧,各自發揮所長,才能把效率最大化。”

不同規模、不同能力的AI模型,彷彿構成了一個內部生態。在訓練時,它們之間使用數據進行交流,增強終端大模型的能力。在推理時,大模型又成了決策樞紐,通過prompt的交流來規劃任務。

▼02.數據集的平衡:準確率 vs 多樣性

數據集質量的評估是多維度的,需要平衡幾項因素:靈活性、多樣性和準確率。

其中,靈活性、多樣性是指模型面對變化多樣的prompt也能給出一致的回答,這在通用大模型應用中很常見。而領域數據之所以對質量要求高,也是因爲對準確率要求很高。

“比如Text to SQL這樣的場景,行業屬性很強,對準確率要求也很高。目前行業相關應用的準確率普遍不高,ChatGPT也不到80%。而準確率不超過80%,在生產環境是不能應用的。“

此外,考慮到通用大模型的訓練數據在靈活性、多樣性上最高,準確率最低,小模型則相反,領域大模型其實處於兩者之間,因此必須對這幾項因素進行平衡。

滴普科技在實踐中發現,在訓練數據集中如果領域數據集佔30%,通用數據集佔70%,訓練出來的領域大模型更能夠兼顧靈活性、多樣性和準確性。這個平衡又進一步降低了數據的總體獲取成本。

▼03.數據類型:另一個維度

數據類型的劃分,除了質量,還可以從知識表示的形式進行劃分,不同形式對應不同的訓練方法。

數據或任務通常包含兩大類型,第一種屬於重表示型,比如把對Java線程的解釋進行重新表述,第二種屬於知識問答型,比如如果不知道授信額度的準確定義,就無法回答一些相關知識問答。

相比之下,第二種任務對模型的要求更高,因爲有知識增量,需要對模型參數進行較大的調整。

針對第一種任務,模型微調常採用高效微調的方式,比如LoRA、QLoRA、P-tuning等,保留大模型原有參數,在模型前方或後方添加新的神經網絡層以改善推理,成本更低;針對第二種任務,則採用全參微調的方式,對硬件要求高,主要在於內存量,比如Llama 2 13B的全參微調至少需要一塊80G內存的A800,Llama 2 7B則至少需要一塊24G內存的RTX4090,才能完成訓練,並且爲防止過擬合,對數據集的要求也更高。

領域大模型偏重知識型任務,一般而言全參微調是必不可少的。但任務本身也分層次,底層是統計分析型,頂層是預測型。統計分析型任務更基礎,對準確性要求高,比如文本分類、意圖識別、實體關係提取等,預測型相比之下對準確性要求更低一些。

這在Text to SQL任務中也有體現,“統計分析是what happen,預測分析是why happen,後者的準確率一般沒法達到100%。”

當然,要求是一方面,收益是另一方面,如果在高級任務中能獲得更強的能力,也將成爲領域大模型的技術壁壘,爲此,在滴普科技的5維模型基礎能力評估模型中,把理解偶一、句法分析能力等高級能力維度放到了更高的權重。

▼04.產品體系:效率、性能與體驗兼顧

所以,效率是一方面,性能是另一方面。企業做產品,除了提升效率來保證落地,也要在保證效率前提下提升性能,才能最大程度上保證用戶體驗。

比如,Text to SQL產生的SQL語句是讓大模型來執行還是讓傳統工具來執行,也是個問題,”現在常見的大模型演示中,人們都是上傳一個數據集,讓大模型去分析,但這其實跟真實場景差距太遠了。真實場景面對的數據集不是一個5-30M的Excel或CSV文件,而是一個包含幾萬張表、幾十億條記錄的數據湖,在做統計的時候,也會涉及到join這種複雜的表關聯計算。真的讓大模型面對這樣的場景,可能直接掛機。但大模型遲早要面對這個問題,不然仍然是一個實驗室的玩具。“

爲解決這個問題,首先需要將大模型從GPT-4轉向本地大模型,這時準確率可能急劇降低,“40%-50%都算高的。”爲了克服底層邏輯的複雜性,滴普科技開發了一個分析引擎MQL(metric query language),其可以統一連接多樣的數據庫引擎比如MySQL、Hive、ClickHouse等等,“MQL通過靈活的選維度,生成中間的MQL代碼,從而高性能地完成加速查詢並毫秒級返回。所以,我們的解題思路不是Text to SQL,而是Text to MQL,因爲MQL已經把不同數倉的差異性進行了統一。在這個架構下,只要對模型做一定的微調,Text to SQL的準確率是可以達到100%的,而不僅僅是保證生產環境可行。”

這些方法論最終體現在滴普科技的大模型產品規劃上。

爲兼顧效率、性能和體驗,滴普科技規劃了完善的產品體系,“我們從多個維度規劃了大模型產品體系。第一個維度是算力基礎,大模型的預訓練、微調的算力開銷很大,但客戶普遍算力資源不足,同時不知道如何在硬件上部署什麼樣的大模型,以及如何部署。爲此,我們提供的Fast5000E訓推一體機,從硬件到模型完全整合到一起提供給客戶,客戶只需要考慮場景適配和應用就可以了。雖然算力規模不大,遠低於互聯網大公司的算力,但對於大部分企業而言已經足夠。”

然後,在算力基礎之上,爲了在應用層面提升效率,降低開發門檻,滴普科技開發了FastAGI智能體平臺,“可以理解成是一個Agent或智能體開發平臺,該平臺用於快速構建大模型工具鏈。我們提供了易於使用的開發工具,可以快速構建智能體能力。目前我們已經有了可以做高級數據分析的Data Agent,有處理非結構化數據的Doc Agent,還有一些用於擴展企業內部應用的Plugin Agent等等。除了這兩個核心產品,滴普科技也會基於具體的業務場景幫助客戶定製解決方案,比如在Data Agent之上做數據分析的Copilot、供應鏈智能助手等。“

這些成果體現了滴普科技順應大模型落地趨勢的認知,也反映了滴普科技在延展數據治理內涵上的努力。

數據治理的新趨勢,是治理手段的技術化、工具化、一體化,“一方面,對於規模相對較小的客戶,傳統的自頂向下的數據治理方法,週期長、見效慢。一般來說,都需要先規劃,請諮詢公司幫忙把相關標準、規範、流程、制度確立,然後再進行內部運營。這種做法在大公司裏沒問題,但並不適合小公司。另外,大模型的數據治理還涉及非結構化數據的處理,非結構化數據和知識之間有很大的gap,專業門檻也很高。”

因此,滴普科技提倡數據治理要從傳統數據治理走向敏捷數據治理。在與Gartner聯合發佈的《企業級數據治理體系建設指南》白皮書中,滴普科技明確提出,要將數據開發與治理一體化,在開發環節將治理動作執行到位,從根源上保證數據質量,同時在大模型時代將數據治理內涵進一步延伸至非結構化數據,持續提高數據的治理質量、廣度和效率。

▼05.領域大模型的成本經濟學

滴普科技在大模型落地實踐中,將數據治理方法論進一步拓展,對數據質量、特性的評估建立了準確率、多樣性、統計型、預測型等維度,進而用於指導領域大模型的高效低成本訓練,同時追求性能和用戶體驗的極致,規劃了系統性的產品體系。這不僅是領域大模型的成本經濟學,也將成爲滴普科技未來持續推進大模型落地應用的重要原則。

  • End -

訪談人:柏海峯滴普科技 Deepexi 產品線總裁

與談人:劉曉坤 DataFun

編輯:劉曉坤 DataFun

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章