B. 阿里巴巴 數據中臺 — OneEntity體系方法論 與 OneService體系方法論
OneEntity體系方法論
- OneEntity統一實體
- 分類
- 一般質量OneEntity:不能貼上“特定標籤”的OneEntity
- 高質量OneEntity:能夠貼上“特定標籤”,這裏的“特定標籤”會因業務和場景而異。
- 高價值OneEntity:不僅要能用標籤等來精準刻畫,還要達到實際意義上的可精準觸達
- 分類
- GProfile全域標籤:以“人”爲例
- 有效:基於人口學、社會學等學科,以及借鑑業界標籤分類體系的優點,將“人”的立體刻畫分爲“人的核心屬性”和“人的嚮往與需求”兩大部分,具體包括四大類:可以在分爲二級分類和三級分類等
- 人的核心屬性
- 自然屬性:人的肉體存在及其特徵,是人自然出生後自然存在的,一般不會因人爲因素較大的改變。例如:性別、生肖、年齡、身高、體重等
- 社會屬性:人在實踐活動基礎上產生的一切社會關係的總和。例如:經濟情況、家庭狀況、社會地位、政治宗教、地理位置、價值觀等
- 人的嚮往與需求
- 興趣偏好:人對非物化對象的內在心理嚮往及外在行爲表達,是一種發自內心的本能喜好,與物質無必然關係。例如:渴望愛情、需要安全感、希望能有一口漂亮的牙齒、討厭髒亂的環境等
- 行業消費偏好:人對物化對象的需求與外在行爲表達,涉及各行業、與物質世界有着千絲萬縷的聯繫。例如:母嬰行業偏好、美妝行業偏好、洗護行業偏好、家裝行業偏好等
- 人的核心屬性
- 高速
- 以OneEntity體系爲核心,將OneEntity相關的實體及其行爲全部串聯起來,與存量的標籤一起作爲數據源
- 將萃取標籤邏輯沉澱爲兩種,分別對應到“偏好類標籤”和“分類預測類標籤”的工具性產品的生產過程中,其中包括確定計算因子及其權重等業務規則、選擇數據樣本、選擇算法與模型等
- 沉澱質量評估報告和生產檢測、上線等管理流程
- 有效:基於人口學、社會學等學科,以及借鑑業界標籤分類體系的優點,將“人”的立體刻畫分爲“人的核心屬性”和“人的嚮往與需求”兩大部分,具體包括四大類:可以在分爲二級分類和三級分類等
- GRelation全域關係
- 例如:當OneEntity代表人的時候,就可以找出他的親屬、朋友、校友和同事等當OneEntity代表“商品/貨”時,就可以找出它的上下游商品/貨等
- GBehavior全域行爲
- 將OneEntity相關實體及行爲全部串起來
OneService體系方法論
- 發展歷程
- 2012年:煙囪式的API服務首先根據業務需求煙囪式定製開發滿足需求的數據表。然後將數據表同步到查詢數據庫中,再基於查詢數據庫定製化封裝面向一個個應用需求的API。每當應用調用一個API時,對該API數據調用與解析出來的SQL語句會指向寫入該API中的制定物理表,從而實現API的定製化與獨享化。
- 2014年OpenAPI:將相同統計維度的不同物理表中的數據指標配置到同一邏輯表中,因爲數據指標是唯一的,所以配置到同一邏輯表中的數據指標都是唯一的。每當調用一個API時,對該API數據調用解析出來的SQL語句會通過邏輯表指向多個物理表,進而找到一個唯一的數據指標,從而實現API的共享以及API引用數據的共享。
- 2016年:OneService體系基於邏輯模型,而邏輯模型內的數據指標則是通過自動化、智能化實現的。1. 每當調用一個API時,對該API數據調用解析出來的SQL語句就會通過邏輯模型而非邏輯表發起一個數據指標的查詢請求,而請求結果返回的則是由一個智能黑盒基於邏輯模型來實現的。2. 智能黑盒實現每一個指標的前提條件是,對每一個數據指標進行數據規範定義,並對應到一個邏輯模型中。智能黑盒基於此過程對數據指標實現智能計算和智能存儲