AliCoCo 閱讀筆記

論文名:AliCoCo: Alibaba E-commerce Cognitive Concept Net

引言

基本電商的圖譜建設都是Category-Property-Value形式,Category是一顆樹,其中Property就是 Category的葉子 下的屬性。
搜索時,問題在於,用戶通常不記得一個item的具體名字,而是隻記得item的類別類型或者item其他相關信息,(個人理解AliCoCo起到 別名 的作用)
推薦時,問題在於,候選item很多,而且協同過濾不是根據用戶需求,另外缺乏推薦的新穎性,(根據論文的圖AliCoCo起到搜索時互動推薦的作用)
不同於現在的電商的標籤,只包括 類別,商標等標籤,AliCoCo有比如 “戶外燒烤” 或者 “兒童保暖” 這樣的標籤,“戶外燒烤” 這樣的標籤有 烤架、黃油 這樣的商品,
下圖中,用戶搜 烘焙,召回的item有個 烘焙工具 的標籤,而 烘焙工具 下面的item不是都出現 烘焙 二字:
AliCoCo

分類學taxonomy

即下圖中的紫色部分
AliCoCo
人工定義好taxonomy(分類學),可以理解爲domain
domain有20種,主要的是Category, Brand, Color, Design, Function, Material, Pattern, Shape, Smell, Taste, Style
domain其中Category包括800個葉子類別,
domain其中IP(Intellectual Property)包括現實世界的實體,比如名人、歌曲、電影。
下圖中直接和Root相連的是20個domain:
AliCoCo

primitive concepts

即下圖的藍色部分
AliCoCo
raw primitive concepts (可以看成 詞表),會被組織成層級結構,

primitive concepts詞表構建

從 搜索查詢語句、item標題、用戶寫的評論、用戶寫的購物指南 中提取,
方法1基於規則,
方法2是下圖的模型,下圖模型是挖掘出20種domain,NER模型圈出輸入文本的詞作爲詞表
AliCoCo

primitive concepts詞表中上下位詞的確定

1,基於規則:
比如 某某褲 是一種 褲,那麼 褲 就是 某某褲 的 父節點,
2,基於textmatch模型的projection learning模型,輸入 兩個詞 輸出是上下位詞的關係,即has_function、suitable_when、isA、in_season等等:

這裏論文提出一種 在線數據標註的算法,不斷選取模型預測 高分 和 低分 的樣本都交給人工標註,

e-commerce concepts

也就是下圖的橙色部分AliCoCo
每個e-commerce concepts代表一個購物場景,每個e-commerce concepts可以被至少被一個primitive concepts組成,

e-commerce concepts的詞表生成候選

採用AutoPhrase關鍵短語提取工具,從文本中提取,也是從 搜索查詢語句、item標題、用戶寫的評論、用戶寫的購物指南 中提取,
另外就是從現有的primitive concepts生成,比如從 Location: Indoor + Event: Barbecue 來得到新的e-commerce concept:indoor barbecue,
還有基於規則,使用一個模板,[class: Function] [class: Category] for [class: Event] 匹配出warm hat for traveling
AliCoCo

e-commerce concepts詞表候選的校驗

對e-commerce concepts的詞進行文本分類,提出一種 知識增強的文本分類,基於Wide&Deep模型,附加輸入了POS、NER信息和 詞 的百科文本,以及BERT的embedding
AliCoCo

e-commerce concepts鏈接到primitive concepts

使用NER模型,輸入e-commerce concepts輸出primitive concepts,採用了fuzzy CRF更好處理歧義問題,
AliCoCo

有了標籤樹,給item打標籤(葉子節點可能有多個父節點的樹)

e-commerce concepts和primitive concepts都會打到item,考慮到primitive concepts比較短,直接走規則,所以這裏主要介紹e-commerce concepts打到item的模型,
採用引入百科文本的textmatch模型,輸入是e-commerce concepts和它的primitive concepts和item名稱,輸出是item是這個e-commerce concepts的0-1分值
AliCoCo

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章