業務痛點
由於用戶搜索習慣的不同,搜索時輸入的關鍵詞往往會存在差異,這導致搜索引擎無法召回與搜索詞文本不一致但實際上是用戶期望的結果。比如,用戶搜索“棉襖”時,通用文本檢索將無法搜索到“棉服”相關的內容,影響用戶的搜索效率與使用體驗。解決此類問題最有效的方法之一是使用同義詞功能。
痛點一:行業屬性強
由於業務場景的多樣性,不同行業、垂類之間的同義詞可能存在着巨大的差異,通用的開源同義詞模型難以覆蓋細分業務場景。比如在電商場景下,會因業務特殊性生成專屬的品牌詞、別名、簡稱等同義詞,在這種情況下,業務同義詞的挖掘與維護成爲提升搜索召回效果的痛點之一。
痛點二:自建同義詞成本高、難度大
爲解決上述業務痛點,自建同義詞模型是業務常見的方案之一,自建同義詞模型主要包含以下流程:
- 難點1:同義詞標註領域知識要求高,對於查詢詞中不同詞在搜索引擎中的重要性判斷難。同時數據量也至少需要達到萬級別,耗時可能長達數月。
- 難點2:模型訓練門檻高,需要專業的算法從業人員進行調試,且模型效果、迭代效率強依賴與算法工程師的投入和能力。
- 難點3:模型部署、運維流程複雜,需要工程、算法、運維等多方參與,且深度模型的上線還涉及性能、效率相關的諸多優化。
綜上,自建同義詞模型對時間、人力、資源的投入均相對較高,且模型效果強依賴於專業算法人員的能力,往往投入了很多成本卻無法提升搜索效果。
開放搜索定製同義詞解決方案
方案介紹
在進行搜索文本搜索前,開放搜索OpenSearch會對用戶輸入關鍵詞進行查詢語義分析和處理。其中,同義詞功能主要是對查詢詞進行同義擴展,擴大召回和查詢詞同義的文檔。由於業務場景的多樣性,不同行業、不同業務都有各自的特殊性,只有具體到應用級別的同義詞模型才能保障最優的搜索效果。
OpenSearch提供了豐富的面向特定領域的同義詞模型,用戶可以基於對應的行業,經過簡單的配置訓練得到專屬的定製同義詞模型。訓練完成後,用戶可在控制檯中查看差異率、同義詞case對比等模型效果,等到效果符合預期後,即可在開放搜索中使用該定製同義詞模型,並支持同義詞效果人工干預。
整個定製過程無需進行額外的數據對接、標註、模型調參、部署、運維等工作,在更低附加成本下完成模型定製與搜索效果調優。
適用客戶
- 搜索爲核心業務重要場景,對搜索有更高效果要求的客戶
- 行業、垂類、業務特殊,有較多專屬名詞的客戶
- 搜索投入人力有限,算法同學相對較少的客戶
使用方法
- 在行業算法版-召回配置中創建召回定製-同義詞模型並開啓訓練;
- 配置查詢分析並引用已訓練的召回定製-同義詞模型;
- 根據業務需求通過干預詞典調整召回定製-同義詞模型;
更多使用說明請參考:https://help.aliyun.com/document_detail/467943.html
效果對比
電商場景效果對比
原文 | 電商同義詞 | 定製同義詞 |
交話費 | 繳話費 | 充話費 |
演出服 | 表演服、演出裝、舞臺服 | 表演服、舞臺裝、表演裝 |
染髮劑 | 染髮膏 | 染髮膏、染髮液 |
醫療場景效果對比
原文 | 通用同義詞 | 定製同義詞 |
血液粘稠度 | - | 血液黏稠度 |
不可過度勞累 | - | 不要過分勞累、不要過度勞累、不要過於勞累 |
喉嚨很痛 | - | 喉嚨疼痛、喉嚨特別痛、喉嚨有點痛、喉嚨疼 |
小結
- 如果您的業務目前正在或準備使用OpenSearch行業算法版,可以在行業模型的基礎上訓練定製同義詞模型;
- 如果OpenSearch還沒有提供與您業務接近的行業,建議選擇在行業算法版-通用行業的基礎上訓練定製同義詞模型,這種情況需要數據儘量豐富,分佈儘量全面均衡,有助於提升模型效果;
- 開放搜索目前還支持定製分詞器、定製詞權重模型,後續還會提供更多定製召回模型,敬請期待~
本文爲阿里雲原創內容,未經允許不得轉載。