寫在前面: 博主是一名軟件工程系大數據應用開發專業大二的學生,暱稱來源於《愛麗絲夢遊仙境》中的Alice和自己的暱稱。作爲一名互聯網小白,
寫博客一方面是爲了記錄自己的學習歷程,一方面是希望能夠幫助到很多和自己一樣處於起步階段的萌新
。由於水平有限,博客中難免會有一些錯誤,有紕漏之處懇請各位大佬不吝賜教!個人小站:http://alices.ibilibili.xyz/ , 博客主頁:https://alice.blog.csdn.net/
儘管當前水平可能不及各位大佬,但我還是希望自己能夠做得更好,因爲一天的生活就是一生的縮影
。我希望在最美的年華,做最好的自己
!
在正式開始對【企業級用戶畫像】項目展開介紹之前,博主可是煞費苦心,爲大家整理了一期,如何徹底理解什麼是用戶畫像(👉一文讓你徹底明白,到底什麼是用戶畫像?)。如果確實幫到您了,不妨給博主一個大大的贊|ू・ω・` )
接下來,正式開始對該項目的介紹…
項目介紹
企業級360°全方位用戶畫像是基於電商平臺進行設計和開發,是面向註冊會員的偏好、行爲習慣和 人口屬性的畫像還原,同時也包括對商品信息的畫像還原。 提供用戶喜好和商品特徵幫助營銷平臺提升營銷的精準度,也方便個性化推薦系統快速準確的爲每個用戶推薦相關的商品。
項目名稱:
企業級360°全方位用戶畫像
行業領域:
電商平臺,針對電商平臺用戶構建用戶畫像,給用戶打標籤
構建畫像:
1)、註冊會員(打標籤) - 用戶標籤
a)、偏好:訂單數據
依據訂單數據、購物車數據和收藏數據構建標籤
b)、行爲習慣:流量數據、搜索數據
依據瀏覽數據,構建標籤
c)、人口屬性:用戶註冊信息數據
對用戶基本信息構建標籤
2)、商品信息(打標籤) - 商品標籤
訂單數據構建商品的標籤
標籤存儲:`將用戶標籤數據存儲到HBase表中`
表名稱:
tbl_profile
ROW_KEY:
userId
列簇ColumnFamily:
用戶標籤列簇:user
商品標籤列簇:item
列值:
標籤的ID集合:tagIds -> 384,392,376,.....
回顧:
在HBase Shell命令行中如何創建用戶標籤表呢?
create 'tbl_profile', 'user', 'item' -> 此種方式創建表的只有一個分區Region
創建表的時候,考慮數據的預分區和預測壓縮
畫像功能:
1)、精準營銷
2)、個性化推薦
功能模塊
整個項目分爲如下幾個功能模塊,具體描述:
畫像模塊:
個體畫像 -> 【微觀畫像】
依據用戶ID:userId,查詢用戶所用標籤,進行展示
羣體畫像 -> 【標籤查詢】
依據多個標籤組合(OR、AND)查詢用戶,屬於某個羣體,分不同類
- 1、標籤體系
標籤體系模塊基於本體論建立,包括基礎標籤和組合標籤兩個子模塊。基礎標籤維護了人口屬性、 商業屬性、行爲屬性和用戶價值4個方面。組合標籤是在基礎標籤的基礎上按TGI創建的,用於反映目標 羣體在特定研究範圍的強勢和弱勢。
- 2、標籤引擎
標籤引擎模塊是用戶畫像運轉的核心實現,維護標籤的具體實現邏輯,包括標籤依賴的數據源、規 則和模型的信息。同時提供每一個標籤引擎運行狀態的可視化監控。當Super User登錄時會出現新增標 籤及其引擎的審覈。
- 3、畫像模塊
畫像模塊是對實體(用戶/物品)信息全貌可視化的精準還原,包括對個體的全方位還原和羣體的 全方位還原。
- 4、標籤查詢
標籤查詢模塊是查看標籤所覆蓋的實體,用於查看標籤體系中所有標籤包含的商品詳細信息和經過脫敏後的用戶信息。
- 5、系統設置
系統設置模塊主要包括用戶管理、權限管理。
技術架構
項目的總體架構圖:
軟件版本:
jdk1.8.0_221
hadoop-2.6.0-cdh5.14.0
hbase-1.2.0-cdh5.14.0
zookeeper-3.4.5-cdh5.14.0
spark-2.2.0-bin-2.6.0-cdh5.14.0
sqoop-1.4.6-cdh5.14.0
apache-flume-1.6.0-cdh5.14.0-bin
solr-4.10.3-cdh5.14.0
oozie-4.1.0-cdh5.14.0
hue-3.9.0-cdh5.14.0
安裝目錄:
/export/servers
系統用戶:
root/123456
實際項目使用CDH版本大數據框架版本,使用HDP 大數據框架版本
HDP 2.x版本
項目功能架構圖:
標籤梳理
學習目標
- 能夠了解本體論
- 能夠掌握標籤的分類和業務背景
標籤定義依據
知識工程(本體論)的概念最早由美國斯坦福大學計算機科學家費根鮑姆提出。他認爲“知識工程是人工智能的原理和方法,爲那些需要專家知識才能解決的應用難題提供求解的手段,恰當運用專家知識對獲取、表達、和推理過程做出解釋,是設計知識系統的關鍵問題”。
基於知識工程的用戶定性畫像中,核心思想是利用本體對用戶畫像中的標籤進行表示、驗證、推理和解釋。本體論(Ontology)是哲學上的一個學科,是研究客觀事物存在和組成的通用理論。
本體的結構包括類、屬性、實例、公理和推理規則。
1)、類:Thing爲本體中所有類的父類,如酒類。
2)、屬性:每個類都有屬性,在酒類當中包括:白酒、啤酒、紅酒等屬性。
3)、實例:指類的具體對象,如茅臺酒、二鍋頭酒。
4)、公理:本體中的永真式,描述類的約束條件,該條件在某個領域中是永遠成立的。例如茅臺酒廠生產的酒就是茅臺酒,這個公理即永遠成立。
5)、推理規則:本體所在領域以專家知識的形式化表示,用於保證本體的完整性和一致性。
標籤體系需求分析
標籤體系是根據已註冊用戶的偏好、行爲習慣和人口屬性等不同的領域進行建立的,按領域可以分爲人口屬性、商業屬性、行爲屬性和用戶價值四類。按具體的實現方式分爲規則標籤、統計標籤和挖掘標籤。在本項目中標籤體系按照業務類型劃分爲基礎標籤和組合標籤。
- 按領域劃分
人口屬性 | 用戶的社會化特徵相關的標籤 |
---|---|
商業屬性 | 電商平臺中購物相關的標籤 |
行爲屬性 | 電商平臺中的瀏覽、購買等行爲標籤 |
用戶價值 | 用戶的資產相關標籤 |
- 按實現方式劃分
規則標籤 | 通過匹配標籤的屬性值實現標籤的業務邏輯 |
---|---|
統計標籤 | 使用數學統計方法實現標籤的業務邏輯 |
挖掘標籤 | 使用數據挖掘算法實現標籤的業務邏輯 |
- 按照業務類型劃分
- 業務標籤一:人口屬性
- 業務標籤二:商業屬性
- 業務標籤三:行爲屬性
- 業務標籤四:用戶價值
項目工程演示
我們本次的項目爲Maven Project,導入IDEA中,如下圖所示:
選擇解壓的工程,如下圖:
一直點擊下一步【Next】即可,最終導入工程:
由於項目使用SSM開發WEB工程,需要運行到Tomcat中,配置Tomcat,如下所示:
添加TomcatServer,使用Tomcat版本爲【apache-tomcat-8.5.45】:
選擇WEB項目,修改訪問ROOT路徑:
選擇部署工程:
選擇WEB項目,修改訪問ROOT路徑:
啓動Tomcat
看到彈出了一個賬戶登錄界面說明我們的操作就成功了~
小結
本篇博客主要爲大家簡單介紹了一下用戶畫像項目,包括功能模塊,技術架構,標籤梳理,並最後進行了項目工程的一個演示😎
如果以上過程中出現了任何的紕漏錯誤,煩請大佬們指正😅
受益的朋友或對大數據技術感興趣的夥伴記得點贊關注支持一波🙏