機器學習算法應用場景實例

目錄

1 分類算法應用場景實例

1.1 O2O優惠券使用預測

1.2 市民出行選乘公交預測

1.3待測微生物種類判別

1.4 基於運營商數據的個人徵信評估

1.5 商品圖片分類

1.6 廣告點擊行爲預測

1.7 基於文本內容的垃圾短信識別

1.8 中文句子類別精準分析

1.9 P2P網絡借貸平臺的經營風險量化分析

1.10 國家電網客戶用電異常行爲分析

1.11 自動駕駛場景中的交通標誌檢測

1.12 大數據精準營銷中搜狗用戶畫像挖掘

1.13 基於視角的領域情感分析

1.14 監控場景下的行人精細化識別

1.15 用戶評分預測

1.16 貓狗識別大戰

1.17 微額借款用戶人品預測

1.18 驗證碼識別

1.19 客戶流失率預測

1.20 汽車4S店郵件營銷方案

2迴歸算法應用場景實例

2.1 機場客流量分佈預測

2.2 音樂流行趨勢預測

2.3 需求預測與倉儲規劃方案

2.4 新浪微博互動量預測

2.5 貨幣基金資金流入流出預測

2.6 電影票房預測

2.7 農產品價格預測分析

2.8 基於多源數據的青藏高原湖泊面積預測

2.9 微博傳播規模和傳播深度預測

2.10 鮑魚年齡預測

2.11 學生成績排名預測

2.12 網約車出行流量預測

2.13 紅酒品質評分

2.14搜索引擎的搜索量和股價波動

2.15 中國人口增長分析

2.16 農村居民收入增長預測

2.17 房地產銷售影響因素分析

2.18 股價走勢預測

2.19 全國綜合運輸總量預測

2.20 地震預報

3聚類算法應用場景實例

3.1 基於用戶位置信息的商業選址

3.2 中文地址標準化處理

3.3 國家電網用戶畫像

3.4 非人惡意流量識別

3.5 求職信息完善

3.6 搜索引擎查詢聚類以進行流量推薦

3.7 生物種羣固有結構認知

3.8 保險投保者分組

3.9 網站關鍵詞來源聚類整和

3.10 圖像分割

4關聯規則應用場景實例

4.1 穿衣搭配推薦

4.2 互聯網情緒指標和生豬價格的關聯關係挖掘和預測

4.3 依據用戶軌跡的商戶精準營銷

4.4 地點推薦系統

4.5 氣象關聯分析

4.6 交通事故成因分析

4.7 基於興趣的實時新聞推薦

4.8 銀行金融客戶交叉銷售分析

4.9 電子商務搭配購買推薦

4.10 銀行營銷方案推薦


1 分類算法應用場景實例

1.1 O2O優惠券使用預測

        以優惠券盤活老用戶或吸引新客戶進店消費是O2O的一種重要營銷方式。然而隨機投放的優惠券對多數用戶造成無意義的干擾。對商家而言,濫發的優惠券可能降低品牌聲譽,同時難以估算營銷成本。個性化投放是提高優惠券覈銷率的重要技術,它可以讓具有一定偏好的消費者得到真正的實惠,同時賦予商家更強的營銷能力。

        現有O2O場景相關的豐富數據,希望通過分析建模,精準預測用戶是否會在規定時間內使用相應優惠券。

1.2 市民出行選乘公交預測

        基於海量公交數據記錄,希望挖掘市民在公共交通中的行爲模式。以市民出行公交線路選乘預測爲方向,期望通過分析廣東省部分公交線路的歷史公交卡交易數據,挖掘固定人羣在公共交通中的行爲模式,分析推測乘客的出行習慣和偏好,從而建立模型預測人們在未來一週內將會搭乘哪些公交線路,爲廣大乘客提供信息對稱、安全舒適的出行環境,用數據引領未來城市智慧出行。

1.3待測微生物種類判別

        DNA是多數生物的遺傳物質,DNA上的鹼基(A,T,C和G)就儲藏了遺傳信息,不同物種的DNA序列在序列長度和鹼基組成上差異顯著。所以我們能夠通過DNA序列的比較分析,來判斷DNA序列是來自哪些物種。由於測序技術限制,我們只能得到一定長度的DNA序列片段。通過DNA序列片段與已知的微生物DNA序列進行比較,可以確定DNA片段的來源微生物,進而確定待測微生物種類。

        期望在相關數據基礎上,建立分析方法,在計算資源消耗盡量小的情況下,儘可能快地給出準確的結果,以滿足臨牀診斷需求。

1.4 基於運營商數據的個人徵信評估

        運營商作爲網絡服務供應商,積累了大量的用戶基本信息及行爲特徵數據,如終端數據、套餐消費數據、通信數據等等。實名制政策保證了運營商用戶數據能與用戶真實身份匹配,並真實客觀的反映用戶行爲。廣泛覆蓋的網絡基礎設施提供了積累大量實時數據的條件,這些用戶數據實時反饋着用戶的各個維度的信息及特徵。

        在我國,個人徵信評估主要通過引用央行個人徵信報告,但對於很多用戶沒有建立個人信用記錄的用戶,金融機構想要了解他們的信用記錄成本又較高,傳統徵信評估手段難以滿足目前多種多樣的新興需求。金融業務不同於其他大數據業務,對數據的真實性、可信度和時效性要求較高,而這正是運營商數據的價值所在。

        期望利用運營商用戶數據,提供完善的個人徵信評估。

1.5 商品圖片分類

        京東含有數以百萬計的商品圖片,“拍照購”“找同款”等應用必須對用戶提供的商品圖片進行分類。同時,提取商品圖像特徵,可以提供給推薦、廣告等系統,提高推薦/廣告的效果。

希望通過對圖像數據進行學習,以達到對圖像進行分類劃分的目的。

1.6 廣告點擊行爲預測

        用戶在上網瀏覽過程中,可能產生廣告曝光或點擊行爲。對廣告點擊進行預測,可以指導廣告主進行定向廣告投放和優化,使廣告投入產生最大回報。

        希望基於100萬名隨機用戶在六個月的時間範圍內廣告曝光和點擊日誌,包括廣告監測點數據,預測每個用戶在8天內是否會在各監測點上發生點擊行爲。

1.7 基於文本內容的垃圾短信識別

        垃圾短信已日益成爲困擾運營商和手機用戶的難題,嚴重影響到人們正常生活、侵害到運營商的社會形象以及危害着社會穩定。而不法分子運用科技手段不斷更新垃圾短信形式且傳播途徑非常廣泛,傳統的基於策略、關鍵詞等過濾的效果有限,很多垃圾短信“逃脫”過濾,繼續到達手機終端。

        希望基於短信文本內容,結合機器學習算法、大數據分析挖掘來智能地識別垃圾短信及其變種。

1.8 中文句子類別精準分析

        精確的語義分析是大數據必備技術,在分析句子時,不同句子類別即使用類似的關鍵詞,表達的含義仍有很大差別,特別是在情感判斷中。

        希望通過新聞以及微博等文本數據,對其句子類別進行判斷。

1.9 P2P網絡借貸平臺的經營風險量化分析

        P2P網絡借貸即點對點信貸,其風險情況始終觸碰着投資人的神經。據網貸之家統計,截止今年9月份,出現問題的網貸平臺一共有1008家,而僅僅今年就有641家平臺出現問題,這說明了隨着我國p2p行業的迅猛發展,P2P平臺的風險預測已經成爲一個至關重要的問題。P2P平臺的風險主要是在運營過程中產生的,與運營數據有着密不可分的關係。P2P平臺的風險預測並非無線索可尋,像借款期限和年化收益率等指標,就對P2P平臺的風險預測有很重要的參考意義。

        希望通過互聯網數據,構建出P2P網貸平臺的經營風險模型,從而能夠比較準確的預測P2P網貸平臺的經營風險,促進我國P2P行業向正規化方向發展。

1.10 國家電網客戶用電異常行爲分析

        社會經濟的發展使得社會用電量逐年增加,受利益驅使,竊電現象也日益嚴重。竊電行爲不僅給供電企業造成了重大經濟損失,也嚴重影響了正常的供用電秩序。根據國家電網公司統計,近年因竊電導致的損失達上千萬元。近年來,竊電方式也由野蠻竊電發展到設備智能化、手段專業化、行爲隱蔽化、實施規模化的高科技竊電,給反竊電工作進一步增加了很大的難度。隨着電力系統升級,智能電力設備的普及,國家電網公司可以實時收集海量的用戶用電行爲數據、電力設備監測數據,因此,國家電網公司希望通過大數據分析技術,科學的開展防竊電監測分析,以提高反竊電工作效率,降低竊電行爲分析的時間及成本。

        希望基於國家電網公司提供的關於用戶用電量、電能錶停走、電流失流、計量們打開燈計量異常情況、竊電行爲等相關數據,以及經過現場電工人員現場確認的竊電用戶清單,希望參賽者利用大數據分析算法與技術,發現竊電用戶的行爲特徵,形成竊電用戶行爲畫像,準確識別竊電用戶,以幫助系統更快速、準確地識別竊電用戶,提高竊電監測效率,降低竊電損失。

1.11 自動駕駛場景中的交通標誌檢測

        在自動駕駛場景中,交通標誌的檢測和識別對行車周圍環境的理解起着至關重要的作用。例如通過檢測識別限速標誌來控制當前車輛的速度等;另一方面,將交通標誌嵌入到高精度地圖中,對定位導航也起到關鍵的輔助作用。交通標誌的檢測是一項非常有挑戰的任務,精確的檢測對後續識別,輔助定位導航起着決定性的作用。交通標誌的種類衆多,大小、角度不依,本身就很難做到精確檢測,並且在真實的行車環境中,受到天氣、光照等因素的影響,使得交通標誌的檢測更加困難。

        希望機遇完全真實場景下的圖片數據用於訓練和測試,訓練能夠實際應用在自動駕駛中的識別模型。

1.12 大數據精準營銷中搜狗用戶畫像挖掘

        “物以類聚,人以羣分”這句古語不僅揭示了物與人的自組織趨向,更隱含了“聚類”和“人羣”之間的內在聯繫。在現代數字廣告投放系統中,以物擬人,以物窺人,纔是比任何大數據都要更大的前提。在現代廣告投放系統中,多層級成體系的用戶畫像構建算法是實現精準廣告投放的基礎技術之一。其中,基於人口屬性的廣告定向技術是普遍適用於品牌展示廣告和精準競價廣告的關鍵性技術。在搜索競價廣告系統中,用戶通過在搜索引擎輸入具體的查詢詞來獲取相關信息。因此,用戶的歷史查詢詞與用戶的基本屬性及潛在需求有密切的關係。

        希望基於用戶歷史一個月的查詢詞與用戶的人口屬性標籤(包括性別、年齡、學歷)做爲訓練數據,通過機器學習、數據挖掘技術構建分類算法來對新增用戶的人口屬性進行判定。

1.13 基於視角的領域情感分析

        情感分析是網絡輿情分析中必不可少的技術,基於視角的領域情感分析更是情感分析應用於特定領域的關鍵技術。在對句子進行情感分析時,站在不同的視角,同一個句子的情感傾向判斷結果將有所差別。

        給定一個句子,如果該句子中包含“視角”詞語,則應針對這一視角進行情感分析;如果句子中包含多個“視角”詞語,則應對不同的視角進行單獨的情感分析;如果句子中不包含視角,則不做情感判別處理。

1.14 監控場景下的行人精細化識別

        隨着平安中國、平安城市的提出,視頻監控被廣泛應用於各種領域,這給維護社會治安帶來了便捷;但同時也帶來了一個問題,即海量的視頻監控流使得發生突發事故後,需要耗費大量的人力物力去搜索有效信息。行人作爲視頻監控中的重要目標之一,若能對其進行有效的外觀識別,不僅能提高視頻監控工作人員的工作效率,對視頻的檢索、行人行爲解析也具有重要意義。

        希望基於監控場景下多張帶有標註信息的行人圖像,在定位(頭部、上身、下身、腳、帽子、包)的基礎上研究行人精細化識別算法,自動識別出行人圖像中行人的屬性特徵。標註的行人屬性包括性別、頭髮長度和上下身衣着、鞋子及包的種類和顏色,並提供圖像中行人頭部、上身、下身、腳、帽子、包位置的標註。

1.15 用戶評分預測

        個性化推薦已經成爲各大電子商務網站的必備服務。準確的推薦不僅可以提高商家的產品銷量,更能爲顧客提供優質快速的購物體驗。推薦系統發展至今,已經有許多非常優秀的推薦算法,從各種不同的角度來爲電子商務大廈添磚加瓦。迄今爲止,已經有不少研究表明,用戶在短期時間內會瀏覽相似的商品,但其興趣可能會隨時間發生些許變化。

        希望通過訓練帶有時間標記的用戶打分行爲,準確地預測這些用戶對其他商品的打分。

1.16 貓狗識別大戰

        有人說,貓與狗上千年曆史的敵對狀態,主要是由於在長期進化過程中迫於對生存資源進行爭奪而造成的殘酷競爭導致的;也有人說,是他們天生的交流方式不同導致的;今天貓狗大戰開始了,爲了避免被這些傢伙拆房的危險,各位智慧的人類,請速來隔離高冷貓和憨厚狗。

        希望從訓練集裏建立一個模型去識別測試集裏的小狗來。

1.17 微額借款用戶人品預測

        互聯網金融近年來異常火熱,大量的資本和人才涌入這個領域發掘富藏價值。金融領域無論是投資理財還是借貸放款,風險控制永遠是業務的核心基礎。而在所有的互聯網金融產品中,微額借款(借款金額500元~1000元)因其主要服務對象的特殊性,被公認爲是風險最高的細分領域。

        希望通過數據挖掘來分析”小額微貸“申請借款用戶的信用狀況,以分析其是否逾期。

1.18 驗證碼識別

        使用各類驗證碼的訓練集進行學習、編碼與測試,形成驗證碼算法模型。

1.19 客戶流失率預測

        我國的移動通信行業經過了前幾年的高速發展,近一段時間的發展速度逐漸緩慢下來。註冊用戶常常處於一種動態變化的狀態,即不斷有老客戶離網,又不斷有新客戶入網。大量的低消費客戶和大量老客戶的離網使得移動通信公司無法快速向前發展。

希望建立客戶流失模型,對新老客戶進行分類。

1.20 汽車4S店郵件營銷方案

        直郵營銷是直效行銷的一種,是把傳統郵件直接發送給消費者的營銷方式涉及的行業主要是大型商場、大賣場、商業連鎖店鋪、專賣店等。一家汽車4S店,公司擁有完備的客戶歷史消費數據庫,現公司準備舉辦一次高端品牌汽車的促銷活動,爲配合這次促銷活動,公司計劃爲潛在客戶寄去一份精美的汽車銷售材料並附帶一份小禮品。由於資源有限,公司僅有1000份材料和禮品的預算額度。

        希望根據與這次促銷活動類似的已經舉辦過的促銷活動的歷史消費數據,用過機器學習算法得到一個分類器,對新客戶進行分類,生成正類客戶的客戶列表,向他們寄出材料和禮品。

2迴歸算法應用場景實例

2.1 機場客流量分佈預測

        爲了有效利用機場資源,機場正利用大數據技術,提升生產運營的效率。機場內需要不斷提升運行效率的資源有航站樓內的各類燈光電梯設施設備、值機櫃臺、商鋪、廣告位、安檢通道、登機口,航站樓外的停機位、廊橋、車輛(擺渡車、清潔車、物流車、能源車),要想提升這些資源的利用率首先需要知道未來一段時間將會有多少旅客或航班會使用這些資源,其次需要精準的調度系統來調配這些資源和安排服務人員,幫助機場提升資源利用效率,保障機場安全與服務提升。

        以海量機場WiFi數據及安檢登機值機數據,希望通過數據算法實現機場航站樓客流分析與預測。

2.2 音樂流行趨勢預測

        經過7年的發展與沉澱,目前某音樂平臺擁有數百萬的曲庫資源,每天千萬的用戶活躍在平臺上,擁有數億人次的用戶試聽、收藏等行爲。在原創藝人和作品方面,更是擁有數萬的獨立音樂人,每月上傳上萬個原創作品,形成超過幾十萬首曲目的原創作品庫,如此龐大的數據資源庫對於音樂流行趨勢的把握有着極爲重要的指引作用。

        以某音樂平臺用戶的歷史播放數據爲基礎,期望通過對藝人的試聽量的預測,挖掘出即將成爲潮流的藝人,從而實現對一個時間段內音樂流行趨勢的準確把控。

2.3 需求預測與倉儲規劃方案

        擁有海量的買家和賣家交易數據的情況下,利用數據挖掘技術,我們能對未來的商品需求量進行準確地預測,從而幫助商家自動化很多供應鏈過程中的決策。這些以大數據驅動的供應鏈能夠幫助商家大幅降低運營成本,更精確的需求預測,能夠大大地優化運營成本,降低收貨時效,提升整個社會的供應鏈物流效率,朝智能化的供應鏈平臺方向更加邁進一步。高質量的商品需求預測是供應鏈管理的基礎和核心功能。

        以歷史一年海量買家和賣家的數據爲依據,希望預測某商品在未來二週全國和區域性需求量。用數據挖掘技術和方法精準刻畫商品需求的變動規律,對未來的全國和區域性需求量進行預測,同時考慮到未來的不確定性對物流成本的影響,做到全局的最優化。

2.4 新浪微博互動量預測

        新浪微博作爲中國最大的社交媒體平臺,旨在幫助用戶發佈的公開內容提供快速傳播互動的通道,提升內容和用戶的影響力。希望能夠最快找到有價值微博的方法,然後應用於平臺的內容分發控制策略,對於有價值的內容可以增加曝光量,提高內容的傳播互動量。對於一條原創博文而言,轉發、評論、贊等互動行爲能夠體現出用戶對於博文內容的興趣程度,也是對博文進行分發控制的重要參考指標。

        希望根據抽樣用戶的原創博文在發表一天後的轉發、評論、贊總數,建立博文的互動模型,並預測用戶後續博文在發表一天後的互動情況。

2.5 貨幣基金資金流入流出預測

        某金融服務機構擁有大量會員並且業務場景中每天都涉及大量的資金流入和流出,面對如此龐大的用戶羣,資金管理壓力會非常大。在既保證資金流動性風險最小,又滿足日常業務運轉的情況下,精準地預測資金的流入流出情況變得尤爲重要。

        期望能夠通過用戶基本信息數據、用戶申購贖回數據、收益率表和銀行間拆借利率等信息,對用戶的申購贖回數據的把握,精準預測未來每日的資金流入流出情況。

2.6 電影票房預測

        中國是全球第二大電影市場,同時也是增長最快的市場之一;隨着市場的成熟,影響電影票房的因素也越來越多,包括題材、內容、導演、演員、編輯、發行方等等。因此對電影製作公司而言,依靠主觀經驗製作一部高票房的電影也越來越困難,而隨着大數據技術的發展,藉助大數據分析對電影市場進行分析,指導電影製作成爲可能。 

希望依據歷史票房數據、影評數據、輿情數據等互聯網公衆數據,對電影票房進行預測。

2.7 農產品價格預測分析

        農產品價格受市場影響的程度特別大,特別是受農產品的供求關係影響較大,同時價格本身又受自然條件、社會和經濟條件的影響,特別是國際市場的影響。從價格本身來看,受供求、季節等發生波動,受外界各種影響比較多,這就造成了價格預測的困難。但從長期看,農產品價格隨着時間的推移仍然呈現一定規律性。價格預測是大數據的精華所在,通過大量的歷史數據分析,預測未來的價格走勢,爲決策者提供更有力的數據支持。

        希望通過分析價格歷史數據,對要求預測的農產品接下來固定時間的價格進行預測。並儘可能多的使用與價格有影響的其他數據以提高預測的準確率。

2.8 基於多源數據的青藏高原湖泊面積預測

        全球氣候變化對青藏高原的湖泊水儲量有很大影響,因此精確的估計青藏高原湖泊面積變化對於研究氣候變化變得很重要。海量多源異構數據和大數據處理與挖掘技術給湖泊面積變化研究帶來新的解決思路;如何通過多源數據對青藏高原的湖泊面積進行預測,將大數據技術應用到全球氣候變化研究中來成爲一項新的挑戰。

        希望通過研究青藏高原湖泊面積變化的多種影響因素,構建青藏高原湖泊面積預測模型。

2.9 微博傳播規模和傳播深度預測

        近些年,一些研究表明,一條微博發出以後,只需要觀察其在之後一小段時間內的轉發情況,它的傳播規模便可以被預測。但是不同類型的微博會有不同的傳播方式,比如明星曬一張生活狀態就能得到衆多粉絲的熱捧,具有較大的傳播廣度,但是往往在傳播深度上稍顯不足;相比之下,一些被廣泛討論的新聞類微博往往具有較深的傳播深度。也有統計結果顯示,一些謠言往往會得到大規模的傳播,闢謠類的消息反而得不到廣泛關注。不僅如此,我們在熱門微博中能看到不少正能量的信息,同時也能看到一些話題被持正反兩種不同意見的人掀起討論熱潮。簡而言之,微博初期的傳播速度、用戶關係、信息類型、內容情感等特徵都是影響微博傳播規模和深度的重要影響因素。

        希望基於大約1-3萬條微博及其它們的轉發微博,結合微博用戶的關注關係、微博的內容類型和情感分析以及初期的傳播模式,來預測微博的傳播規模和傳播深度。

2.10 鮑魚年齡預測

        鮑魚,在現代漢語中有多種含義。最常用的是指一種原始的海洋貝類,屬於單殼軟體動物,其只有半面外殼,殼堅厚、扁而寬,鮑魚是中國傳統的名貴食材,位居四大海味之首。直至現今,在人民大會堂舉行的多次國宴及大型宴會中,鮑魚經常榜上有名,成爲中國經典國宴菜之一。被人們稱爲“海洋的耳朵”。和古代“用鹽醃製的魚”是兩種東西。鮑魚的優劣與年齡相關。一般來說,我們可以數鮑魚的生長紋來確定鮑魚的年齡,但數生長紋也是一件挺麻煩的事情。

        希望利用與鮑魚年齡有關的因素來預測鮑魚的年齡。

2.11 學生成績排名預測

        學生的校園行爲數據,可以挖掘用戶作息規律、興趣愛好等,精準地預測學生之間的相對排名。通過對這些日常行爲的建模來預測學生的學業成績,可以實現提前預警學生的異常情況,並進行適當的干預,因而對學生的培養、管理工作將會起到極其重要的作用。從某高校的某個學院隨機抽取一定比例學生,提供這些學生在三個學期的圖書館進出記錄、一卡通消費記錄、圖書館借閱記錄、以及綜合成績的相對排名。這一部分數據將作爲訓練數據。我們從另外的某學院隨機抽取一定比例的學生,然後提供他們在三個學期的圖書館進出記錄、一卡通消費記錄、圖書借閱記錄、以及前兩個學期的成績排名。

        希望通過藉助大數據相關的挖掘技術和基礎算法,預測第三學期的成績排名。

2.12 網約車出行流量預測

        在出行問題上,中國市場人數多、人口密度大,總體的出行頻率遠高於其他國家,這種情況在大城市尤爲明顯。然而,截止目前中國擁有汽車的人口只有不到10%,這也意味着在中國人們的出行更加依賴於出租車、公共交通等市場提供的服務。另一方面,滴滴出行佔領了國內絕大部分的網絡呼叫出行市場,面對着巨大的數據量以及與日俱增的數據處理需求。截止目前,滴滴出行平臺每日需處理1100萬訂單,需要分析的數據量達到50TB,路徑規劃服務請求超過90億。面對如此龐雜的數據,我們需要通過不斷升級、完善與創新背後的雲計算與大數據技術,從而保證數據分析及相關應用的穩定,實現高頻出行下的運力均衡。供需預測就是其中的一個關鍵問題。供需預測的目標是準確預測出給定地理區域在未來某個時間段的出行需求量及需求滿足量。調研發現,同一地區不同時間段的訂單密度是不一樣的,例如大型居住區在早高峯時段的出行需求比較旺盛,而商務區則在晚高峯時段的出行需求比較旺盛。

        希望能預測到在未來的一段時間內某些地區的出行需求量比較大,以提前對營運車輛提供一些引導,指向性地提高部分地區的運力,從而提升乘客的整體出行體驗。

2.13 紅酒品質評分

        紅酒口感的好壞,受很多因素的影響,例如年份、產地、氣候、釀造的工藝等等。通過一些化學屬性特徵就能夠很好地判斷紅酒的品質。通過監測紅酒中化學成分的含量,可以控制紅酒的品質和口感。

        希望基於紅酒的化學特性,例如酸性、含糖量、氯化物含量、硫含量、酒精度、PH值、密度等,構建機器學習模型,對紅酒品質進行評分。

2.14搜索引擎的搜索量和股價波動

        上市公司在互聯網中搜索量的變化,會顯著影響公司股價的波動和趨勢,即所謂的投資者注意力理論。該理論認爲,公司在搜索引擎中的搜索量,代表了該股票被投資者關注的程度。因此,當一隻股票的搜索頻數增加時,說明投資者對該股票的關注度提升,從而使得該股票更容易被個人投資者購買,進一步地導致股票價格上升,帶來正向的股票收益。

2.15 中國人口增長分析

        中國從1971年開始全面開展了計劃生育,使中國總和生育率很快從1970年的5.8降到1980年2.24,接近世代更替水平。此後,人口自然增長率很大程度上與經濟的發展等各方面的因素相聯繫,與經濟生活息息相關。影響中國人口自然增長率的因素有很多,如經濟整體增長、居民消費水平、文化程度、人口分佈,以及非農業與農業人口的比率等。

        希望通過歷史數據分析,對未來人口增長率進行預測。

2.16 農村居民收入增長預測

         “三農”問題的核心是農村居民收入問題。改革開放以來,農村經濟蓬勃發展,農村居民收入有了較大幅度的增長,但與城鎮居民的收入相比,卻表現出增長緩慢、差距越來越大的趨勢。

        希望對影響我國農村居民收入的因素進行分析,再運用實證方法對農民的經濟統計數據進行分析,得到了影響農村居民純收入的模型。爲預測農村居民的收入增長趨勢提供工具,爲農村地區的政策措施提供參考建議。

2.17 房地產銷售影響因素分析

        改革開放以來,我國的經濟突飛猛進對城市商品房的價格產生了巨大影響,特別是進入21世紀後,伴隨着商品房價格日益增長,出現了房地產投資過熱。在這種房價居高不下的形勢下,國內外諸多專家學者認爲我國的房地產市場已經出現價格泡沫,在房地產業對我國國民經濟發展起着積極作用的大環境下,這種價格泡沫勢必會對我國的經濟發展造成重大影響。

        年人均收入、新增住房面積及上一年商品房價格等因素對房地產銷售有影響,期望利用歷史數據分析測度其對商品房價格的影響,找出了引起房地產價格波動的主要因素當年年人均收入,根據實證結論提出了控制房價的建議。

2.18 股價走勢預測

        隨着經濟社會的發展,以及人們投資意識的增強,人們越來越多的參與到股票市場的經濟活動中,股票投資也已經成爲人們生活的一個重要組成部分。然而在股票市場中,衆多的指標、衆多的信息,很難找出對股價更爲關鍵的因素;其次股市結構極爲複雜,影響因素具有多樣性、相關性。這導致了很難找出股市內在的模式。

        希望在儘可能全面的收集股市信息的基礎上,建立股價預測模。

2.19 全國綜合運輸總量預測

        以全國同期國民經濟主要產品產量,如原煤、原油、生鐵、鋼材、水泥、木材、糧食的歷史數據,建立數據挖掘模型,對全國綜合運輸總運量進行預測。

2.20 地震預報

        根據歷史全球大地震的時空圖,找出與中國大陸大地震有關的14個相關區,對這些相關區逐一鑑別,選取較優的9個,再根據這9個相關區發生的大震來預測中國大陸在未來一年內會不會有大震發生。

3聚類算法應用場景實例

3.1 基於用戶位置信息的商業選址

        隨着信息技術的快速發展,移動設備和移動互聯網已經普及到千家萬戶。在用戶使用移動網絡時,會自然的留下用戶的位置信息。隨着近年來GIS地理信息技術的不斷完善普及,結合用戶位置和GIS地理信息將帶來創新應用。如百度與萬達進行合作,通過定位用戶的位置,結合萬達的商戶信息,向用戶推送位置營銷服務,提升商戶效益。

希望通過大量移動設備用戶的位置信息,爲某連鎖餐飲機構提供新店選址。

3.2 中文地址標準化處理

        地址是一個涵蓋豐富信息的變量,但長期以來由於中文處理的複雜性、國內中文地址命名的不規範性,使地址中蘊含的豐富信息不能被深度分析挖掘。通過對地址進行標準化的處理,使基於地址的多維度量化挖掘分析成爲可能,爲不同場景模式下的電子商務應用挖掘提供了更加豐富的方法和手段,因此具有重要的現實意義。

3.3 國家電網用戶畫像

        隨着電力體制改革向縱深推進,售電側逐步向社會資本放開,當下的粗放式經營和統一式客戶服務內容及模式,難以應對日益增長的個性化、精準化客戶服務體驗要求。如何充分利用現有數據資源,深入挖掘客戶潛在需求,改善供電服務質量,增強客戶黏性,對公司未來發展至關重要。

        對電力服務具有較強敏感度的客戶對於電費計量、供電質量、電力營銷等各方面服務的質量及方式上往往具備更高的要求,成爲各級電力公司關注的重點客戶。經過多年的發展與沉澱,目前國家電網積累了全網4億多客戶檔案數據和海量供電服務信息,以及公司營銷、電網生產等數據,可以有效的支撐海量電力數據分析。

        因此,國家電網公司希望通過大數據分析技術,科學的開展電力敏感客戶分析,以準確地識別敏感客戶,並量化敏感程度,進而支撐有針對性的精細化客戶服務策略,控制電力服務人工成本、提升企業公衆形象。

3.4 非人惡意流量識別

        2016年第一季度Facebook發文稱,其Atlas DSP平臺半年的流量質量測試結果顯示,由機器人模擬和黑IP等手段導致的非人惡意流量高達75% . 僅2016上半年,AdMaster反作弊解決方案認定平均每天能有高達 28% 的作弊流量。低質量虛假流量的問題一直存在,這也是過去十年間數字營銷行業一直在博弈的問題。基於AdMaster海量監測數據,50%以上的項目均存在作弊嫌疑;不同項目中,作弊流量佔廣告投放5%到95%不等;其中垂直類和網盟類媒體的作弊流量佔比最高;PC端作弊流量比例顯著高於移動端和智能電視平臺。廣告監測行爲數據被越來越多地用於建模和做決策,例如繪製用戶畫像,跨設備識別對應用戶等。作弊行爲,惡意曝光,網絡爬蟲,誤導點擊,甚至是在用戶完全無感知的情況下被控制訪問等產生的不由用戶主觀發出的行爲給數據帶來了巨大的噪聲,給模型訓練造成了很大影響。

        希望基於給定的數據,建立一個模型來識別和標記作弊流量,去除數據的噪聲,從而更好的使用數據,使得廣告主的利益最大化。

3.5 求職信息完善

        有大約10萬分優質簡歷,其中部分簡歷包含完整的字段,部分簡歷在學歷、公司規模、薪水、職位名稱等字段有些置空項。希望對數據進行學習、編碼與測試,挖掘出職位路徑的走向與規律,形成算法模型,再對數據中置空的信息進行預測。

3.6 搜索引擎查詢聚類以進行流量推薦

        在搜索引擎中, 很多網民的查詢意圖的比較類似的,對這些查詢進行聚類,一方面可以使用類內部的詞進行關鍵詞推薦;另一方面, 如果聚類過程實現自動化,則也有助於新話題的發現;同時還有助於減少存儲空間等。

3.7 生物種羣固有結構認知

        對動植物分類和對基因進行分類,獲取對種羣固有結構的認識。

3.8 保險投保者分組

        通過一個高的平均消費來鑑定汽車保險單持有者的分組,同時根據住宅類型,價值,地理位置來鑑定一個城市的房產分組。

3.9 網站關鍵詞來源聚類整和

        以領域特徵明顯的詞和短語作爲聚類對象,在分類系統的大規模層級分類語料庫中,利用文本分類的特徵提取算法進行詞語的領域聚類,通過控制詞語頻率的影響,分別獲取領域通用詞和領域專類詞。

3.10 圖像分割

        圖像分割廣泛應用於醫學、交通、軍事等領域。圖像分割就是把圖像分成若干個特定的、具有獨特性質的區域並提出感興趣目標的技術和過程。它是由圖像處理到圖像分析的關鍵步驟。聚類算法先將圖像空間中的像素用對應的特徵空間點表示,根據它們在特徵空間的聚集對特徵空間進行分割,然後將它們映射回原圖像空間,得到分割結果。

4關聯規則應用場景實例

4.1 穿衣搭配推薦

        穿衣搭配是服飾鞋包導購中非常重要的課題,基於搭配專家和達人生成的搭配組合數據,百萬級別的商品的文本和圖像數據,以及用戶的行爲數據。期待能從以上行爲、文本和圖像數據中挖掘穿衣搭配模型,爲用戶提供個性化、優質的、專業的穿衣搭配方案,預測給定商品的搭配商品集合。

4.2 互聯網情緒指標和生豬價格的關聯關係挖掘和預測

        生豬是畜牧業的第一大產業,其價格波動的社會反響非常敏感。生豬價格變動的主要原因在於受市場供求關係的影響。然而專家和媒體對於生豬市場前景的判斷、疫情的報道,是否會對養殖戶和消費者的情緒有所影響?情緒上的變化是否會對這些人羣的行爲產生一定影響,從而影響生豬市場的供求關係?互聯網作爲網民發聲的第一平臺,在網民情緒的捕捉上具有天然的優勢。本次賽題希望參賽者可以基於海量提供的數據,挖掘出互聯網情緒指標與生豬價格之間的關聯關係,從而形成基於互聯網數據的生豬價格預測模型,挖掘互聯網情緒指標與生豬價格之間的關聯關係和預測。

4.3 依據用戶軌跡的商戶精準營銷

        隨着用戶訪問移動互聯網的與日俱增,隨着移動終端的大力發展,越來越多的用戶選擇使用移動終端訪問網絡,根據用戶訪問網絡偏好,也形成了相當豐富的用戶網絡標籤和畫像等。如何根據用戶的畫像對用戶進行精準營銷成爲了很多互聯網和非互聯網企業的新發展方向。如何利用已有的用戶畫像對用戶進行分類,並針對不同分類進行業務推薦,特別是在用戶身處特定的地點、商戶,如何根據用戶畫像進行商戶和用戶的匹配,並將相應的優惠和廣告信息通過不同渠道進行推送。

        希望根據商戶位置及分類數據、用戶標籤畫像數據提取用戶標籤和商戶分類的關聯關係,然後根據用戶在某一段時間內的位置數據,判斷用戶進入該商戶地位範圍300米內,則對用戶推送符合該用戶畫像的商戶位置和其他優惠信息。

4.4 地點推薦系統

        隨着移動社交網路的興起,用戶的移動數據得到了大量的累積,使得這些移動數據能夠基於地點推薦技術幫助人們熟悉周遭環境,提升地點的影響力等。

        希望利用用戶的簽到記錄和地點的位置、類別等信息,爲每個用戶推薦50個感興趣的地點。

4.5 氣象關聯分析

        在社會經濟生活中,不少行業,如農業、交通業、建築業、旅遊業、銷售業、保險業等,無一例外與天氣的變化息息相關。隨着各行各業對氣象信息的需求越來越大,社會各方對氣象數據服務的個性化和精細化要求也在不斷提升,如何開發氣象數據在不同領域的應用,更好的支持大衆創業、萬衆創新,服務民計民生,是氣象大數據面臨的迫切需求。 

        爲了更深入地挖掘氣象資源的價值,希望基於共計60年的中國地面歷史氣象數據,推動氣象數據與其他各行各業數據的有效結合,尋求氣象要素之間、以及氣象與其它事物之間的相互關係,讓氣象數據發揮更多元化的價值。

4.6 交通事故成因分析

        隨着時代發展,便捷交通對社會產生巨大貢獻的同時,各類交通事故也嚴重地影響了人們生命財產安全和社會經濟發展。爲了更深入挖掘交通事故的潛在誘因,帶動公衆關注交通安全,貴陽市交通管理局開放交通事故數據及多維度參考數據,希望通過對事故類型、事故人員、事故車輛、事故天氣、駕照信息、駕駛人員犯罪記錄數據以及其他和交通事故有關的數據進行深度挖掘,形成交通事故成因分析方案。

4.7 基於興趣的實時新聞推薦

        隨着近年來互聯網的飛速發展,個性化推薦已成爲各大主流網站的一項必不可少服務。提供各類新聞的門戶網站是互聯網上的傳統服務,但是與當今蓬勃發展的電子商務網站相比,新聞的個性化推薦服務水平仍存在較大差距。一個互聯網用戶可能不會在線購物,但是絕大部分的互聯網用戶都會在線閱讀新聞。因此資訊類網站的用戶覆蓋面更廣,如果能夠更好的挖掘用戶的潛在興趣並進行相應的新聞推薦,就能夠產生更大的社會和經濟價值。初步研究發現,同一個用戶瀏覽的不同新聞的內容之間會存在一定的相似性和關聯,物理世界完全不相關的用戶也有可能擁有類似的新聞瀏覽興趣。此外,用戶瀏覽新聞的興趣也會隨着時間變化,這給推薦系統帶來了新的機會和挑戰。

        因此,希望通過對帶有時間標記的用戶瀏覽行爲和新聞文本內容進行分析,挖掘用戶的新聞瀏覽模式和變化規律,設計及時準確的推薦系統預測用戶未來可能感興趣的新聞。

4.8 銀行金融客戶交叉銷售分析

        某商業銀行試圖通過對個人客戶購買本銀行金融產品的數據進行分析,從而發現交叉銷售的機會。

4.9 電子商務搭配購買推薦

        電子購物網站使用關聯規則中規則進行挖掘,然後設置用戶有意要一起購買的捆綁包。也有一些購物網站使用它們設置相應的交叉銷售,也就是購買某種商品的顧客會看到相關的另外一種商品的廣告。

4.10 銀行營銷方案推薦

        關聯規則挖掘技術已經被廣泛應用在金融行業企業中,它可以成功預測銀行客戶需求。一旦獲得了這些信息,銀行就可以改善自身營銷。如各銀行在自己的ATM機上就捆綁了顧客可能感興趣的本行產品信息,供使用本行ATM機的用戶瞭解。如果數據庫中顯示,某個高信用限額的客戶更換了地址,這個客戶很有可能新近購買了一棟更大的住宅,因此會有可能需要更高信用限額,更高端的新信用卡,或者需要一個住房改善貸款,這些產品都可以通過信用卡賬單郵寄給客戶。當客戶打電話諮詢的時候,數據庫可以有力地幫助電話銷售代表。銷售代表的電腦屏幕上可以顯示出客戶的特點,同時也可以顯示出顧客會對什麼產品感興趣。

參考文檔:https://blog.csdn.net/liulingyuan6/article/details/53648273
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章