原创 規則學習算法

規則學習(獨立而治之) 決策樹會給任務帶來一組特定的偏差,而規則學習可通過直接識別規則而避免偏差。規則學習通常應用於以名義特徵爲主或全部是名義特徵的問題,規則學習擅長識別偶發事件,即使偶發事件只是因爲特徵之間非常特殊的相互作用才發生的 決

原创 R語言中的代碼運算性能提升

時間與空間的權衡,爲了讓程序更快運行可能需要更多的內存空間,另一方面爲節省內存或許需編寫運行速度稍慢的代碼。一個R會話中的所有對象都保存在內存中,即R的內存地址空間中,R語言已可以支持2^31字節以上的向量 1.通過向量化的方式優化R代碼

原创 詞向量與句向量概述

比較常見的詞向量表示方式:glove、fasttext、wordRank、tfidf-BOW、word2vec 詞向量一般看作是文檔特徵,不同詞向量有不同用法,主要有四類詞向量:1.hash算法及衍生;2.BOW算法延伸;3.word2v

原创 IV及WOE值詳解-附R源碼實現

1.IV值用途 IV全稱Information Value即信息價值或信息量。在用邏輯迴歸、決策樹等模型方法構建分類模型時,經常需要對自變量進行篩選。比如有200個候選自變量,通常情況下不會直接把200個變量直接放到模型中去進行擬合訓練,

原创 R重寫mahout中user-based協同過濾算法-註釋篇

聲明:本篇是基於張丹《R的極客思想》書本中的內容,但張丹在代碼中並未添加過多註釋,本人最近在研究推薦系統,並將張丹的代碼做了一些改動和詳細註釋貼上來供大家學習交流 #user-based 協同過濾推薦,3個近鄰,2個推薦結果 #1.構建

原创 熵值法解析-附R代碼

 熵的概念源於熱力學,是對系統狀態不確定性的一種度量。在信息論中,信息是系統有序程度的一種度量,而熵是系統無序程度的一種度量,兩者絕對值相等,但符號相反。根據此性質可利用評價中各方案的固有信息,通過熵值法得到各個指標信息熵,熵值越小-無序

原创 協同過濾-Collaborative filtering

一、協同過濾 協同過濾一般是在海量用戶中發掘出一部分與目標用戶特徵比較類似的,在協同過濾中,這些用戶與目標用戶成爲鄰居,然後依據他們喜歡的其他東西組織成一個排序的目錄推薦給目標用戶 協同過濾要考慮:1.如何確定一個用戶和目標用戶相似;2.

原创 今日頭條的個性化推薦

一、今日頭條個性化推薦流程 服務器1000臺,代碼實現爬蟲功能,在其他傳媒網站和門戶上抓取各種信息,如果在網站上抓取到紙媒內容,則優先從紙媒門戶上抓取信息;抓取信息後,對有價值信息進行分析歸類;推送到有感興趣的頭條客戶端;用戶註冊或登錄時

原创 美團推薦算法實踐

互聯網的深入發展產生了嚴重的信息過載,如果不採取一定手段,用戶很難從如此多的信息流中找到對自己有價值的信息。解決信息過載:1.搜索,用戶有明確的信息需求意圖,將意圖轉換成幾個簡短的詞或詞語的組合(query)-提交給搜索引擎-海量信息庫檢

原创 XPath表達式

XPath表達式是查詢標記語言的方法(是選取XML或HTML中節點node的方法,節點通常是指XML/HTML中元素),XPath通過路徑表達式(Path Expression)來選擇節點信息,跟文件系統路徑一樣用/符號來分割路徑 同一個

原创 HTML基礎

網絡前端最核心三大技術HTML、CSS、JavaScript。HTML全稱超文本標記語言(hyper text Markup language)是一種在網頁上展示內容的語言(非編程語言,是一種描述內容並定義其表徵的標記語言)。HTML是樹

原创 XML基礎

XML(extensible Markup Language)全稱可擴展標記語言,首先它與HTML一樣是標記語言,那就具有標記語言全部特徵。同時XML是被設計用來傳輸與存儲數據,這和HTML用來顯示數據大不一樣,所以XML又有網絡數據交換

原创 URL編碼、解碼

url標準中只允許一部分ASCII字符,如英文字母、數字字符、部分符號等。其他字符如-*漢字等,應被編碼爲%+兩位的十六進制表示,任何單字節字符都可被編碼(多字節是逐字節編碼)。保留字符(! $ & ' ( ) * + , ; = : /

原创 HTTPS加密原理

1.HTTPS對稱加密 服務器每次發送真實數據前,會先生成一把密鑰傳輸(以明文方式傳輸密鑰容易被劫持)給客戶端,服務器給客戶端發送的真實數據會先用這把密鑰進行加密,客戶端收到加密數據後再用密鑰進行解密(客戶端給服務器發送數據同理) 2.

原创 模型評估方法-K-S值

風控模型中計算K-S值方法: K-S值主要驗證風控模型對違約對象的區分能力,通常是在風控模型預測完全體樣本的風控評分後,將全體樣本按是否違約分爲兩部分,然後用K-S值檢驗兩組樣本的風控評分是否有顯著差異 將全體樣本按風控評分從低到高排序均