原创 WebMagic Java 爬蟲的簡單應用

前段時間做旅遊本體的知識庫,我和老師反應說景點之間關係太少了,導致整個圖很稀疏。。 “你去wiki上抓一批數據吧”,就這樣被自己坑了。 由於一直在用java做項目,ZWQ師兄推薦的是selenium,這個我想說真的很強大,還支持JS渲染,

原创 天池大數據競賽——UI特徵統計

明明是移動推薦算法,非要搞成二分類問題。。 機器學習什麼的不太懂,什麼訓練集測試集驗證集,什麼交叉驗證,什麼LR SVM,什麼weka之類的,不管了。。 大神學姐說主要還是在找特徵,模型什麼的不是很重要。我這邊着的主要是U-I關係的一些比

原创 D2P:Distance-Based Differential Privacy in Recommenders

推薦系統中基於距離的差分隱私保護。 這篇文章來自VLDB2015點擊打開鏈接 差分隱私是Dwork在2006年針對統計數據庫的隱私泄露問題提出的一種新的隱私定義 . 在此定義下,對數據集的計算處理結果對於具體某個記錄的變化是不敏感的,單個

原创 Quora cqa問題抓取

quora是一個比較知名的社區問答網站,對於目前比較流行的cqa問題,通過quora提供的搜索工具來找到相似的問題進而抽取答案。 事實上,quora的搜索大致是根據關鍵詞匹配的。 String s=HttpRequest.sendGe

原创 Jersey+EclipseJavaEE+Apache-Tomcat8 開發Rest服務

一、前期準備: 1.瞭解Rest 2.相關工具下載 Jersey https://jersey.java.net/ 由於版本問題,我使用的是1.19 二、搭建 1.創建動態Web工程jerseyTest 2.編輯編譯環境,將jersey的

原创 java代碼中執行shell或調用系統命令

package com.fssqawj; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; pub

原创 PPTV數據按照小類別分類

PPTV數據格式描述: plt int 產品線,取值101,102,103,104,110,111,分別表示ipad,iphone,apad,aphone,windows客戶端,網站 u

原创 歡迎使用CSDN-markdown編輯器

歡迎使用Markdown編輯器寫博客 本Markdown編輯器使用StackEdit修改而來,用它寫博客,將會帶來全新的體驗哦: Markdown和擴展Markdown簡潔的語法 代碼塊高亮 圖片鏈接和圖片上傳 LaTex數學公式 UM

原创 同義詞詞林圖轉樹

HIT同義詞此林的上下位詞關係不是樹狀結構,從圖轉到樹型結構 算法: 1.察看word是否有下爲詞,得到下位詞childlist 2.若第一步childlist爲空,在entity表中查找該概念對應的實體,否則對於childlist中的每

原创 jena SPARQL查詢的簡單應用

一個個簡單的三元組,繁雜的世界,二進制的憂傷誰能懂.. 接上篇應用OWL API旅遊數據本體的建立,接下來就是從這個本體數據庫裏查詢需要的內容 SPARQL的全部基礎就是這個簡單的概念:嘗試去找到能夠匹配一個給定圖模式的那些三元組集合。他

原创 複雜度計算

在1~n中,能被2整除的有n/2個,能被3整除的有n/3個,…… 則該算法的複雜度可這樣計算: O(n)=n/2×1+n/3×2+n/5×3+n/7×4+…… //即O(n)~n×φ(n) 考慮到6這個數,它既是2的倍數,也是3倍數,因此

原创 apache下設置緩存方法詳細介紹

apache下設置緩存方法詳細介紹 在apache中是支持一個mod_cache模板的,只有打開mod_cache模塊之後我們纔可以使用apache緩存,mod_cache開啓後可使用兩種緩存方式,一種是基於硬盤文件的緩存(mod_

原创 阿里天池特徵統計工作

用御膳房的大數據處理平臺提供的Sql處理 我負責統計的特徵: 用戶id,總點擊量,總收藏量,總添加購物車量,總購買量,用戶活躍天數/抽樣時間長度,發生購買天數/抽樣時間長度,總點擊量/總購買,總收藏/總購買,總購物車/總購買,發生購買天數

原创 OWL API 簡單應用 構建領域本體 —— 以旅遊數據爲例

等我學會了RDF和OWL,我就可以把你放到數據庫了。。。 如果不瞭解什麼是OWL 請戳這裏點擊打開鏈接 protege是構建領域本體的一個重要工具,他由standford開發,基於Java語言開發的本體編輯和知識獲取軟件,或者說是本體開發

原创 EOJ 1120 Peg Game

Peg Game Time Limit:1000MSMemory Limit:30000KBTotal Submit:224Accepted:86Special Judge Description You are given a 7-