原创 R語言做文本挖掘:基於網購評論提煉電熱水器的差異化賣點

這是我參加一個數據挖掘競賽的作品,這是代碼部分,論文正文並沒有貼出來。 水平一般般,很多還可以改進的地方。 不過辛辛苦苦做出來的東西,多少還是有些地方可以借鑑的,貼出來大家共同探討下。 #讀入數據 guomei = read.csv("C

原创 Rcurl小應用,爬取京東評論

利用Rcurl包做的一個小爬蟲,爬取了京東上電熱水器的評論 <span style="font-family: Arial, Helvetica, sans-serif;">#利用Rcurl抓取京東頁面上電熱水器的評論</span>lib

原创 R語言:初試logitstic

#用數據集iris,鳶尾花的例子來說明 data(iris) head(iris) Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1

原创 R語言:k近鄰

head(iris)##該數據集都是連續變量的 #數據標準化處理 normalize = function(x){ (x-min(x))/(max(x)-min(x)) } iris_norm = as.data.frame(lap

原创 MySQL聯合索引

聯合索引:建立在同一個表多個上的索引,可以包含char和varchar列的前綴作爲所以的一部分。 聯合索引的列的順序非常重要:利用索引中的附加列,您可以縮小搜索的範圍,但使用一個具有兩列的索引 不同於使用兩個單獨的索引。複合索引的結構與電

原创 R語言做時間序列(未完)

我學的時間序列課程,實驗課都是在sas做的,一直想用R把大概的思路捋順一下,所以這篇東西並沒有給出很多的程序結果,更多地設計做時間序列的思路 #產生時間序列數據 #產生規則的時間序列,frequency

原创 R語言:關聯規則(apriori)

本文數據是來自datacastle網站上的一道競賽題,是基於關聯規則進行商品推薦之類的題目 數據集中還包含了對商品的評分和購買時間兩個額外變量,下面這篇文章並沒有使用到這一個變量, 特別是對商品的評分這個變量,包含了很多有用的信息。 所以

原创 R語言:詞雲圖

這是當時在琢磨文本挖掘時的小技術,貼出來共享一下 library(Rwordseg) #分詞的包 #導入數據 data = read.csv("C:\\Users\\hormy\\Documents\\諮詢數據.csv",string