原创 各種聚類算法的系統介紹和比較

最近項目用到聚類算法,將其系統的總結一下。 一、簡要介紹 1、聚類概念 聚類就是按照某個特定標準(如距離準則)把一個數據集分割成不同的類或簇,使得同一個簇內的數據對象的相似性儘可能大,同時不在同一個簇中的數據對象的差異性也儘可能地

原创 R語言利用igraph和networkD3包快速入門做出炫酷的社交網絡圖等幾類圖。

1、igraph包繪製社交關係圖(也有叫知識圖譜的)  繪圖的快速入門技巧是三步:1、看數據源和數據類型,這個一定要弄清楚。2、掌握基本的繪圖函數或者直接借用別人的代碼,加上第一步對數據源的瞭解,很容易繪製漂亮圖形。3、通過閱讀官方文

原创 Python利用selenium模擬瀏覽器抓取異步加載等難爬頁面信息

Python利用selenium模擬瀏覽器抓取異步加載等難爬頁面信息 背景 已在我之前的文章《 R語言利用RSelenium包或者Rwebdriver模擬瀏覽器爬取異步加載等難爬取的網頁信息》中提過了http://blog.c

原创 Hive分區表新增字段後用MR查詢爲null的bug及解決方法

1、問題描述 最近工作需要,需對近兩個月hive分區表增加新的字段(公司平臺,hive版本2.*), 利用alter table table_name add columns (col_name string ) 新增字段後,向已

原创 向CDH集羣增加虛擬機節點平衡數據操作

注:前提是已經有了新的虛擬機節點和安裝了相應的cdh,修改主機名,ip,mac等操作自行百度哈。本文只對已經安裝好cdh的虛擬機節點加入集羣平衡數據操作。 1、查看虛擬機 virsh list -all 2、修改虛擬機的配置(CPU、內

原创 scala入門學習(5)函數和閉包

一、函數 1、函數的聲明定義和調研 函數是一組一起執行一個任務的語句。 Scala 有函數和方法,二者在語義上的區別很小。Scala 方法是類的一部分,而函數是一個對象可以賦值給一個變量。換句話來說在類中定義的函數即是方法。 我們可以在

原创 hive執行語句優化

一、類SQL語句優化 1、跟SQL基本一致的優化原則 1.1 儘量原子化操作 儘量避免一個SQL包含複雜邏輯,可以使用中間表來完成複雜的邏輯。 1.2 儘量儘早地過濾數據 儘量先where篩選後再join,減少每個階段的數據量,對於分區表

原创 機器學習中的範數規則化L0、L1與L2範數

機器學習中的範數規則化L0、L1與L2範數 [email protected] http://blog.csdn.net/zouxy09          今天我們聊聊機器學習中出現的非常頻繁的問題:過擬合與規則化。我們先簡單的來理解下常用的

原创 利用R語言爬取安居客中經紀人數據,並將結果導入msql數據庫

1、背景 工作需要,需要獲取安居客房地產相關數據;本文直接附上代碼和註釋。本文沒有采用瀏覽器模擬抓取(參考之前文章),因爲頁面沒那麼複雜,不需要刻意用瀏覽器,並且用瀏覽器會降低速度。 2、代碼 setwd('E:/study/code/R

原创 深度學習常見算法的介紹和比較

很多人都有誤解,以爲深度學習比機器學習先進。其實深度學習是機器學習的一個分支。可以理解爲具有多層結構的模型。具體的話,深度學習是機器學習中的具有深層結構的神經網絡算法,即機器學習>神經網絡算法>深度神經網絡(深度學習)。 關於深度學習的

原创 利用Python爬取安居客中小區數據,並將結果導入msql數據庫

1、背景 工作需要,需要獲取安居客房地產相關數據;之前用的R語言爬取經紀人數據,沒有采用瀏覽器模擬抓取。本文使用Python採用瀏覽器模擬抓取,相應包的安裝都不難,不敘述,直接附上代碼。 2、代碼 from selenium import

原创 python導數據到mysql報錯OperationalError: (2013, 'Lost connection to MySQL server during query')

一、問題描述 用密碼都是可以連接的。之前也是可以連接mysql,突然在大數據量的操作時就報錯了。 這個原因很難說,我的原因是協議優先級的問題,也是數據大的問題。 二、解決方法 打開cmd,輸入ping localhost 顯

原创 python導數據到mysql報錯OperationalError: (2006, 'MySQL server has gone away')

報錯內容: OperationalError: (2006, ‘MySQL server has gone away’) 報錯原因:導入的數據超過單次的默認量。即超過 max_allowed_packet。參數值 解決辦法:1、修改語句

原创 scala入門學習(4)列表List-集合Set-映射Map等

一、列表List 1、List類型定義及List的特點 Scala 列表類似於數組,它們所有元素的類型都相同,但是它們也有所不同:列表是不可變的,值一旦被定義了就不能改變,其次列表 具有遞歸的結構(也就是鏈接表結構)而數組不是。 //字符

原创 linux下python安裝(Anaconda)和ipython遠程服務器鏈接配置

基本安裝步驟: 1、下載軟件 wget https://repo.continuum.io/archive/Anaconda3-5.0.1-Linux-x86_64.sh 2、安裝,一直enter 或者yes 即可。 bash Ana