原创 tensorflow serving目錄解讀

tf_serving-----WORKSPACE          |          -----tensorflow-serving/----BUILD          |                      |       

原创 HDFS元數據管理

NameNode將文件系統的元數據以不同的文件保存在本地磁盤中,其中最重要的兩個文件是fsimage和edits。fsimage包含文件系統元數據的完整快照,而edits僅包含元數據的增量修改。NameNode啓動後,直接加載fsimage

原创 Hadoop集羣硬件配置

【小集羣】---少於20個工作節點的集羣雙路四核 2.6GHz CPU*1DDR3內存 24G雙千兆以太網網卡SAS驅動器控制器SATA II驅動器的JBOD配置*2【中等規模集羣】---300個節點內存 48G【大型集羣】內存 96G【N

原创 mac環境下Rwordseg和rJava的安裝

首先在安裝Rwordseg之前必須先安裝rJava:install.packages("rJava")試開URL’http://cran.rstudio.com/bin/macosx/mavericks/contrib/3.1/rJava_

原创 tensorboard可視化遇到的問題

由於 TensorFlow版本差異,經常會報模塊對象沒有某屬性的錯誤,先把tensorboard可視化過程遇到的幾個報錯解決方案記錄如下:1. AttributeError: 'module' object has no attribute

原创 機器學習筆記(1)

今天按照《機器學習實戰》學習 k-鄰近算法,輸入KNN.classify0([0,0],group,labels,3)的時候總是報如下的錯誤:Traceback (most recent call last):  File "<pyshel

原创 Hadoop內核調整

【vm.swappiness】設置爲0,指示內核不交換應用數據到磁盤。如果磁盤正在執行其他I/O操作,將Hadoop守護進程的數據交換到磁盤可能導致操作超時從而有可能失敗。對於HBase來說,由於HBase的Server必須保持與ZooKe

原创 RStudio安裝caret報錯修復過程

版本信息:RStudio-0.99.902R 3.2.2install.packages('caret', dep = TRUE)報錯信息如下:載入需要的程輯包:lattice載入需要的程輯包:ggplot2Error : 'namespa

原创 以German信用數據爲例的logistics regression算法在評分卡上的實踐

以德國信用數據爲例,用logistict regression算法做信用評分卡原理性實現,因此並未考慮feature selection.第一步:導入必要的庫import pandas as pd import numpy as np fr

原创 C4.5算法

【適用範圍】        處理分類問題,只要目標問題的類間邊界能用樹型分解方式或規則判別方式來確定,就可以使用C4.5算法【屬性】       監督學習【基本思想】        給定數據集,所有實例都由一組屬性來描述,每個實例僅屬於一個

原创 windows下安裝rpy2(Python3.4.4)

爲了在Python下調用R,需要安裝rpy2包。正常以pip install rpy2和easy_install rpy2均報錯。最後在網站http://www.lfd.uci.edu/~gohlke/pythonlibs/下載適合自己系統

原创 HDFS設計理念

HDFS是用戶空間文件系統,不像ext3文件系統需要掛載,只用應用程序顯式地編譯它即可集羣中的各個主機只存儲文件系統的一個數據子集,當需要存儲更多數據塊時,只需要添加更多掛載了多個物理磁盤的主機即可實現。文件系統的元數據存儲在中央服務器中,

原创 HDFS讀寫流程

數據讀取流程:客戶端訪問NameNode,告知需要讀取的文件客戶身份確認通過信任的客戶端。由其指定用戶名通過諸如kerberos等強制認證機制完成檢查文件的所有者及其設定的訪問權限,如果文件確實存在,而且用戶對這個有訪問權限。NameNod

原创 工作節點配置

【中檔配置】CPU2*6 Core 2.9GHz/15MB cache內存64GB DDR3-1600 ECC磁盤控制器 SAS 6GB/s磁盤12*3TB LFF SATA II 7200 RPM網絡控制器2*1GB Ethernet其他