原创 java連接數據庫的一個問題
用java連接遠程數據連不上,報端口問題。解決方法如下: 1:用netstat -ano 查看1433端口是否打開。 2:用telnet 192.168.44.168 1433查看對方端口是否可以連通 3:如果不能連通,則關閉防火牆
原创 Mahout文本聚類實例
1:下載路透社數據 數據集下載地址:http://www.daviddlewis.com/resources/testcollections/reuters21578/ 2:提取文本內容 下載的文件數據格式是SGML格式,這種格
原创 mahout測試naive Bayes算法
根據mahout in action中的14.6章節做的測試,記錄如下: 1:將20news-bydate-train和20news-bydata-test中的每個目錄中的數據轉換爲以目錄名稱開始的包含所有單詞的簡單文本文件,使用的mah
原创 個性化智能推薦技術研究總結
文章轉載自:http://blog.csdn.net/zolalad/article/details/16344183 個性化智能推薦技術研究總結 隨着網絡與信息技術的飛速發展,互聯網爲用戶提供越來越多的信息和服務,用戶在得
原创 Hadoop上控制Map的數量
很多文檔中描述,Mapper的數量在默認情況下不可直接控制干預,因爲Mapper的數量由輸入的大小和個數決定。在默認情況下,最終input佔據了多少block,就應該啓動多少個Mapper。如果輸入的文件數量巨大,但是每個文件的size都
原创 Java數據緩存實現的核心機制
在大數據量訪問讀取中,數據緩存是最普遍採用的解決方案之一,但在讀過很多代碼的緩存實現,代碼可圈可點的彈性都很大,在一併發數不多時,功能是完全沒有問題的,但是對大數量的多併發操作上就有些差強人意了。以下爲集數家之長實現的數據緩存核心機制代碼
原创 Hbase安裝配置
文章來源:http://blog.csdn.net/hguisu/article/details/7244413 hbase安裝配置(整合到hadoop) Huangguisu 1.快速單機安裝: 在單機安裝Hbase的方法。會引導你通
原创 大型互聯網站解決海量數據的常見策略
文章來源:http://www.javabloger.com/article/big-data-architecture.html 大型互聯網站的數據存儲與傳統存儲環境相比不僅是一個服務器、一個數據庫那麼簡單,而是由網絡設備、存儲設備
原创 hadoop heartbeat分析
1. Data node -> name node heart beat datanode 發起heart beat,週期性的向name node發送。heart beat間隔通過 dfs.heartbeat.interval 進行設置。
原创 Canopy算法原理
Canopy聚類算法是一個將對象分組到類的簡單、快速、精確地方法。每個對象用多維特徵空間裏的一個點來表示。這個算法使用一個快速近似距離度量和兩個距離閾值 T1>T2來處理。 基本的算法是:從一個點集合開始並且隨機刪除一個,創建一個包含這個
原创 協同過濾算法的問題及解決方案
文章轉載:http://blog.csdn.net/cserchen/article/details/5838333 1 協同過濾在應用中存在的問題 儘管協同過濾在電子商務推薦系統中的應用獲得了較大的成功,但隨着站點結構、內容
原创 Mahout推薦算法基礎
Mahout主要推薦算法 Mahout推薦算法分爲以下幾大類 GenericUserBasedRecommender 算法: 1.基於用戶的相似度 2.相近的用戶定義與數量 特點: 1.易於理解 2.用戶數較少時計算速度快 Ge
原创 sed學習
1. Sed簡介 sed 是一種在線編輯器,它一次處理一行內容。處理時,把當前處理的行存儲在臨時緩衝區中,稱爲“模式空間”(pattern space),接着用sed命令處理緩衝區中的內容,處理完成後,把緩衝區的內容送往屏幕。接着處理
原创 jvm配置
堆大小設置 JVM中最大堆大小有三方面限制:相關操作系統的數據模型(32-bt還是64-bit)限制;系統的可用虛擬內存限制;系統的可用物理內存限制。 32位系統下,一般限制在1.5G~2G;64爲操作系統對內存無限制。我在Windows
原创 Linux dig命令
linux下使用dig命令來查詢域名信息,當然也可以使用nslookup,但dig比nslookup更方便更強大一些。 dig 基本的用法: 1. 查找一個域名的授權 dns 服務器 dig xxx.com. +nss