原创 基於Hadoop實現Knn算法

這篇文章主要爲大家詳細 介紹了基於Hadoop實現Knn算法的相關資料,具有一定的參考價值,感興趣的小夥伴們可以參考一下 Knn算法的核心思想是如果一個樣本在特徵空間中的K個最相鄰的樣本中的大多數屬於某一個類

原创 冠字號查詢系統中HBase寫入數據性能測試

    機器說明:4臺centos虛擬機,每臺分別配置2G內存     測試步驟: 爲了方便測試,利用hbase shell新建表如下: create 'identify01', {NAME => 'op_www', VERSIONS

原创 Hadoop集羣中Hive的配置

<span style="background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif;"> 1. 解壓縮apache-hive-1.

原创 Python+Selenium實現微博自動化爬蟲

目的:   利用python和selenium實現自動化爬蟲 所需工具:   1、python2.7   2、selenium庫(pip install selenium或者easy_install selenium進行安裝)   3、火

原创 通用MapReduce程序複製HBase表數據

  編寫MR程序,讓其可以適合大部分的HBase表數據導入到HBase表數據。其中包括可以設置版本數、可以設置輸入表的列導入設置(選取其中某幾列)、可以設置輸出表的列導出設置(選取其中某幾列)。   原始表test1數據如下:  每個r

原创 基於Hadoop的Knn算法實現

    Knn算法的核心思想是如果一個樣本在特徵空間中的K個最相鄰的樣本中的大多數屬於某一個類別,則該樣本也屬於這個類別,並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。Kn

原创 基於Hadoop的樸素貝葉斯算法實現

    貝葉斯分類器的分類原理是通過某對象的先驗概率,利用貝葉斯公式計算出其後驗概率,即該對象屬於某一類的概率,選擇具有最大後驗概率的類作爲該對象所屬的類。         以下爲一個簡單的例子:     數據:天氣情況和每天是否踢足球的

原创 Hive創建表的幾種方式

    hive執行的三種方式:     1. 用hive CLI     2. 終端執行hive命令: hive -e hive語句     3. 終端執行hive腳本: hive -f  hive腳本     如果需要通過jdbc來連

原创 shell腳本設置固定IP

首先進入root賬戶 su 然後: cd vim change_ip.sh Shell腳本如下: #!/bin/bash netmask=255.255.255.0 IP_PATH=/etc/sysconfig/network

原创 Hive 中自定義UDF函數

    在Hive中,編寫自定義UDF函數,可以幫助我們更輕鬆的做ETL。     例如,現在我要求某一列數據的平方,在eclipse新建工程,並新建一個Test包,在Test包下新建一個類Square: public class Squ

原创 Hadoop2.7與Spark1.6的集羣搭建

機器說明:四臺ubuntu系統的電腦,選取其中一臺作爲master,其餘三臺作爲slaves。      寫在開頭的兩個坑:      1.雖然Linux支持一些特殊字符,但java裏面並不支持。所以,H

原创 基於Hadoop的Kmeans算法實現

    Kmeans算法是很典型的基於距離的聚類算法,採用距離作爲相似性的評價指標。即認爲兩個對象的距離越近,其相似度就越大。該算法認爲簇是由距離靠近的對象組成的,因此把得到緊湊且獨立的簇作爲最終目標。     算法流程如下:     1

原创 Hive桶表

   首先創建普通內表: create table u( id int, name string, age int) row format delimited fields terminated by ',';  

原创 CentOS搭建http yum源

1.  首先啓動httpd服務         進入root賬戶         service httpd start即可                 查看配置文件:/etc/httpd/conf/httpd.conf可知:  

原创 hadoop集羣中解決查看任務的history報錯問題

    開啓集羣,運行MR任務,在8088端口查看任務信息的時候:     出現如下錯誤:     解決方法:     首先將/tmp的權限修改爲777,看是否可以解決問題。如果不行,再檢查集羣的時間是否統一。如果不統一,利用ntp