台部落Angelababy

原创基於Hadoop實現Knn算法

這篇文章主要爲大家詳細介紹了基於Hadoop實現Knn算法的相關資料，具有一定的參考價值，感興趣的小夥伴們可以參考一下 Knn算法的核心思想是如果一個樣本在特徵空間中的K個最相鄰的樣本中的大多數屬於某一個類

2018-12-27 02:02:55

1

原创冠字號查詢系統中HBase寫入數據性能測試

機器說明：4臺centos虛擬機，每臺分別配置2G內存測試步驟：爲了方便測試，利用hbase shell新建表如下： create 'identify01', {NAME => 'op_www', VERSIONS

2018-09-01 19:21:04

原创 Hadoop集羣中Hive的配置

<span style="background-color: rgb(255, 255, 255); font-family: Arial, Helvetica, sans-serif;"> 1. 解壓縮apache-hive-1.

2018-09-01 19:21:01

6

原创 Python+Selenium實現微博自動化爬蟲

目的：利用python和selenium實現自動化爬蟲所需工具： 1、python2.7 2、selenium庫（pip install selenium或者easy_install selenium進行安裝） 3、火

2018-09-01 19:21:01

原创通用MapReduce程序複製HBase表數據

編寫MR程序，讓其可以適合大部分的HBase表數據導入到HBase表數據。其中包括可以設置版本數、可以設置輸入表的列導入設置(選取其中某幾列)、可以設置輸出表的列導出設置(選取其中某幾列)。原始表test1數據如下：每個r

2018-09-01 19:21:01

原创基於Hadoop的Knn算法實現

Knn算法的核心思想是如果一個樣本在特徵空間中的K個最相鄰的樣本中的大多數屬於某一個類別，則該樣本也屬於這個類別，並具有這個類別上樣本的特性。該方法在確定分類決策上只依據最鄰近的一個或者幾個樣本的類別來決定待分樣本所屬的類別。Kn

2018-09-01 19:21:01

原创基於Hadoop的樸素貝葉斯算法實現

貝葉斯分類器的分類原理是通過某對象的先驗概率，利用貝葉斯公式計算出其後驗概率，即該對象屬於某一類的概率，選擇具有最大後驗概率的類作爲該對象所屬的類。以下爲一個簡單的例子：數據:天氣情況和每天是否踢足球的

2018-09-01 19:21:01

2

原创 Hive創建表的幾種方式

hive執行的三種方式： 1. 用hive CLI 2. 終端執行hive命令： hive -e hive語句 3. 終端執行hive腳本： hive -f hive腳本如果需要通過jdbc來連

2018-09-01 19:21:01

4

原创 shell腳本設置固定IP

首先進入root賬戶 su 然後： cd vim change_ip.sh Shell腳本如下： #!/bin/bash netmask=255.255.255.0 IP_PATH=/etc/sysconfig/network

2018-09-01 19:21:01

原创 Hive 中自定義UDF函數

在Hive中，編寫自定義UDF函數，可以幫助我們更輕鬆的做ETL。例如，現在我要求某一列數據的平方，在eclipse新建工程，並新建一個Test包，在Test包下新建一個類Square： public class Squ

2018-09-01 19:21:01

1

原创 Hadoop2.7與Spark1.6的集羣搭建

機器說明：四臺ubuntu系統的電腦，選取其中一臺作爲master，其餘三臺作爲slaves。寫在開頭的兩個坑： 1.雖然Linux支持一些特殊字符，但java裏面並不支持。所以，H

2018-09-01 19:20:58

原创基於Hadoop的Kmeans算法實現

Kmeans算法是很典型的基於距離的聚類算法，採用距離作爲相似性的評價指標。即認爲兩個對象的距離越近，其相似度就越大。該算法認爲簇是由距離靠近的對象組成的，因此把得到緊湊且獨立的簇作爲最終目標。算法流程如下： 1

2018-09-01 19:20:58

1

原创基於Hadoop實現Knn算法

原创冠字號查詢系統中HBase寫入數據性能測試

原创 Hadoop集羣中Hive的配置

原创 Python+Selenium實現微博自動化爬蟲

原创通用MapReduce程序複製HBase表數據

原创基於Hadoop的Knn算法實現

原创基於Hadoop的樸素貝葉斯算法實現

原创 Hive創建表的幾種方式

原创 shell腳本設置固定IP

原创 Hive 中自定義UDF函數

原创 Hadoop2.7與Spark1.6的集羣搭建

原创基於Hadoop的Kmeans算法實現

原创 Hive桶表

原创 CentOS搭建http yum源

原创 hadoop集羣中解決查看任務的history報錯問題