原创 樸素貝葉斯學習筆記

naivebayes   樸素貝葉斯分類器原理公式分解:1.p(word|categroy)=p(分類category的文檔中出現word的文檔總數)/分類category總文檔數p(word|categroy)意思爲在category分類

原创 unable create table from sparksql

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")錯誤:MetaException(message:file:/user/hive/warehou

原创 flume-1.6.0 高可用測試&&數據入Kafka

機器列表:192.168.137.115  slave0     (agent)  192.168.137.116  slave1     (agent)  192.168.137.117  slave2     (agent)  192.

原创 KafkaOffsetMonitor安裝&&測試

官網地址https://quantifind.com/KafkaOffsetMonitor/方法一:git clone https://github.com/quantifind/KafkaOffsetMonitor.git安裝sbt(ht

原创 spark寫orc格式文件

在hive中建表格式存儲格式爲orc  create table user(id int,name string) stored as orc;  spark寫文件            val jsons = "hdfs://localh

原创 elasticsearch集羣&&IK分詞器&&同義詞

wget https://download.elastic.co/elasticsearch/release/org/elasticsearch/distribution/tar/elasticsearch/2.3.3/elasticsea

原创 openresty收集前端日誌

環境:centos-6.5依賴:yum install -y gcc gcc-c++下載pcre,openssl,openrestywget https://sourceforge.net/projects/pcre/files/pcre/

原创 修改SequenceFileInputFormat hdfs blocksize

用spark讀取sequencefile時,非常消耗時間,默認情況下SequenceFileInputFormat切分文件是沿用FIleInputFormat,對於大文件會切成Hdfs block size大小,如果想切的更小,增加spar

原创 apache bench測試

apache bench(簡單壓力測試)安裝:yum -y install httpd指標:1.吞吐率(Requests per second)每秒處理的請求數2.併發連接數某個時刻服務器承受的請求數3.併發用戶4.用戶平均等待時間計算公式

原创 樸素貝葉斯學習筆記

naivebayes   樸素貝葉斯分類器原理公式分解:1.p(word|categroy)=p(分類category的文檔中出現word的文檔總數)/分類category總文檔數p(word|categroy)意思爲在category分類

原创 spark-submit java.lang.OutOfMemoryError: Java heap space

原因:默認情況下每個節點分配的執行內存爲1G解決辦法:方法一:val conf = new SparkConf().setAppName("appname").set("spark.executor.memory","6g")方法二:修改s

原创 spark-1.6.1安裝編譯&&sparksql操作hive

maven:3.3.9 jdk:java version "1.8.0_51"spark:spark-1.6.1.tgzscala:2.11.7如果scala版本是2.11.x,執行如下腳本./dev/change-scala-versio