台部落xiaobin0303

naivebayes 樸素貝葉斯分類器原理公式分解：1.p(word|categroy)=p(分類category的文檔中出現word的文檔總數)/分類category總文檔數p(word|categroy)意思爲在category分類

2019-02-22 23:09:30

sqlContext.sql("CREATE TABLE IF NOT EXISTS src (key INT, value STRING)")錯誤：MetaException(message:file:/user/hive/warehou

2019-02-22 23:09:30

機器列表：192.168.137.115 slave0 （agent） 192.168.137.116 slave1 （agent） 192.168.137.117 slave2 （agent） 192.

2018-09-11 02:27:33

官網地址https://quantifind.com/KafkaOffsetMonitor/方法一：git clone https://github.com/quantifind/KafkaOffsetMonitor.git安裝sbt（ht

2018-09-11 02:27:32

在hive中建表格式存儲格式爲orc create table user(id int,name string) stored as orc; spark寫文件 val jsons = "hdfs://localh

2018-09-11 02:27:32

wget https://download.elastic.co/elasticsearch/release/org/elasticsearch/distribution/tar/elasticsearch/2.3.3/elasticsea

2018-09-11 02:27:32

環境：centos-6.5依賴：yum install -y gcc gcc-c++下載pcre，openssl,openrestywget https://sourceforge.net/projects/pcre/files/pcre/

2018-09-11 02:27:32

用spark讀取sequencefile時，非常消耗時間，默認情況下SequenceFileInputFormat切分文件是沿用FIleInputFormat，對於大文件會切成Hdfs block size大小，如果想切的更小，增加spar

2018-09-11 02:27:32

apache bench（簡單壓力測試）安裝：yum -y install httpd指標：1.吞吐率（Requests per second）每秒處理的請求數2.併發連接數某個時刻服務器承受的請求數3.併發用戶4.用戶平均等待時間計算公式

2018-09-11 02:27:31

naivebayes 樸素貝葉斯分類器原理公式分解：1.p(word|categroy)=p(分類category的文檔中出現word的文檔總數)/分類category總文檔數p(word|categroy)意思爲在category分類

2018-09-11 02:27:31

原因：默認情況下每個節點分配的執行內存爲1G解決辦法：方法一：val conf = new SparkConf().setAppName("appname").set("spark.executor.memory","6g")方法二：修改s

2018-09-11 02:27:29

maven：3.3.9 jdk:java version "1.8.0_51"spark:spark-1.6.1.tgzscala:2.11.7如果scala版本是2.11.x，執行如下腳本./dev/change-scala-versio

2018-09-11 02:27:29