原创 大數據環境部署4:mysql安裝部署

 Mysql的安裝是在root用戶下進行操作的。 下載mysql 安裝包 [spark@localhost~]$ wgethttp://dev.mysql.com/get/archives/mysql-5.6/mysql-5

原创 轉:一位阿里人對數據模型建設的幾點思考與總結

走過2010年,回首走過的一年,全部精力投入到了數據平臺的建設過程中,在不斷的探索、嘗試中探索一條適合數據倉庫發展之路的數據模型建設方法;作爲數據平臺建設的主要驅動人,與團隊一起完成數據平臺基礎數據模型(寬表層)的搭建,應用遷移、實現應用

原创 大數據環境部署6:Spark環境部署

 1、下載scala2.11.4版本下載地址爲:http://www.scala-lang.org/download/2.11.4.html ,也可以使用wget http://downloads.typesafe.com/sca

原创 Centos磁盤掛載操作

 1、查詢未掛載的硬盤 fdisk -l //先查詢未掛載的硬盤名如:sdb1 等 2、格式化 mkfs.ext3 /dev/xvdb   開始格式化 3、查看已經掛載的情況 df -h      4、開始掛載     

原创 業務系統JSON日誌通過python處理並導入Mysql方案

一、環境準備及說明 1、程序目錄路徑 [spark@Master Log_Data]$ pwd /home/spark/opt/Log_Data [spark@Master Log_Data]$ ls -LGR .: Py_logproc

原创 mysql數據備份恢復詳述

一、使用infile/outfile來導入導出數據 經常會需要將數據庫裏的部分數據導出再導入到另一個數據庫中,使用mysqldump方法很不方便,使用outfile的話就會變的很簡單。 1.outfile使用,將select出的結果導出爲

原创 oracle sqlplus中copy命令的用法

一、語法 首先明確SQL*Plus Copy Command不是一個方法或是函數,也不是一個SQL語句,它是一個命令(command),這個命令必須在SQL*Plus裏運行。SQL*Plus Copy Command的語法: COPY {

原创 Linux上用於Json數據處理並導入Mysql的幾個有用Python腳本

1、環境目錄結構 [root@localhost python_dir]# pwd /root/python_dir [root@localhost python_dir]# ls -lGR .: total 5148 -rw-r--r

原创 兩個遁環調度Mysql存儲過程的SP代碼

1、被調用的存儲過程編碼 CREATE DEFINER=`datahs`@`%` PROCEDURE `p_dorm_cnt_daily`(IN `p_statistics_date` int) BEGIN delete from dat

原创 一個實現數據批量從mongodb導入Mysql的方案

1、腳本目錄路徑 [spark@Master data_dir]$ pwd /home/spark/opt/data_dir [spark@Master data_dir]$ ls -R /home/spark/opt/data_dir

原创 幾個有用的python腳本

1、通過pythony連接Hive執行Hql的腳本 [spark@Master Py_logproc]$ cat py2hive.py #!/usr/bin/env python import sys sys.path.append('/

原创 業務系統JSON日誌通過python處理並導入Hive方案

首先說明,此方案是一個不可行的方案。與導入Mysql數據庫不同,Hive數據庫不支持記錄級數據插入;即使一些版本支持,插入速度也是奇慢。Hive主要優勢在於處理批量數據,數據量越大越能體現出性能優勢;數據量小,如記錄級數據插入,則沒有可用

原创 MySQL數據導出導入

一、數據導出 1.導出全庫備份到本地的目錄 mysqldump -u$USER -p$PASSWD -h127.0.0.1 -P3306 --routines--default-character-set=utf8 --lock-all-

原创 用戶行爲分析業務系統日誌處理方案

1、日誌要進入的目標表結構信息 1.1 Hive庫上的目標表結構信息 CREATE TABLE `yemao_log`( `id` int, `time` int, `url_from` string, `url_

原创 Hive靜態分區表

 Hive的分區表分爲動態分區和靜態分區,分區表的使用能夠爲巨量表查詢性能的提高提供幫助。 靜態分區在數據載入前需要事先將分區建好,使用起來稍顯複雜,而動態表可以根據數據自動建立分區,但同時花費了巨大的性能代價。如果分區是可以確定的話