原创 推薦系統實踐-筆記-第1章

第1章 好的推薦系統 1.1 什麼是推薦系統 推薦系統,幫助信息消費者從大量信息中找到自己感興趣的信息,幫助消息生產者讓信息展現在對它感興趣的用戶面前 信息過載的解決方案:分類目錄、搜索引擎 分類目錄只能覆蓋少量的熱門網站 搜索引

原创 Python - 爬取圖片並下載到本地

import requests #用來模擬瀏覽器發送網絡請求 from lxml import etree #解析數據 from urllib import request #下載保存urlre

原创 Shell - 變量

1. 變量定義 定義變量時,變量名不加美元符號($)如: name=“1234A” 注意事項: (1)變量名和等號之間不能有空格 (2)變量名的命名遵循如下規則: 首個字符必須爲字母(a-z,A-Z)。 中間不能有空格,可以

原创 Redis

1 bind ip地址 bind 0.0.0.0 所有訪問 bind 127.0.0.1 本地訪問 bind 內網IP地址 指定的內網IP可以 訪問 參考文章鏈接:https://blog.csdn.net

原创 Shell - 字符串

(1)單引號 str='this is a string' 注意: 單引號裏的任何字符都會原樣輸出,單引號字符串中的變量是無效的; 單引號字串中不能出現單引號(對單引號使用轉義符後也不行)。 (2)雙引號 class='12

原创 二進制除法

二進制除法中包括除法和模2除法,兩個計算並不同 一、除法 每一步做減法 二、模2除法 每一步做異或 參考文章1鏈接:https://blog.csdn.net/e891377/article/details/85

原创 HBase - 完全分佈式搭建

1 Zookeeper 正常部署 啓動Zookeeper 2 Hadoop 正常部署 啓動Hadoop 3 HBase 解壓 [hadoop@hadoop105 ~]$ tar -zxvf hbase-1.2.1-bin.tar.

原创 Idea - 問題 & 解決

1 Error:java: Compilation failed: internal java compiler error 原因: 項目中Java版本不一致 解決: 參考文章地址:https://blog.csdn.net

原创 Flume - 故障轉移、負載均衡

故障轉移 概述: 故障轉移機制的工作方式是將失敗的sink放到一個池中,並在池中爲它們分配一段冷凍期,在重試之前隨着連續的失敗而增加。一個sink成功發送event後,將其恢復到活動池。sink有一個與它們相關聯的優先級,數

原创 Hive - 問題 & 解決

1 Hive - mapjoin 問題: hive sql:select f.a,f.b from A t join B f on ( f.a=t.a and f.ftime=20110802) 該語句中B表有30億行記錄,A

原创 Hive - 安裝

1 啓動集羣 start-all.sh 2 hive壓縮包解壓縮 tar -zxvf apache-hive-1.2.1-bin.tar.gz -C /usr/local/ 3 移動到規劃位置 mv /usr/local/ap

原创 MapReduce - A - 迭代(多次MR)

題目: 對給定的文件進行詞頻統計,然後按照詞頻從大到小排序 詞頻相同時,按照單詞的字典序 思路: 通過兩個MR進行解決 第一個MR:統計詞頻 第二個MR:利用Shuffle階段的排序,實現排序效果 代碼: //單詞類

原创 MapReduce - A - 歸約 - Combiner

題目: 使用Conbiner進行詞頻統計 思路: Combiner在整個Map階段結束後,進行一次合併,可以理解爲提前的一次reduce 代碼: //MyCombiner package A_Combiner02;

原创 MapReduce - A - 分區 - Partitioner

題目: 求每個通信商的上行、下行、總流量 (輸出:通信商 上行 下行 總的) 思路: 通過手機號的前三位區分通信運營商 按照運營商分區後,在每個Reduce裏計算各運營商總和即可 代碼: //分區比較器 pac

原创 MapReduce - A - 分組 - Comparator

題目: 求每個通信商的上行、下行、總流量 (輸出:通信商 上行 下行 總的) 思路: 通過手機號的前三位區分通信運營商 按照運營商分組後,在每個Reduce裏計算各運營商總和即可 代碼: //分組比較器 pac