原创 PowerDesigner連接MySQL,建立逆向工程圖解

傳說中,程序員們喜歡用powerDesign進行數據庫建模。通常都是先設計出物理模型圖,在轉換出數據庫需要的SQL語句,從而生成數據庫。但,江湖中流傳着“powerDesign逆向工程”的傳說。好,我們今天就來利用PowerDesign來建

原创 網絡爬蟲基本原理(一)

    網絡爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將互聯網上的網頁下載到本地形成一個或聯網內容的鏡像備份。這篇博客主要對爬蟲以及抓取系統進行一個簡單的概述。一、網絡爬蟲的基本結構及工作流程    一個通用的網絡爬蟲的框架如圖

原创 布隆過濾器(Bloom Filter)Java實現

布隆過濾器原理很簡單:就是把一個字符串哈希成一個整數key,然後選取一個很長的比特序列,開始都是0,在key把此位置的0變爲1;下次進來一個字符串,哈希之後的值key,如果在此比特位上的值也是1,那麼就說明這個字符串存在了。如果按照上面的做

原创 pt-query-digest查詢日誌分析工具

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。1. 工具簡介pt-query-digest是用於分析mysql慢查詢的一個工具,它可以分析binlog、General log、slowlog,也可以通過SHOWPROCESSLIST或

原创 pt-query-digest查詢日誌分析工具

版權聲明:本文爲博主原創文章,未經博主允許不得轉載。1. 工具簡介pt-query-digest是用於分析mysql慢查詢的一個工具,它可以分析binlog、General log、slowlog,也可以通過SHOWPROCESSLIST或

原创 布隆過濾器(Bloom Filter)Java實現

布隆過濾器原理很簡單:就是把一個字符串哈希成一個整數key,然後選取一個很長的比特序列,開始都是0,在key把此位置的0變爲1;下次進來一個字符串,哈希之後的值key,如果在此比特位上的值也是1,那麼就說明這個字符串存在了。如果按照上面的做

原创 網絡爬蟲-URL去重

        在爬蟲啓動工作的過程中,我們不希望同一個網頁被多次下載,因爲重複下載不僅會浪費CPU機時,還會爲搜索引擎系統增加負荷。而想要控制這種重複性下載問題,就要考慮下載所依據的超鏈接,只要能夠控制待下載的URL不重複,基本可以解決同

原创 網絡爬蟲基本原理(一)

    網絡爬蟲是捜索引擎抓取系統的重要組成部分。爬蟲的主要目的是將互聯網上的網頁下載到本地形成一個或聯網內容的鏡像備份。這篇博客主要對爬蟲以及抓取系統進行一個簡單的概述。一、網絡爬蟲的基本結構及工作流程    一個通用的網絡爬蟲的框架如圖

原创 布隆過濾器 - URL去重,字符串去重

布隆過濾器 - URL去重,字符串去重  布隆過濾器用於字符串去重複,比如網絡爬蟲抓取時URL去重、郵件提供商反垃圾黑名單Email地址去重。等等。用哈希表也可以用於元素去重,但是佔用空間比較大,而且空間使用率只有50%。  布隆過濾器只佔

原创 PowerDesigner連接MySQL,建立逆向工程圖解

傳說中,程序員們喜歡用powerDesign進行數據庫建模。通常都是先設計出物理模型圖,在轉換出數據庫需要的SQL語句,從而生成數據庫。但,江湖中流傳着“powerDesign逆向工程”的傳說。好,我們今天就來利用PowerDesign來建

原创 網絡爬蟲之url等高效率去重原理

          布隆過濾器用於字符串去重複,比如網絡爬蟲抓取時URL去重、郵件提供商反垃圾黑名單Email地址去重。等等。用哈希表也可以用於元素去重,但是佔用空間比較大,而且空間使用率只有50%。  布隆過濾器只佔哈希表的1/8或1/4