原创 抓取60000+QQ空間說說做一次數據分析 頂 原

對於QQ空間的數據一直來是垂涎不已,老早就想偷過來研究研究,這幾天閒下來便開始動手。。。 整個程序的流程爲:登錄-->獲取cookie-->獲取所有的好友qq_number-->根據所有的好友qq遍歷他們的說說-->get所有好友的說說數

原创 Fedora 25如何安裝LAMP 頂 原

1.安裝Apache 切換到root用戶:su dnf install httpd -y 啓動httpd服務,以在每次系統啓動服務: systemctl enable httpd 使用以下命令來啓動httpd服務: systemctl s

原创 python使用多線程爬取數據 頂 原

1.使用普通方式爬取 #!/usr/bin/python3 #coding:utf8 from bs4 import BeautifulSoup import requests import time from concurrent.fu

原创 Scrapy 爬取知乎用戶信息 頂 原

程序邏輯圖如下: 登錄模塊(獲取cookie): # encoding=utf-8 import requests import re import sys #設置請求頭 headers={ 'Accept':'text/

原创 HBase Shell操作命令 頂 原 薦

HBase單機配置(官網): HBase下載http://www.apache.org/dyn/closer.cgi/hbase/ 解壓縮,然後進入到那個要解壓的目錄. $ tar xfz hbase-××××.tar.gz $ cd hb

原创 Redis學習筆記 頂 原

1.String(字符串) 使用set生成一個鍵值對 name:'cb'(一個鍵值對應一個值),然後用get將name對應的值取出來 set name 'cb' get name 2.Hash(哈希) 使用name:3爲鍵值,存儲多

原创 矩陣乘法的mapreduce程序實現 頂 原

map函數:對於矩陣M中的每個元素m(ij),產生一系列的key-value對<(i,k),(M,j,m(ij))> 其中k=1,2.....知道矩陣N的總列數;對於矩陣N中的每個元素n(jk),產生一系列的key-value對<(i ,

原创 pickle--序列化python對象 頂 原

1.將對象轉儲到文件中 >>> import pickle >>> class a: ... def __init__(self): ... pass ... def toString(self):

原创 Selenium+Python對開源中國官網進行模擬登錄 頂 原 薦

1.摘要: Selenium是一個開源的和便攜式的自動化軟件測試工具,用於測試Web應用程序有能力在不同的瀏覽器和操作系統運行。Selenium不是一個單一的工具,而是一套工具,幫助測試者更有效地基於Web的應用程序的自動化。 我們這裏用

原创 centos編譯hadoop-3.0.0-beta1源碼 頂 原 薦

1.系統環境需求: 本地系統爲centos7 源碼下載地址(http://mirror.bit.edu.cn/apache/hadoop/common/hadoop-3.0.0-beta1/hadoop-3.0.0-beta1-src.t

原创 linux基本操作命令 頂 原

1. 查看目錄文件:ls 2. 查看目前路徑:pwd 3. 查看文件內容:cat 文件名 4. 打開編輯器:vim 文件名 1 2 3 4 5 插入:按i鍵 退出插入模式:按Esc 鍵 進入輸命令模式:同時按鍵:Shift+;

原创 python初探OpenCV 頂 原

import numpy as np import cv2 cap = cv2.VideoCapture(0) while(True): ret, frame = cap.read() gray = cv2.cvtCol

原创 python數據可視化----繪製各種圖形 頂 原 薦

1.環境 系統:windows10 python版本:python3.6.1 使用的庫:matplotlib,numpy 2.numpy庫產生隨機數幾種方法 import numpy as np numpy.random

原创 hadoop2.7.3完全分佈式集羣搭建 頂 原

環境配置:     虛擬機:vmware workstation 12     系統:centos7     節點:         192.168.1.111    yun1         192.168.1.112   yun2  

原创 對拉勾網招聘信息做一次數據分析(上)--40行代碼拿下所有數據 頂 原 薦

環境: ubuntu : 16.04 python : 3.5.2 scrapy : 1.3.3 編輯器 : vim 分析拉勾網(http://www.lagou.com) 可以看到在左側有着各行各業的招聘信息,今天就把各行各業的招