原创 多線程爬蟲(糗事百科 )

導包 requests、 import requests from threading import Thread from queue import Queue from lxml import etree #使用

原创 面試題2

第一 你們team有多少人? 第二 代碼合併後有遇見過一些什麼樣的bug?你有遇見過什麼樣的bug?怎麼解決的? 第三 緩存用幾個數據庫? 第四 項目裏面都用了哪些數據庫? 第五 數據庫的設計 第六 有寫過sql語句嗎?

原创 裝飾器

介紹一下Python的裝飾器? 簡單來說:爲已存在的對象添加額外功能。 在不改變源代碼和調用方法的基礎上,添加額外功能。 優點:提高了程序的可重複利用性,增加了程序的可讀性 詳細來說: 裝飾器有函數裝飾器和類裝飾器 函數裝飾器有帶

原创 分佈式爬蟲

1,redis安裝 修改配置文件redis-windows-conf bind 127.0.0.1 改爲 bind 127.0.0.1 protected-mode yes 改爲: #protected-mode yes protec

原创 Ubantu內安裝python3.6

默認是python2.7 ,還有python3.5 手動安裝python3.6 1. 更新源 命令:sudo apt-get update 2. 命令: sudo apt-get install soft

原创 GIT

git是什麼 分佈式版本控制系統 兩個關鍵:詞分佈式、版本控制 版本控制:就是一個代碼維護工具 分佈式:就是一個集羣的概念,一臺電腦的性能不管是內存還是cpu終歸是有上限的 分佈式就是擴展這個上限的,把數據存放在10臺電腦裏,我

原创 連接遠程服務:Xshell安裝

Xshell安裝

原创 爬蟲環境部署

Python 3.6.0 環境變量 C:\Users\admin\AppData\Local\Programs\Python\Python36\Scripts C:\Users\admin\AppData\Local\Programs

原创 將虛擬環境中的包導出文件

進入虛擬環境: 命令:pip freeze >requirements.txt 可切換到其他環境中,再把上面文件中的包一次安裝 workon 新環境名 pip install -r requirements.txt 然後等他安裝完結束

原创 JSON與JsonPATH

JSON JSON(JavaScript Object Notation) 是一種輕量級的數據交換格式,它使得人們很容易的進行閱讀和編寫。同時也方便了機器進行解析和生成。適用於進行數據交互的場景,比如網站前臺與後臺之間的數據交互。

原创 傳文件到遠程服務

使用工具winscp

原创 簡單瞭解scrapy

創建scrapy項目 1.使用終端來創建項目 命令:scrapy startproject baidu 彈出: New Scrapy project 'baidu', using template directory 'c:\\

原创 安裝虛擬環境

pip方式安裝虛擬環境 1. sudo pip install virtualenv 2. sudo pip install virtualenvwrapper 3. mkdir ~/.virtualenvs 【創

原创 Ubantu安裝社區版pycharm

1.官網下載地址:https://www.jetbrains.com/pycharm/download/ 2.使用免費版本(Community Edition) 3.下載的文件是.tar.gz壓縮 我們把下載的文件放到可知的盤符文件

原创 scrapy框架

介紹 Scrapy,通過python語言編寫的爬蟲框架,非常的強悍 組成:5部分 1.Scrapy Engine(引擎) 負責Spider、ItemPipeline、Downloader、Scheduler中間的通訊,信號、數據傳