原创 csv格式文件

csv格式文件經常用在Python爬蟲程序中存儲文件,原因一是這種類型的文件既能用Excel打開,又能用記事本打開,而txt文件經常遇到變量分隔的問題;原因二是csv文件和txt文件佔用的存儲空間差不多,只是用英文逗號做行分隔,用換行符做

原创 requests後用 soup.find 找不到指定標籤的原因分析

在實踐中,用 Microsoft Edge 瀏覽器打開了 www.santostan.com 進行BeautifulSoup.find()方法的學習實踐,開發工具看到的源代碼如下: 我想找到選中的標籤,所以用瞭如下的代碼: impor

原创 Python 多協程實驗時報錯 Error: maximum recursion depth exceeded 程序退出代碼1073741571

在多協程程序代碼過程中,試驗了一個小項目,獲取上千個url中頁面,代碼如下: import gevent from gevent.queue import Queue import time import requests from

原创 scrapy框架下使用SitemapSpider爬取織夢園模板網的網站地圖

Sitemap 可方便網站管理員通知搜索引擎他們網站上有哪些可供抓取的網頁。最簡單的 Sitemap 形式,就是XML 文件,在其中列出網站中的網址以及關於每個網址的其他元數據(上次更新的時間、更改的頻率以及相對於網站上其他網址的重要程度

原创 armeabi-v7a__ndk_target_21/python3/Include/Python.h:8:10: fatal error:'pyconfig.h' file not found

在使用buildozer工具打包安卓apk文件的時候使用了buildozer android debug deploy run命令,一通下載操作後出現以下錯誤: 這裏先把問題記下來,找到解決辦法了再更新本教程。 發現在python3的這

原创 RHEL7更改yum源後出現redhat-release與 initscripts 衝突問題

大家在更改yum源以後可能會遇到initscripts-9.49.47-1.el7.x86_64與redhat-release-server-7.0-1.el7.x86_64衝突的問題,解決思路是將redhat-release-serve

原创 RHEL7 安裝python3.7.6

  先去python官網下載python3的源碼包,網址:https://www.python.org/downloads/release/python-376/,下載Gzip包: python3.7需要的openssl的版本爲1.0.

原创 RHEL7安裝openssl:解決the ssl module in Python is not available問題

我的系統是RHEL7,改了Centos的yum源,安裝python3後發現ssl經常出問題,pip無法從網站下載第三方庫,常出現以下這種類型的提示: [root@localhost ~]# pip3 install virtualenv

原创 Win10 中 Python 3.7.6 如何安裝 opencv-python

在 Win10 或 win7 系統中用 python 3.7.6 執行 import cv2  的時候,往往提示找不到指定的模塊。其實找不到的不是 cv2 這個模塊,而是 opencv-python 模塊。很多教程說 pip instal

原创 Kivy文件選擇器FileChooser控件中路徑的中文顯示

       Kivy的中文顯示有一些問題,我不想改變默認字體設置,只想通過在代碼中改變字體編碼從而顯示中文。思考很久了,還是沒有找到應該在哪裏改,希望懂的大神指點一下: from kivy.app import App from ki

原创 Python Scrapy 編寫自定義文件管道自動下載文件

http://yjs.hebut.edu.cn/yjsgzb/xzzq/ 通過河北工業大學研究生院-學生工作-下載專區,測試如何使用FilesPipeline。 通過下載鏈接可以看出有些直接可以下載,而有些則要從點開的頁面中尋找。爲簡化

原创 Python Scrapy 修改默認圖片管道,更改縮略圖文件名

在學習使用Scrapy圖片管道的時候,書上沒有給出修改下載的縮略圖文件名稱的方法。自己研究了下,搞定了,記下來。 要爬的是起點中文網: items.py 中要爬的有這麼幾項: import scrapy class Downloa

原创 Python獲取TOP250電影的英文名、港臺名、導演、主演、上映年份、電影分類及評分

《Python網絡爬蟲:從入門到實踐》3.4.3自我實踐題: 獲取豆瓣網上TOP250電影的英文名、港臺名、導演、主演、上映年份、電影分類及評分。 學習嘛,就費了點勁自己試了一下,挺耽誤時間的,不過好在搞出來了,書上給的代碼有點問題,不夠

原创 python Scrapy 編寫自定義管道,將數據保存到 json 文件中

本文是對《scrapy網絡爬蟲實戰》一書中,第5.2節內容的重寫,由於伯樂在線網站代碼有較大改動,原書中代碼已經失效。 以下示例演示了 抓取https://movie.douban.com/explore#!type=movie&tag=

原创 multiprocessing 使用 Process+Queue 的多進程爬蟲示例

《Python網絡爬蟲:從入門到實踐》書中7.3.1節講到,使用multiprocessing庫的第一種方法,是Process+Queue 的多進程爬蟲,還給出一個例子,發現有重大邏輯bug,經1天時間研究,將正確的代碼公佈出來,方便廣大