原创 用正則表達式爬取鏈接和標題

1.爬取中國大數據首頁的鏈接和標題 2.出現好多錯誤,特別是正則表達式 爬取的樣式爲: 部分源代碼: #coding:utf-8 import re import urllib #獲取網頁 def getHtml(url):

原创 使用BeautifulSoup爬取藥智標準網數據(更改)

#coding:utf-8 import urllib2 import bs4 from bs4 import BeautifulSoup class YZBZ(): def __init__(self): sel

原创 關於headers驗證的問題

在用類爬取網頁內容的時候,定義一個def __init__(self)函數,用來初始化方法,定義些變量,用到關於headers的一些知識。 def __init__(self): self.user_agent = 'Mo

原创 Python爬取返利網(今日值得買)數據

雙十一還沒消停,雙十二又來了。看返利網<今日值得買>的數據時時不斷的在更新。。。。。。 1.爬取返利網的商品名,分類,推薦人,好評數和差評數 2.商品信息不斷更新,查看頁面源代碼僅可以看見一開始顯示的幾個商品的代碼。 頁面加載規律是往下

原创 Python爬取新聞動態評論

四年前的文章了,現在纔看見沒通過。。。。當初明明過了的。。。 1.前些天打開網易新聞,於是點開爬取該新聞的評論。 2.以前爬取的網頁都是靜態的,都是源代碼中直接就有,一眼就可以觀察到的,而這次打開卻不一樣,根本沒有自己想要的評論內容。然後

原创 back~

前幾天找回了賬號,鞭策自己時常更新一下子,不要鴿。

原创 mysql的兩個小問題

1.關於concat函數 用到此函數是爲了多個字段對應同一個值進行模糊匹配。 例如:  select * from course_info where course_id like '%xxx%' or course_name like

原创 使用BeautifulSoup爬取藥智標準網的數據

#coding:utf-8 import urllib2 import bs4 from bs4 import BeautifulSoup class YZBZ(): #初始化方法   def __init__(self):

原创 Python小知識

1.eval()函數的用法 使用Python GUI,help一下 <span style="font-size:18px;">>>> help(eval) Help on built-in function eval in modul

原创 Python標準庫urllib2的使用細節

Python 標準庫 urllib2 的使用細節 此文貌似也是某博主轉載的吧,轉自道可叨。 轉載自道可叨|Python標準庫urllib2的使用細節(http://zhuoqiang.me/python-urllib2-usage.htm

原创 爬取豆瓣網電影信息

#coding:utf-8 import urllib2 import bs4 from bs4 import BeautifulSoup #爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class DBTOP(): de

原创 初用正則表達式爬取圖片

<pre name="code" class="python">#coding:utf-8 #導入正則模塊 import re import urllib #獲取網頁 def getHtml(url): #打開該網頁 pa

原创 Python小錯誤

1.打開文件時,總是出現IOError:[Error:22]......(省略號一般寫的是文件名不存在之類的英文)。但是路徑與文件名完全正確。 解決方法:在路徑前加r或者R,例如: f=open(r"D:\pythontest\test.

原创 安裝BeautifulSoup

在windows下安裝BeautifulSoup 安裝方法: 1.去網站http://www.crummy.com/software/BeautifulSoup/下載壓縮包 2.解壓到本地硬盤上 3.將名稱爲beautifulsoup4-

原创 scrapy連接mysql出錯

        報錯內容大概是:connection localhost(無法連接localhost)         忘記截圖。。。。。只把解決方法寫進了txt         settings.py文件中的設置: