原创 用正則表達式爬取鏈接和標題
1.爬取中國大數據首頁的鏈接和標題 2.出現好多錯誤,特別是正則表達式 爬取的樣式爲: 部分源代碼: #coding:utf-8 import re import urllib #獲取網頁 def getHtml(url):
原创 使用BeautifulSoup爬取藥智標準網數據(更改)
#coding:utf-8 import urllib2 import bs4 from bs4 import BeautifulSoup class YZBZ(): def __init__(self): sel
原创 關於headers驗證的問題
在用類爬取網頁內容的時候,定義一個def __init__(self)函數,用來初始化方法,定義些變量,用到關於headers的一些知識。 def __init__(self): self.user_agent = 'Mo
原创 Python爬取返利網(今日值得買)數據
雙十一還沒消停,雙十二又來了。看返利網<今日值得買>的數據時時不斷的在更新。。。。。。 1.爬取返利網的商品名,分類,推薦人,好評數和差評數 2.商品信息不斷更新,查看頁面源代碼僅可以看見一開始顯示的幾個商品的代碼。 頁面加載規律是往下
原创 Python爬取新聞動態評論
四年前的文章了,現在纔看見沒通過。。。。當初明明過了的。。。 1.前些天打開網易新聞,於是點開爬取該新聞的評論。 2.以前爬取的網頁都是靜態的,都是源代碼中直接就有,一眼就可以觀察到的,而這次打開卻不一樣,根本沒有自己想要的評論內容。然後
原创 back~
前幾天找回了賬號,鞭策自己時常更新一下子,不要鴿。
原创 mysql的兩個小問題
1.關於concat函數 用到此函數是爲了多個字段對應同一個值進行模糊匹配。 例如: select * from course_info where course_id like '%xxx%' or course_name like
原创 使用BeautifulSoup爬取藥智標準網的數據
#coding:utf-8 import urllib2 import bs4 from bs4 import BeautifulSoup class YZBZ(): #初始化方法 def __init__(self):
原创 Python小知識
1.eval()函數的用法 使用Python GUI,help一下 <span style="font-size:18px;">>>> help(eval) Help on built-in function eval in modul
原创 Python標準庫urllib2的使用細節
Python 標準庫 urllib2 的使用細節 此文貌似也是某博主轉載的吧,轉自道可叨。 轉載自道可叨|Python標準庫urllib2的使用細節(http://zhuoqiang.me/python-urllib2-usage.htm
原创 爬取豆瓣網電影信息
#coding:utf-8 import urllib2 import bs4 from bs4 import BeautifulSoup #爬取豆瓣網電影簡介,包括電影名,導演,評分以及介紹等 class DBTOP(): de
原创 初用正則表達式爬取圖片
<pre name="code" class="python">#coding:utf-8 #導入正則模塊 import re import urllib #獲取網頁 def getHtml(url): #打開該網頁 pa
原创 Python小錯誤
1.打開文件時,總是出現IOError:[Error:22]......(省略號一般寫的是文件名不存在之類的英文)。但是路徑與文件名完全正確。 解決方法:在路徑前加r或者R,例如: f=open(r"D:\pythontest\test.
原创 安裝BeautifulSoup
在windows下安裝BeautifulSoup 安裝方法: 1.去網站http://www.crummy.com/software/BeautifulSoup/下載壓縮包 2.解壓到本地硬盤上 3.將名稱爲beautifulsoup4-
原创 scrapy連接mysql出錯
報錯內容大概是:connection localhost(無法連接localhost) 忘記截圖。。。。。只把解決方法寫進了txt settings.py文件中的設置: