原创 python3實現網絡爬蟲(4)--BeautifulSoup使用(3)

這一次我們繼續來講一下BeautifulSoup的相關知識,說一下BeautifulSoup導航樹的相關內容。      在上一次的博客中我們瞭解到findAll函數通過標籤的名稱和屬性來查找標籤,但有的時候在進網頁中的內容爬取時,我們會

原创 python3實現網絡爬蟲(2)--BeautifulSoup使用(1)

這一次我們來了解一下美味的湯--BeautifulSoup,這將是我們以後經常使用的一個庫,並且非常的好用。 BeautifuleSoup庫的名字取自劉易斯·卡羅爾在《愛麗絲夢遊仙境》裏的同名詩歌。在故事中,這首歌是素甲魚唱的。就像它在仙

原创 文檔的相似度(1)--Jaccard相似度與文檔的shingling

     在當今的計算機高速發展的時代,對於文章的查重等涉及到數據比對的需求越來越高了。      爲了識別字面上相似的文檔,日常生活中我們所做的就是比對兩個文檔中相似的語句的比重,如果大部分內容都是相同的話,那麼我們就會判定這兩篇文檔很

原创 python3中eval函數用法簡介

python中eval函數的用法十分的靈活,這裏主要介紹一下它的原理和一些使用的場合。 下面是從python的官方文檔中的解釋:    The arguments are a string and optional globals an

原创 文檔的相似度(3)--局部敏感哈希算法

         此篇博客將會接着上一篇博客繼續文檔相似度的分析。 在上篇博客中我們已經可以利用最小哈希簽名對文檔間的相似度進行分析了,但是我們應該要發現,及時可以使用最小哈希簽名將大文檔壓縮成小的簽名同時保持任意對文檔之間的預期相似度,

原创 數據結構(c++)(1)-- 棧

      最近在複習數據結構(我用的是數據結構與算法分析c++描述 第三版的書,很不錯的書,有興趣的可以去看看)的相關知識,順便就做了些整理,以供參考。       棧(stack)是限制插入和刪除操作只能在一個位置進行的表,該位置是表

原创 python3實現網絡爬蟲(3)--BeautifulSoup使用(2)

在這一次的內容中,我們繼續討論BeautifulSoup的一些操作,我們這次只討論幾個在實踐中用處特別大的幾個函數。 這次我們將學習通過屬性查找標籤的方法,標籤組的使用。 我們一起回憶一下,基本上,我們見過的每個網站都會使用層疊樣式表(c

原创 python3實現網絡爬蟲(5)--模擬瀏覽器抓取網頁

      本來準備繼續分析BeautifulSoup的,但是好多網頁都是反爬蟲的,想分析沒法分析了 ,那麼就跳一節吧,我們先看看如何模擬瀏覽器進行訪問網頁,然後再折回去繼續說BeautifulSoup。       由於前面我已經用py

原创 python分析作業提交情況

      這次做一個比較貼近我實際的東西: 要求:     將服務器中交作業的學生(根據文件的名字進行提取)和統計成績的表格中的學生的信息進行比對,輸出所有沒有交作業的同學的信息(學號和姓名),並輸出所交的作業中命名格式有問題的文件名

原创 python3實現網絡爬蟲(6)--正則表達式和BeautifulSoup配合使用

      這一次介紹下正則表達式和BeautifulSoup結合使用。       對於正則表達式,在python中是一種很好的工具,可以幫助我們匹配我們需要的數據,當然了這些數據肯定是符合某些共性的,才能被我們的正則表達式所捕獲。我們

原创 python中模擬瀏覽器抓取網頁(-)

      對於平時我們抓取網頁的內容時,比較傾向於直接利用urllib進行抓取(這裏我就基於python的2.7版本進行解說,對於python3之後的版本,是將python中的urllib和urllib2和併成了urllib),但有些網

原创 java操作mysql時執行帶有日期語句的誤區

最近在寫服務器端的一些接口,在用java對mysql進行含有日期信息的查詢的時候,遇到了一些問題,分享一下 。 首先把數據庫中的一個用於用戶簽到的表的代碼部分貼出來:create table signUpInfo ( phoneNum n

原创 python3實現網絡爬蟲(7)-- 使用ip代理抓取網頁

在抓取一個網站的信息時,如果我們進行頻繁的訪問,就很有可能被網站檢測到而被屏蔽,解決這個問題的方法就是使用ip代理 。在我們接入因特網進行上網時,我們的電腦都會被分配一個全球唯一地ip地址供我們使用,而當我們頻繁訪問一個網站時,網站也正是

原创 文檔的相似度(2)--最小哈希簽名

           接着上一篇的博客繼續下去,這篇博客主要講下最小哈希簽名的東西。           對於上篇博客中提到的shingle,可以說是在壓縮數據量的基礎上又儘可能保留了源文檔的特徵,以便於後面對不同的文檔進行相似度比較。但

原创 文檔的相似度(4)--總結

經過前三篇博客的介紹,關於文檔相似度的分析已經基本結束了,下面做下總結。        此處給出一個完整的相似項發現方法:        首先找出可能的候選對相似文檔集合,然後基於該集合發現真正的相似文檔。必須強調的是,這種方法可能會產生