原创 使用selenium爬取百度文庫文章(動態)

運行平臺: Windows Python版本: Python3.x IDE: Sublime text3 前言問題分析預備知識 1 Selenium 11 簡介12 安裝13 基礎知識 131 小試牛刀132 模擬提交133 元

原创 分別使用Frame和JFrame新建可關閉窗體及二者異同

在學習java的GUI界面的時候,第一步就是窗體的實現。用java代碼實現窗體有兩個包可以使用,分別是java.Awt和javax.Swing 但是前者需要調用本地系統方法實現功能(屬重量級控件),而後者是在AWT的基礎上建立的一套圖形界

原创 在maven項目中使用webmagic框架的初期準備工作

這幾天在學習爬取動態頁面,曾經嘗試過用正則從<script>標籤中截取需要的信息,確實能夠 拿到需要的信息,但是費時費力,不太好用。後來,發現了一個框架叫做webmagic,然後就 嘗試着用它來爬取數據,用了之後發現很方便。現在就看看需要

原创 用java+selenium啓動chrome瀏覽器時報錯Exception in thread "main" org.openqa.selenium.NoSuchSession

現在很多網頁內容都是動態生成的,動態頁面信息的提取可以使用selenium。提取動態頁面信息的 其中一種方法就是啓動瀏覽器執行js代碼,那麼第一步就是要先啓動瀏覽器。 下面上代碼: import org.openqa.selenium.W

原创 git 解決fatal: Not a git repository

我用git add file添加文件時出現了這樣錯誤: fatal: Not a git repository (or any of the parent directories): .git 提示說沒有.git這樣一個目錄,解決辦

原创 用Java和webmagic爬取圖片並下載到本地(動態網頁)

上篇記錄了一下用java代碼爬取圖片並下載到本地的代碼,但是那只是對於一張圖片。如果要很多圖片的話, 就需要把代碼改一下。如果是靜態頁面,可以不用webmagic(不過用webmagic更加方便);動態的話,需要 用到selenium。在