原创 Java調用phantomjs採集ajax加載生成的網頁

日前有采集需求,當我把所有的對應頁面的鏈接都拿到手,準備開始根據鏈接去採集(寫爬蟲爬取)對應的終端頁的時候,發覺用程序獲取到的數據根本沒有對應的內容,可是我的瀏覽器看到的內容明明是有的,於是瀏覽器查看源代碼也發覺沒有,此時想起該網頁應該

原创 PhantomJS應用簡介

Phantom JS是一個服務器端的 JavaScript API 的 WebKit。其支持各種Web標準: DOM 處理, CSS 選擇器, JSON, Canvas, 和 SVG 使用場景: 無需瀏覽器的 Web 測試 頁面訪問自動

原创 七位高僧大德的臨終開示,非大福報者不得見

http://www.xuefo.net/nr/article47/465546.html 一、印光大師   印光大師臨終時當晚對身邊的弟子說:“淨土法門,別無奇特,只要懇切至誠,沒有不蒙佛接引,帶業往生。”   此後精神逐漸疲憊,體溫

原创 Spark服務啓動的一些總結

1、我理解常用的Spark部署方式有三種 1)、本地服務,就是所謂的local,在IDE上本地跑程序,用於調試 2)、Standalone,使用自己的master/worker進行服務的調度。 脫離yarn的資源管理 3)

原创 Spark學習(文件讀取路徑)

在不同的啓動模式下,加載文件時的路徑寫法是不一樣的,對於local模式下,默認就是讀取本地文件,而在standlone或者yarn-client,或者cluster模式下,默認讀的都是hdfs文件系統,這幾種模式下很難讀取本地文件(這是很

原创 簡單瞭解JavaScript操作XPath的一些基本方法

XPath構建於XML之上,以表示路徑的方式來確定XML中元素位置,事實上並不是太常用,這裏我們來簡單瞭解JavaScript操作XPath的一些基本方法 # Xpath現在很少被我們使用,因爲JSON現在很盛行。可是在XML做爲數

原创 Linux 如何清理殭屍進程

今天在維護服務器的時候,發現有5個nova-novncproxy的殭屍進程。 26327 ? S 0:05 _ /usr/bin/python /usr/bin/nova-novncproxy –config-

原创 Linux-top命令使用總結

簡介 top命令是Linux下常用的性能分析工具,能夠實時顯示系統中各個進程的資源佔用狀況,類似於Windows的任務管理器。 top顯示系統當前的進程和其他狀況,是一個動態顯示過程,即可以通過用戶按鍵來不斷刷新當前狀態.如果在前