A search spider i…

原創

2020-06-20 15:06

轉自http://blog.dharanasoft.com/2012/03/19/a-search-spider-in-ruby-using-capybara-webkit/

Posted: March 19, 2012 | Author: Deepak Prasanna | Filed under: Uncategorized |Leave a comment

When I first looked at Nokogiri, it was a redefining moment(atleast for me!) on how to screen scrap. Recently I found my love with cucumber and capybara-webkit. For newbies to capybara-webkit, it is a capybara driver which simulates a webkit browser for running tests. Perks? You get a simulated browser running in a headless mode, it supports javascript and its bloody fast! For more info, please checkout a previous article on how to get started. I was extremely bored this weekend, and all of a sudden an idea was born. I created a simple search spider using capybara-webkit which would fetch search results from google. And here is how I did it.


require 'ruby gems'


require 'capybara'


require 'capybara/dsl'


require 'capybara-webkit'


Capybara.run_server = false


Capybara.current_driver = :webkit


Capybara.app_host = "http://www.google.com/"


module Spider


 class Google


 include Capybara::DSL


 def search


 visit('/')


 fill_in "q", :with => ARGV[0] || "I love Ruby!"


 click_button "Google Search"


 all("li.g h3").each do |h3|


 a = h3.find("a")


 puts "#{h3.text}  =>  #{a[:href]}"

end

end

end

end


 spider = Spider::Google.new


spider.search

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

mac 如何快速找到host文件、並修改

1. 打開 Finder，然後點擊菜單欄中的前往——前往文件夾（或者快捷鍵 Shift+Command+G） 2. 在路徑中輸入 /etc/hosts 3. 將host文件拷貝到本地，修改之後，將本地的host文件拖入etc文件夾中,

提莫拌一团蘑菇

2020-07-08 00:32:18

mac下 webstorm輸入光標變成塊狀解決方法

原因： webstorm默認安裝 ideaVim 插件解決辦法： 1. 選擇 preferences.. 或快捷鍵 "command + , " 2. 取消勾選☑️

提莫拌一团蘑菇

2020-07-08 00:32:07

瀏覽器中的 preview 和 response 顯示的值不一致

背景：圖中是瀏覽器渲染的表結構，我們的節目ID在表結構中作爲主鍵ID，是不會存在重複的情況的，那到底是怎麼造成的呢？邏輯梳理：經過排查返回值，我們發現NetWork中的 preview 與我們頁面所展示出來的值一致，主

提莫拌一团蘑菇

2020-07-08 00:32:07

Vue報錯：Uncaught (in promise) DOMException: Failed to execute 'open' on 'XMLHttpRequest': Invalid URL

解決方法：配置文件 .env.development VUE_APP_BASE_API, 一定要加 http://

提莫拌一团蘑菇

2020-07-08 00:32:07

19c 探索高可用系列(二) - RAC+DataGuard Broker

19c 探索高可用系列(二) - RAC+DataGuard Broker 前言：在備庫需要清理昨天的環境： SQL> alter system set log_archive_dest_2=''; Sys

2020-07-02 08:35:58

oracle 統計信息查看與收集

一、查看錶統計信息 alter session set NLS_DATE_FORMAT='YYYY-MM-DD HH24:MI:SS'; select t.TABLE_NAME,t.NUM_ROWS,t.BLOCKS,t.LAST_A

2020-07-02 08:35:55

19c TAF 配置及測試

19c TAF 配置及測試一、添加services_taf： [root@ora19crac1 ~]# su - oracle Last login: Tue Mar 3 18:06:26 CST 2020 on pts/1

2020-07-02 08:35:55

19c OneNode Convert to RAC

一、查看狀態 [oracle@ora19crac1 ~]$ srvctl config database -d woo Database unique name: woo Database name: woo Oracle home:

2020-07-02 08:35:55

SQLPlus無法登錄數據庫提示密碼不對或權限不足

SQLPlus無法登錄數據庫提示密碼不對或權限不足問題現象： sqlpus / as sysdba,提示權限不足，sqlplus system/oracle@orcl無法登錄數據庫，實際密碼是正常的，但提示提示密碼不對。

2020-07-02 08:35:55

重定向到文件（+vc小提示）

暫時發現的重定向的意義：將測試數據儲存在某一特定文件中，每次運行程序時自動提取，能節省大量從控制檯（console）輸入數據的時間，尤其是在搞定ACM題的時候。 #pragma warning(disable:4996)

2020-06-24 08:36:51

轉--Python 錯誤和異常小結

原文鏈接 http://blog.csdn.net/sinchb/article/details/8392827 事先說明哦，這不是一篇關於Python異常的全面介紹的文章，這只是在學習Python異常後的一篇筆記式

2020-06-20 15:06:09

在MAC中安裝Compass的方法

轉自http://davylin.blog.163.com/blog/static/8138791201402624242641/ 在MAC中通過gem命令安裝compass時會出異常，原因是compass版本更新了，一些運行時

2020-06-20 06:53:00

IOS 開發--真機調試證書申請

蘋果真機調試需要證書(Certificates)和描述文件(Provisoning Profiles) 1、證書（Certificates）通過蘋果自帶的鑰匙串生成後上傳到Developer中再生成來完成 2、描述文件（Pr

2020-06-20 06:53:00

excel中插入行後能自動插入上一行…

轉自：http://www.hzhike.com/School/2011/201106/20110615181504.html 有動態圖

2020-06-20 06:53:00

IOS開發-使用藍牙(CoreBluetooth.f…

一. 先轉一篇很好的博文：轉自http://blog.csdn.net/chenli522/article/details/17114417 去App Store搜索並下載“LightBlue”這個App，對調試你的app和理解C

2020-06-20 06:53:00

24小時熱門文章

最新文章

最新評論文章