用 RPA 做一個簡單的爬蟲

之前寫爬蟲一直都是用的 Scrapy，強大而高效，直到後來接觸了 RPA，呃，還是蠻適合新手的。

1、獲取文章標題和鏈接
獲取文章標題直接用“獲取文本”就可以了。
但獲取鏈接，就需要使用“獲取控件 html”這個組件，然後使用正則表達式了。

import re

message = '<a class="ft-a-title" href="https://support.i-search.com.cn/article/1587024373494" rel="bookmark" data-type="0" data-id="1587024373494">藝賽旗RPA控制檯與機器人的建議
        </a>'

res_url = r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')"
url = re.search(res_url ,message).group()

當然，文章的標題也可以這樣獲取到，但是可以少些代碼，幹嘛去多寫行代碼呢。

獲取標題 title 和鏈接 url 就這樣了，最後添加到一個空列表內進行保存：

2、獲取當前頁面所有文章的標題和鏈接
不同文章在頁面中的位置不一樣，看似很難，但其實簡單得很，只要修改下“查找路徑”這個參數就好了。
第一篇文章到最後一篇文章的 selector：

因此可以設置查找路徑爲：
‘body > DIV:nth-of-type(2) > DIV:nth-of-type(1) > DIV:nth-of-type(1) > DIV:nth-of-type(1) > DIV:nth-of-type(2) > UL:nth-of-type(1) > LI:nth-of-type(%d) > H2:nth-of-type(1) > A:nth-of-type(1)’%n