一、緣起
用UiPath的DataScraping(數據抓取)功能,鼠標點擊幾下,就可以實現抓取瀏覽器、應用程序或文檔界面結構化數據,可謂功能強大!
抓取方式分爲兩種:
-
-
自動抓取整張表內容;
-
按需求抓取需要的列內容 及 列內容的URL(超鏈接網址)。
-
這個功能用得不多,不過還是很好用的,而且有點技巧在裏面,特此介紹。
二、數據抓取(DataScraping)
數據抓取使您可以將瀏覽器、應用程序或文檔中的結構化數據提取到數據庫,.csv文件甚至Excel電子表格中。
注意:
建議在Internet Explorer 11及更高版本、Mozilla Firefox 50或更高版本或最新版本的Google Chrome上使用該功能。
結構化數據是一種高度組織化的特殊信息,以可預測的方式呈現。
例如,所有Google搜索結果都具有相同的結構:頂部的鏈接,URL的字符串和網頁的描述。
這種結構使Studio可以輕鬆提取信息,因爲它始終知道在哪裏可以找到信息。
三、數據抓取向導的主要步驟
1. 打開要從中提取數據的網頁、文檔或應用程序界面,單擊“ 設計”選項卡中“ 數據收集”按鈕,
打開數組抓取向導:
點擊Next,然後選擇要抓取的數據的第一個單元格里面的內容:
然後,Studio會自動檢測您是否指示了表格單元格,並詢問您是否要提取整個表格:
-
如果單擊“ 是”,進入自動抓取方式,“ 提取向導”將顯示所選數據所在的表的所有數據預覽:
再點擊Finish,進入第5步。
-
如果單擊“ 否”,則進入按需的抓取模式,出現下面的界面:
點擊Next,回到要抓數據的界面,點擊同類型或同列第2個數據,
選擇後,Studio可以推斷出信息的模式,進入下面的界面。
2. 自定義列標題,然後選擇是否提取URL。
3. 點擊Next,進入預覽數據界面,編輯要提取的最大結果數,然後更改列的順序:
4. (可選)如果還需要抓取其他列,單擊提取相關數據(Extract Corralted Data)按鈕。這使您可以再次執行“ 提取向導”(也是需要兩次點擊同一類型數據),以提取其他信息並將其添加爲同一表中的新列。
5. 指示網頁,應用程序或文檔中的“ 下一步”(Next)按鈕(如果要提取的信息跨越多個頁面)。
這裏需要告訴想到,是否需要它幫你點擊下一頁,以便收集所有的數據。如果選擇Yes,需要點擊“下一頁”按鈕,否則點擊No,完成嚮導。
完成嚮導後,Studio中會生成一個序列:
數據抓取始終會生成一個容器(“附加瀏覽器”或“附加窗口”),該容器帶有用於頂層窗口的選擇器,以及帶有部分選擇器的“ 提取結構化數據”活動,從而確保正確識別要抓取的應用程序。
此外,“提取結構化數據”活動還帶有一個自動生成的XML字符串(在ExtractMetadata屬性中,其中自動抓取生成的內容很簡單,手動一列一列抓取的內容稍微複雜點,好在都是自動生成,無需太多關注),該字符串指示要提取的數據。
最後,所有已抓取的信息都存儲在你定義的DataTable變量(如上圖的ExtractDataTable)中,接下來,您就可以使用變量ExtractDataTable來保存到數據庫、csv文件或Excel電子表格。
四、可能遇到的問題
網頁文件是用html寫的,網頁看見的文字,可能被裹了很多層用於格式的代碼,如果抓取到不合適的層,可能抓取不到需要的URL,舉例如下:
抓取包裹文字所在的層,可以抓到URL,不在其被包裹的層,例如單元格。
五、總結
如果需要抓取URL,只能用第二種方式(按需取列)。
-End-
覺得有啓發,點個“在看”,轉給朋友們
附1:關於本公衆號
微信公衆號名稱:柴班說
歡迎轉載與分享,也請註明出處。
長按二維碼關注,一起在RPA的路上飛
附2:關於本文作者
微信號:chaijw
識別下面的二維碼,可以與作者進行更爲深入的交流。
附3:RPA、數據分析招聘
希望從事RPA行業的小夥伴,
請加我微信或郵件([email protected])發送簡歷
人員要求:本科,專業不限,適合這項工作即可。
附4:我們的RPA公衆號
公衆號ID:RPA2018