R044---如何用UiPath抓取數據(DataScraping)?

​一、緣起

      用UiPath的DataScraping(數據抓取)功能,鼠標點擊幾下,就可以實現抓取瀏覽器、應用程序或文檔界面結構化數據,可謂功能強大!

       抓取方式分爲兩種

    1. 自動抓取整張表內容;

    2. 按需求抓取需要的列內容 及 列內容的URL(超鏈接網址)。

        這個功能用得不多,不過還是很好用的,而且有點技巧在裏面,特此介紹。

 

二、數據抓取(DataScraping)

數據抓取使您可以將瀏覽器、應用程序或文檔中的結構化數據提取到數據庫,.csv文件甚至Excel電子表格中。

注意:

建議在Internet Explorer 11及更高版本、Mozilla Firefox 50或更高版本或最新版本的Google Chrome上使用該功能。

 

結構化數據是一種高度組織化的特殊信息,以可預測的方式呈現。

例如,所有Google搜索結果都具有相同的結構:頂部的鏈接,URL的字符串和網頁的描述。

這種結構使Studio可以輕鬆提取信息,因爲它始終知道在哪裏可以找到信息。

 

三、數據抓取向導的主要步驟

 

1. 打開要從中提取數據的網頁、文檔或應用程序界面,單擊“ 設計”選項卡中“ 數據收集”按鈕,

 

 

打開數組抓取向導:

點擊Next,然後選擇要抓取的數據的第一個單元格里面的內容:

然後,Studio會自動檢測您是否指示了表格單元格,並詢問您是否要提取整個表格:

 

  • 如果單擊“ 是”,進入自動抓取方式,“ 提取向導”將顯示所選數據所在的表的所有數據預覽:

 

再點擊Finish,進入第5步。

 

  • 如果單擊“ 否”,則進入按需的抓取模式,出現下面的界面:

點擊Next,回到要抓數據的界面,點擊同類型或同列第2個數據,

選擇後,Studio可以推斷出信息的模式,進入下面的界面。

 

2. 自定義列標題,然後選擇是否提取URL。

 

3. 點擊Next,進入預覽數據界面,編輯要提取的最大結果數,然後更改列的順序:

 

4. (可選)如果還需要抓取其他列,單擊提取相關數據(Extract Corralted Data)按鈕。這使您可以再次執行“ 提取向導”(也是需要兩次點擊同一類型數據),以提取其他信息並將其添加爲同一表中的新列。

 

5. 指示網頁,應用程序或文檔中的“ 下一步”(Next)按鈕(如果要提取的信息跨越多個頁面)。

       這裏需要告訴想到,是否需要它幫你點擊下一頁,以便收集所有的數據。如果選擇Yes,需要點擊“下一頁”按鈕,否則點擊No,完成嚮導。

 

       完成嚮導後,Studio中會生成一個序列:

 

 

       數據抓取始終會生成一個容器(“附加瀏覽器”或“附加窗口”),該容器帶有用於頂層窗口的選擇器,以及帶有部分選擇器的“ 提取結構化數據”活動,從而確保正確識別要抓取的應用程序。

 

       此外,“提取結構化數據”活動還帶有一個自動生成的XML字符串(在ExtractMetadata屬性中,其中自動抓取生成的內容很簡單,手動一列一列抓取的內容稍微複雜點,好在都是自動生成,無需太多關注),該字符串指示要提取的數據。

 

最後,所有已抓取的信息都存儲在你定義的DataTable變量(如上圖的ExtractDataTable)中,接下來,您就可以使用變量ExtractDataTable來保存到數據庫、csv文件或Excel電子表格。

 

四、可能遇到的問題

網頁文件是用html寫的,網頁看見的文字,可能被裹了很多層用於格式的代碼,如果抓取到不合適的層,可能抓取不到需要的URL,舉例如下:

抓取包裹文字所在的層,可以抓到URL,不在其被包裹的層,例如單元格。

 

五、總結

如果需要抓取URL,只能用第二種方式(按需取列)。

 

-End-

覺得有啓發,點個“在看”,轉給朋友們

附1:關於本公衆號

微信公衆號名稱:柴班說

歡迎轉載與分享,也請註明出處。

長按二維碼關注,一起在RPA的路上飛

 

附2:關於本文作者

 

微信號:chaijw

識別下面的二維碼,可以與作者進行更爲深入的交流。

 

附3:RPA、數據分析招聘

希望從事RPA行業的小夥伴,

請加我微信或郵件([email protected])發送簡歷

人員要求:本科,專業不限,適合這項工作即可。

 

附4:我們的RPA公衆號

公衆號ID:RPA2018

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章