R044---如何用UiPath抓取數據(DataScraping)?

原創

柴班说

2020-07-01 20:35

一、緣起

用UiPath的DataScraping（數據抓取）功能，鼠標點擊幾下，就可以實現抓取瀏覽器、應用程序或文檔界面結構化數據，可謂功能強大！

抓取方式分爲兩種：

1. 自動抓取整張表內容；
2. 按需求抓取需要的列內容及列內容的URL（超鏈接網址）。

這個功能用得不多，不過還是很好用的，而且有點技巧在裏面，特此介紹。

二、數據抓取（DataScraping）

數據抓取使您可以將瀏覽器、應用程序或文檔中的結構化數據提取到數據庫，.csv文件甚至Excel電子表格中。

注意：

建議在Internet Explorer 11及更高版本、Mozilla Firefox 50或更高版本或最新版本的Google Chrome上使用該功能。

結構化數據是一種高度組織化的特殊信息，以可預測的方式呈現。

例如，所有Google搜索結果都具有相同的結構：頂部的鏈接，URL的字符串和網頁的描述。

這種結構使Studio可以輕鬆提取信息，因爲它始終知道在哪裏可以找到信息。

三、數據抓取向導的主要步驟

1. 打開要從中提取數據的網頁、文檔或應用程序界面，單擊“ 設計”選項卡中“ 數據收集”按鈕，

打開數組抓取向導：

點擊Next，然後選擇要抓取的數據的第一個單元格里面的內容：

然後，Studio會自動檢測您是否指示了表格單元格，並詢問您是否要提取整個表格：

如果單擊“ 是”，進入自動抓取方式，“ 提取向導”將顯示所選數據所在的表的所有數據預覽：

再點擊Finish，進入第5步。

如果單擊“ 否”，則進入按需的抓取模式，出現下面的界面：

點擊Next，回到要抓數據的界面，點擊同類型或同列第2個數據，

選擇後，Studio可以推斷出信息的模式，進入下面的界面。

2. 自定義列標題，然後選擇是否提取URL。

3. 點擊Next，進入預覽數據界面，編輯要提取的最大結果數，然後更改列的順序：

4. （可選）如果還需要抓取其他列，單擊提取相關數據（Extract Corralted Data）按鈕。這使您可以再次執行“ 提取向導”（也是需要兩次點擊同一類型數據），以提取其他信息並將其添加爲同一表中的新列。

5. 指示網頁，應用程序或文檔中的“ 下一步”（Next）按鈕（如果要提取的信息跨越多個頁面）。

這裏需要告訴想到，是否需要它幫你點擊下一頁，以便收集所有的數據。如果選擇Yes，需要點擊“下一頁”按鈕，否則點擊No，完成嚮導。

完成嚮導後，Studio中會生成一個序列：

數據抓取始終會生成一個容器（“附加瀏覽器”或“附加窗口”），該容器帶有用於頂層窗口的選擇器，以及帶有部分選擇器的“ 提取結構化數據”活動，從而確保正確識別要抓取的應用程序。

此外，“提取結構化數據”活動還帶有一個自動生成的XML字符串（在ExtractMetadata屬性中，其中自動抓取生成的內容很簡單，手動一列一列抓取的內容稍微複雜點，好在都是自動生成，無需太多關注），該字符串指示要提取的數據。

最後，所有已抓取的信息都存儲在你定義的DataTable變量（如上圖的ExtractDataTable）中，接下來，您就可以使用變量ExtractDataTable來保存到數據庫、csv文件或Excel電子表格。

四、可能遇到的問題

網頁文件是用html寫的，網頁看見的文字，可能被裹了很多層用於格式的代碼，如果抓取到不合適的層，可能抓取不到需要的URL，舉例如下：

抓取包裹文字所在的層，可以抓到URL，不在其被包裹的層，例如單元格。

五、總結

如果需要抓取URL，只能用第二種方式（按需取列）。

-End-

覺得有啓發，點個“在看”，轉給朋友們

附1：關於本公衆號

微信公衆號名稱：柴班說

歡迎轉載與分享，也請註明出處。

長按二維碼關注，一起在RPA的路上飛

附2：關於本文作者

微信號：chaijw

識別下面的二維碼，可以與作者進行更爲深入的交流。

附3：RPA、數據分析招聘

希望從事RPA行業的小夥伴，

請加我微信或郵件([email protected])發送簡歷

人員要求：本科，專業不限，適合這項工作即可。

附4：我們的RPA公衆號

公衆號ID：RPA2018

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

R044---如何用UiPath抓取數據(DataScraping)?

注意：

R021---UiPath中實現循環的七種方法（第2版）

X011---Alteryx將工作流及其依賴項導出爲.yxzp包文件

R027---Uipath調用python程序的exe

R042---UiPathのactivity之Save excel as

R022---手動激活(非命令行方式)UiPath企業版Studio

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結