A DEMO script on how to use CPAN module HTML::LinkExtor

原創

2020-06-30 21:11

Last week I got a large book "Perl Cookbook". It mentions an useful module HTML::LinkExtor in the book, seems handy to use. Right now, I just wanted to crawl some docs from MVS-OE archive webpage, so I wrote a small script that can demo how to use the module.

use LWP::Simple;

use HTML::LinkExtor;

use URI::URL;

binmode STDOUT, ':utf8';

my $url = "http://www2.marist.edu/htbin/wlvindex?mvs-oe";

my $base = "http://www2.marist.edu/htbin";

my $ref_links = extract_link($url, "", "a", "href");

foreach(@$ref_links)

{

my $sub_url = $_;

print "Parsing sub url: ".$sub_url."\n";

my $thread_links = extract_link($sub_url, $base, "a", "href");

foreach(@$thread_links)

{

print "GET\n";

print $_."\n";

get($_);

}

}

sub extract_link()

{

my $url = shift;

my $base= shift; # base URL

my $mytag = shift; # specified html tag name, such as a, form ...

my $attr_name = shift; # link pattern

$base =~ s/\/$//g;

$ua = LWP::UserAgent->new or dir $!;

# Set up a callback that collect image links

my @links = ();

sub callback {

my($tag, %attr) = @_;

return if $tag ne $mytag; # we only look closer at <img ...>

push(@links, $attr{$attr_name});

}

# Make the parser. Unfortunately, we don't know the base yet

# (it might be different from $url)

my $p = HTML::LinkExtor->new(\&callback);

# Request document and parse it as it arrives

my $res = $ua->request(HTTP::Request->new(GET => $url),

sub {$p->parse($_[0])}) or die $!;

# Expand all image URLs to absolute ones

$base or $base = $res->base;

@links = map { $_= url($_, $base)->abs; } @links;

return \@links;

}

delete this gist

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

【解決】element表單動態添加或更新表單項，回顯後無法修改或提示爲空的問題

原方法 /** * 動態更新form * @param form */ updateForm(form) { this.form.manholeId = form.manholeId; this.form

2024-05-15 12:08:40

SharePoint Online 客製化開發：如何使用CSS更改網站主題背景顏色？

一般情況下公司爲了某個團隊或者公司內部共享數據等用途來更改網站的樣式，打造獨特的品牌樣式，很多研發工程師給定的解決方案是爲他們的站點構建自定義主頁，雖然SharePoint Designer是一個強大的工具，但這裏我不推薦使用ShareP

2024-05-14 02:00:35

第三次團隊作業（需求分析）

這個作業屬於哪個課程 <a href="https://edu.cnblogs.com/campus/fzzcxy/SE" target="_blank" style="color: #0099ff; text-decoration:

2024-05-14 00:03:14

O2OA翱途開發平臺前端API和後端API的訪問以及使用

O2OA是一個高度可定製化的企業級開發平臺，它的API（應用程序接口）分爲前端和後端，各自有不同的用途，平臺爲用戶開放了全部的後端API供開發者使用，開發者可以根據各類API組織出符合實際業務需求的新服務或者新業務，用於數據查詢，業務接

2024-05-13 22:50:31

Vue 學習筆記簡寫

一.Vue文件內容 <template> </template> <script> </script> <style> </style>

2024-05-13 21:42:40

鴻蒙原生應用已超4000個！

鴻蒙原生應用已超4000個！來自 HarmonyOS 微博近期消息，#鴻蒙千帆起# 重大里程碑！目前已有超4000個應用加入鴻蒙生態。從今年1月18日華爲宣佈首批200多家應用廠商正在加速開發鴻蒙原生應用，到3月底超4000個應用，短短

2024-05-13 12:26:37

鴻蒙原生應用再添新丁！瑞幸咖啡入局鴻蒙

鴻蒙原生應用再添新丁！瑞幸咖啡入局鴻蒙來自 @HarmonyOS 微博1月23日消息，國內擁有超過1.3萬家門店、累計服務超過2億客戶的瑞幸咖啡，已完#成鴻蒙原生應用#核心功能開發，大家以後可以隨時隨地在多種#HarmonyOS#終端

2024-05-13 12:26:35

鴻蒙原生應用再添一批新丁！阿里旗下11款應用、廣汽傳祺、嵐圖汽車、零跑汽車、凱翼汽車入局鴻蒙

鴻蒙原生應用再添一批新丁！阿里旗下11款應用、廣汽傳祺、嵐圖汽車、零跑汽車、凱翼汽車入局鴻蒙來自 HarmonyOS 微博近期消息，阿里旗下閒魚、1688、飛豬、餓了麼、盒馬、菜鳥、點淘、淘寶特價版、大麥、淘票票、燈塔專業版共1

2024-05-13 12:26:34

鴻蒙原生應用再添新丁！萬達入局鴻蒙

鴻蒙原生應用再添新丁！萬達入局鴻蒙來自 @HarmonyOS 微博1月11日消息，#萬達酒店及度假村啓動鴻蒙原生應用及元服務開發# 作爲具有中國特色的國牌服務酒店標杆之一，@萬達酒店及度假村Wanda 將帶來全新的服務和交互方式，

2024-05-13 12:26:31

鴻蒙生態千帆啓航！

2024年1月18日，華爲舉行的鴻蒙生態千帆啓航儀式，會上宣佈HarmonyOS NEXT鴻蒙星河版系統開發者預覽版開放申請。據介紹，鴻蒙星河版將實現原生精緻、原生應用、原生流暢、原生安全、原生智能、原生互聯六大極致原生體驗。Harmony

2024-05-13 12:26:29

鴻蒙原生應用再添一批新丁！墨跡天氣、北京銀行、快手、中國電信入局鴻蒙

鴻蒙原生應用再添一批新丁！墨跡天氣、北京銀行、快手、中國電信入局鴻蒙來自 HarmonyOS 微博近期消息，#鴻蒙千帆起#服務超七億用戶的天氣App@墨跡天氣，啓動鴻蒙原生應用開發，讓智慧體驗落地更多場景！[打call]鴻蒙星河版墨

2024-05-13 12:26:26

來了，永久免費的圖牀服務

前前後後也寫了很多博客和文章了，作爲一個資深的markdown用戶，我是非常喜歡markdown的簡潔語法，可以讓我在不太關注於文字格式的前提下，獲得比較好的閱讀和排版體驗。但是用markdown語法也有一個壞處，就是在向markdown

2024-05-13 09:47:53

使用NPS自建內網穿透服務器教程，帶WEB管理

自帶WEB管理的輕量級內網穿透工具NPS的各種搭建方式和使用教程，支持X86、ARM、MIPS平臺。 NPS介紹 nps是一款輕量級、高性能、功能強大的內網穿透代理服務器。目前支持TCP、UDP流量轉發，可支持任何tcp、udp上層協議（訪

2024-05-13 02:05:53

鴻蒙原生應用再添新丁！高德地圖入局鴻蒙

鴻蒙原生應用再添新丁！高德地圖入局鴻蒙來自HarmonyOS微博消息，12月1日#高德地圖#與華爲達成合作，將基於#HarmonyOS NEXT#啓動#鴻蒙原生應用#開發，成爲導航領域首個啓動鴻蒙原生應用開發的夥伴。依託#Harm

2024-05-13 00:24:53

鴻蒙原生應用再添兩員新丁！ B站、58入局鴻蒙

鴻蒙原生應用再添兩員新丁！B站、58入局鴻蒙來自HarmonyOS微博消息，11月27日，B站與華爲達成合作，並正式啓動B站#鴻蒙原生應用#開發。作爲一個年輕人高度聚集的視頻社區，B站內容上涵蓋數千個品類和圈層，日活躍用戶數近1億。

2024-05-13 00:24:50

24小時熱門文章

最新文章

最新評論文章