Hrefer教程【超越官方】

Hrefer是Xrumer配套軟件,是一款全能的、極具潛力的搜索引擎抓取利器。Hrefer可以適用於Google, Bing, Yahoo, Altavista, MSN等主流搜索引擎。有兩段視頻,一定要看,背景音樂很不錯。

http://www.56.com/u25/v_NjQyMDM5MzQ.html
http://www.56.com/u52/v_NjQyMDQyMjU.html

此教程爲結合自己的瞭解,自主翻譯,如有不足請支出修改。看完此教程能夠更好的瞭解Hrefer,下面開始超越官方的Hrefer教程



Hrefer界面
225426p0kn5wx0kz8n8cwc.png

Hrefer的設置項
225430vfip4fvmmte1m4e9.png
Convert all links to index. 把收穫的鏈接轉變爲首頁鏈接(只支持論壇類型)
Reject domains with level lower than 2.  過濾二級以上的域名
Check all links “200 OK” response (will work SLOWLY). 檢測鏈接200 OK狀態。會降低獲取鏈接的速度
Log founded hight-PR freehostings into the FreeBonus.txt. 記錄高PR子域名,並且提供免費的hosting到FreeBonus.txt(在Hrefer根目錄)
Enable filtering of duplicated links by hostnames. 程序運行時,過濾重複域名
Enable filtering of duplicated links on loading links database. 開啓程序時,過濾重複域名(每次開啓都會進行)
By hostnames and by entire URL. 按域名或者url
Deep of parsing (pages). 限制Parse頁面數
Do not use additive words. 禁用“additional words”
Disable filtering harvested links by Sieve-filter. 禁用"Sieve-filter"
Query ordering. 搜索命令排列順序
New query for each search engine or Same queries for each search engine SE是新的請求 還是 同樣的請求
Auto resumption parsing after program starting. 自動開始
Parsing delay. 不同SE之間的請求間隔時間
Save ‘query -> URL’ into to filename_query.txt. 保存找到url的關鍵詞到文本

不管用哪個SE獲取數據,Hrefer中的Words和Additive Words都是必不可少的內容。
Words 通過儘可能多的詞,增加對SE的請求,來增加獲得url的可能性
Additive Words 特徵詞,一般爲網站程序的特徵代碼(footprints)

Words database界面
225443d7z0mxib02dbp0ud.png
通過“Create New!” 可以用來創建新的 Words database

可以通過以下幾種方式得到Words databse數據
1. 詞庫 (可以輕易找到以下類型的words)
Top 500 English words
Top 2300 English words
26,000 English words
150,000 English words

2. 字典
在google中搜素“English dictionary filetype:txt”。可以找到很多字典類的內容。

3. 書籍
網站上有很多電子書可以下載到。最好是找到txt格式的。例如,manybooks.net(很贊,可以直接免費下載txt格式的電子書)。
接下來“Create New!” ,然後“Add words from text file…” 把剛纔的txt格式的電子書導進去。輕鬆獲得大量的Words。

可以到找些書籍,合併後再導入,這樣一次就可以獲得更多的Words。

4. Google
“Add words from Google…” ,“Enter keyword”,“Choose Language”  該方法是抽取搜索頁面中的單詞

Additive Words界面
225421dp3caog3eda5p3pc.png
Additive Words 也是添加儘可能多的詞

下面來分析下Simple Machines這種類型的論壇。紅色框出來的詞,就可以認爲是特徵詞。

先來看看首頁
225406nyr542l0n51xi562.png
Welcome, Guest
Please login or register
Login with username
General Category
General Discussion
Posts
Topics
Last post by
Posts in
Topics by
Members
Latest Member
View the most recent posts on the forum
recent posts
More Stats
Users Online
Guests
Users
Users active in past 15 minutes
Most Online Today
Most Online Ever
Login
Forgot your password
Username
Password
Minutes to stay logged in
Always stay logged in
Powered by SMF
SMF 2006-2011
Simple Machines LLC

再來看看論壇分類頁面
2254131t1j3bg18dpud8xd.png
Subject
Started by
Replies
Views
Last post
Jump to
Topic
you have posted in
Normal Topic
Hot Topic
More than 15 replies
Very Hot Topic
More than 25 replies
Locked Topic
Sticky Topic
Poll

還要看看發帖的頁面
225417zvkxhcvxxxx8zcvv.png
Did you miss your activation email
Pages
Administrator
Member
Newbie
Logged
previous
next
Author
Print
Topic
Reply

Profile頁面也要找找
225420q24ol4hholhos11h.png
Summary
Name
Posts
Position
Date Registered
Last Active
ICQ
AIM
MSN
YIM
Current Status
Picture/Text
Gender
Age
Location
Local Time
Language Signature
Show the last posts of this person
Show general statistics for this member

這幾個頁面的url
index.php/board
index.php/topic
index.php?action=profile
index.php?action=register
index.php?action=login
index.php?action=help

然後把以上找到的特徵代碼整理下,添加到“Additive words”,這樣一個比較全面的SMF類型論壇的footprints就找到了。

如果是需要其他語言的SMF呢?
1. 以上找特徵碼的網站,直接在特定的語言去找。(不過語言不通是個不小的問題)
2. Google翻譯,這個強大的工具應該會想到吧?看圖。
225434o8slcb2peq2be1lu.png


Search Engines options & Filter界面

SE:可以選擇搜索引擎
Sieve-filter:保存的鏈接必須與所填的數據匹配

自帶的沒太大作用,可以試試下面的這些:
topic.php?forum=
yabb.cgi?board=
yabb.pl?board=
index.php?topic=
index.php?board=
posting.php?mode=
ikonboard.cgi?s=
viewtopic.php?topic_id=
showflat.php?cat=
newreply.php?s=
showthread.php?postid=
showtopic.php?threadid=
viewthread.php?s=
dcboard.cgi?az=
forum_viewpost.asp?tid=
newreply.php?do=
viewtopic.php
showthread.php
showtopic
forumdisplay.php
viewforum.php
showforum
http://forum.
http://forums.
http://foro.
http://phorum/
/forum/
/forums/
/foro/
/phorum/

Multithreading界面
225427iwz55vz6e1aevyoo.png
這裏可以調節代理檢測和獲取鏈接的線程數。還有就是每個請求之間的暫停時間。


Proxylist 界面
225436hd27mp9ds4np6rn1.png

Proxylist Optionns 界面
225435xj398msp73vg77zz.png
URL to checker HTTP-proxy 和 URL to Checker SOCKS中的地址一定要修改成自己的地址,要不代理會無法使用。在Hrefer/proxyc目錄下面,的list.txt文件下面是用來找到proxy的地址。這裏是重點,儘可能去找更多的list吧。

獲得proxy的一項方法:
1. 買
2. 創建自己的proxy list
3. 找/proxyc/engine.php  Google “inurl:/proxyc/engine.php HTTP_HOST”

Sort link database by PR界面 (點擊左上角Tools,可以找到)
225442zq2qc1huhwacz4ac.png
排序方法
1. Standard 根據PR降序排列
2. Multisort 分成十份文件,每個文件相同的PR
3. Sort in range 只選擇指定的PR範圍排序


原文地址: http://photek30en.blogspot.com/2 ... ware-functions.html

原視頻地址:
www.youtube.com/watch?v=R7KCrMVxsmM
www.youtube.com/watch?v=FWxFpCg89BI

作者:puzzup


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章