ObjC利用正則表達式抓取網頁內容(網絡爬蟲)

在開發項目的過程,很多情況下我們需要利用互聯網上的一些數據,在這種情況下,我們可能要寫一個爬蟲來爬我們所需要的數據。一般情況下都是利用正則表達式來匹配Html,獲取我們所需要的數據。一般情況下分以下三步。

1、獲取網頁的html

2、利用正則表達式,獲取我們所需要的數據

3、分析,使用獲取到的數據,(例如,保存到數據庫)

接下來我們分析代碼:

1、獲取網頁的html

  對於一些網頁,不需要提交Post提交數據時,我們可以簡單的利用NSURL類來獲取我們所需要的html,交將其轉換中kCFStringEncodingGB_18030_2000格式,解決中文亂碼問題。

+(NSString*) urlstring:(NSString*)strurl{
    NSURL *url = [NSURL URLWithString:strurl];
    NSData *data = [NSData dataWithContentsOfURL:url];

    NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000); 
    NSString *retStr = [[NSString alloc] initWithData:data encoding:enc];

    //NSLog(@" html = %@",retStr);

    return retStr;
  }
對於需要Post提交數據的網頁,我們可以利用強大的ASIFormDataRequest類來實現,例如:
+(void)getPostResult:(NSString*)startqi{
ASIFormDataRequest *request = [[ASIFormDataRequest alloc] initWithURL:[NSURL URLWithString:URLPost]];
  
[request setPostValue:startqi forKey:@"startqi"];
[request setPostValue:@"20990101001" forKey:@"endqi"];
[request setPostValue:@"qihao" forKey:@"searchType"];//網頁的中的搜索方式
[request startSynchronous];

NSData* data = [request responseData];

if (data==nil) {
FCLOG(@"has not data");
}
else{
NSStringEncoding enc = CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000); 
NSString *retStr = [[NSString alloc] initWithData:data encoding:enc];
FCLOG(@"html = %@",retStr); 
}
}
這樣的話,我們就通過了兩種方式獲取了我們所需要的html

2、分析html

  關於利用正則表達式匹配問題,我又對NSString類擴展了一個方法-(NSMutableArray *)substringByRegular:(NSString *)regular。根據傳入的正則表達式,返回所有匹配的數組。

@implementation NSString(StringRegular)


-(NSMutableArray *)substringByRegular:(NSString *)regular{

  NSString * reg=regular;

NSRange r= [self rangeOfString:reg options:NSRegularExpressionSearch];

NSMutableArray *arr=[NSMutableArray array];

if (r.length != NSNotFound &&r.length != 0) {

int i=0;

while (r.length != NSNotFound &&r.length != 0) {

FCLOG(@"index = %i regIndex = %d loc = %d",(++i),r.length,r.location);

NSString* substr = [self substringWithRange:r];

FCLOG(@"substr = %@",substr);

[arr addObject:substr];

NSRange startr=NSMakeRange(r.location+r.length, [self length]-r.location-r.length);

r=[self rangeOfString:reg options:NSRegularExpressionSearch range:startr];
}
}
return arr;
}
@end
在這種情況下,我們首先我得到我們要獲取數據的正則表達式,關於正則表達式這種火星文我就不多說了,我也很糾結,我就不多說了,但是有一點就是,所寫的正則表達式一定是我們所需要的數據,並且能夠屏蔽無效信息的,有可能在一次匹配中無法獲取,可以多次利用正則表達式來分段獲取。下面是我的語句,在我的例子中,就是兩次利用正則表達式。
NSString *regstr = @"<td class=\'z_bg_05\'>\\w{11}</td><td class=\'z_bg_13\'>(\\w{2}\\s{0,1})*</td>";
NSMutableArray *arr=[strhtml substringByRegular:regstr];
3、分析或利用數據,在這裏,我只是利用上一篇博客上所述方法簡單的把這些數據保存到了數據庫(sqlite3)中。

其實在這個arr數組中一條就是對應我數據庫表中的一條記錄,但是像td class等這些信息我是不需要的,所以再次利用正則表達式來分析NSString
if (arr!=nil&&[arr count]>0) {

NSString *prereg=@"\\w{11}";
NSString *backreg=@"(\\w{2}\\s{0,1}){8}";

TicketResultService *service=[[TicketResultService alloc] init];
[[Sqlite3Helper Instance] openDB];
for (NSString *sub in arr) {

TicketResult* r=[[[TicketResult alloc] init] autorelease];

NSMutableArray* prearr=[sub substringByRegular:prereg];

if (prearr!=nil&&[prearr count]>0) {
r.sectionID=(NSString*)[prearr objectAtIndex:0];
}
else{
continue;
}

NSMutableArray *backarr=[sub substringByRegular:backreg];
if (backarr!=nil&&[backarr count]>0) {
r.result=[backarr objectAtIndex:0];
}
else{
continue;
}

if([service isExist:r.sectionID]){
continue;
}

r.type=[NSNumber numberWithInt:1];

[service addModel:r];

}
[[Sqlite3Helper Instance] closeDB];

[service release];
}
以上爬蟲纔算正式完成,其實,在此之前還有一個第0步,即判斷設備目前的網絡狀態,如果沒有聯網的就沒有必要去爬蟲了,因爲你也爬不到任何的數據。判斷網絡狀態我是利用Apple官方的一個例子Reachability,網上也有很多關於這個的例子,我就不再細說了,非常感謝網上的各位大牛們提供的很好的辦法,讓我能更快的寫出這些。




發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章