nodejs單頁面爬蟲(二)--解決編碼問題

    上次寫的爬蟲雖然數據爬下來了,但是有亂碼問題。查了相關的書之後,找到解決辦法。重新寫了一下,好像比之前更簡潔了。

    解決辦法是:引入iconv-lite模塊,用來轉換編碼的網頁內容。

這次跟着書上用了request模塊,而不是用原來的http模塊。

var request = require('request');
var cheerio = require('cheerio');
var iconv = require('iconv-lite');


//博客標題
request({
	url:'http://qmkkd.blog.51cto.com/',
	encoding:null
	},function(err,res,body){
	
	if(err) return console.log(err);

	body = iconv.decode(body,'gbk');

	//根據網頁內容創建DOM操作對象
	var $ = cheerio.load(body);

	//讀取博文類別列表
	var bloglist = [];
	$('.blogList .artHead h3 a').each(function(){
		var $me = $(this);
		var name = $me.text().trim();
		bloglist.push(name);
	});

	//輸出結果
	console.log(bloglist);
});



結果如下:

wKiom1e_0j2hN9nqAABMpT9qjWk466.jpg


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章