nodejs之爬蟲網頁的信息

1."cheerio"，一個nodeJS模塊，類似於jquery，可以將html頁面的char轉換爲document文檔對象，然後用類似於jquery的方式進行操作DOM
2.編寫crawler.js文件
3.在 crawler.js目錄下使用如下命令安裝cheerio： npm install cheerio

4.然後運行 crawler.js

//引進所需模塊
var  http    = require('http')
var  cheerio = require('cheerio')
var  url     = "http://www.imooc.com/learn/348"

//html分析、處理函數;需要安裝模塊 npm install cheerio

function filterChapters(html){
        var $ = cheerio.load(html)//加載html
        //獲取所有章數
        var chapters = $('.chapter')
        var courseData = []//課程數組
        //遍歷
        chapters.each(function(item){
        	var chapter      = $(this)
        	var chapterTitle = chapter.find('strong').text()
        	var videos       = chapter.find('.video').children('li')
        	var chapterData  = {
        		chapterTitle:chapterTitle,
        		videos:[]
        	}
        	videos.each(function(item){
        		var video      = $(this).find('.J-media-item')
        		var videoTitle = video.text()
        		var id         = video.attr('href').split('video/')[1]

        		 chapterData.videos.push({
        		 	title:videoTitle,
        		 	id:id
        		 })
        	})

        	courseData.push(chapterData)

        })

        return  courseData
}


function printCourseInfo(courseData){
   courseData.forEach(function(item){
   	var chapterTitle = item.chapterTitle
   	console.log(chapterTitle+ '\n' )
   	item.videos.forEach(function(video){
   		console.log('【'+video.id+'】'+video.title+'\n')

   	})
})

}
http.get(url,function(res){

	//獲取html 
	var html = ''
	res.on('data',function(data){
		html += data
	})

	res.on('end',function(){
		//處理html
	var  courseData =  filterChapters(html)
	     printCourseInfo(courseData)
	})

}).on('error',function(){
   console.log('獲取課程出錯！')
})

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

nodejs之爬蟲網頁的信息

vue項目獲取富文本編輯器wangEditor內容導出爲word（html轉word格式並下載）

dotnet C# 創建 X11 應用時設置窗口背景顏色

Navicat安裝與激活教程

TDengine docker安裝方法

vue3組件通信與props

sapui5

Alpine Linux apk add DNS lookup error

部分JDK版本的發佈時間

工作中用到的腳本合集

合併代碼時Beyond Compare設置

nginx 相對 apache 比較，總結一下

項目開發-後臺管理框架

【Eclipse】eclipse中格式化代碼配置方法

項目經理必備工具-個人推薦

APICloud 開發app 之工具：Sublime插件

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結