機器學習之文本挖掘(初學1)

一. 這裏是基於對網頁進行文本提取

#coding:utf-8

from lxml import etree,html
import chardet

#HTML文件路徑,以及讀取文件

path = 'C:/Users/zs/Desktop/learning.html'                        #路徑
content = open(path,"rb").read()
print(type(content))                                                            # 輸出結果是<class 'bytes'>
page = html.document_fromstring(content)                      #解析文件
text = page.text_content()                                                 #去除所有標籤
# print type(text)
# print chardet.detect(text)
print(text)                                                                           #輸出去除標籤後的解析結果

知識點:

1.python用lxml解析HTML,這裏有一篇博客是關於xml的使用:https://blog.csdn.net/lxh199603/article/details/53192883

2.import chardet:是用來查看字符串編碼

3.補充一下‘bytes’類的一些知識:
    Bytes 對象只負責以二進制字節序列的形式記錄所需記錄的對象
# 。bytes是一種比特流,它的存在形式是01010001110這種。
#我們無論是在寫代碼,還是閱讀文章的過程中,肯定不會有
#人直接閱讀這種比特流,它必須有一個編碼方式,使得它變成有意義的比特流

二、

import sys
import os
import jieba

'''
python3 默認編碼是utf-8,所以這裏已經不需要這個了
reload(sys)
sys.setdefaultencoding('utf-8')
'''
seq_list=jieba.cut("小魚兒喜歡花無缺,也喜歡張衛健",cut_all=False)
print ("Default Mode:","/".join(seq_list))

seq_list=jieba.cut("小魚兒喜歡花無缺,也喜歡張衛健",cut_all=True)
print("Full Mode:","/".join(seq_list))

#搜索引擎模式
seq_list=jieba.cut_for_search("小魚兒喜歡花無缺,也喜歡張衛健")
print("search:","/".join(seq_list))

# 詞性標註
import jieba.posseg as pseg
words=pseg.cut("會飛的的驢")
for w in words:
    print(w.word,w.flag)

 

輸出結果:

Default Mode: 小魚兒/喜歡/花無缺/,/也/喜歡/張衛健
Full Mode: 小魚/小魚兒/魚兒/喜歡/花無缺/無缺///也/喜歡/張衛健
search: 小魚/魚兒/小魚兒/喜歡/無缺/花無缺/,/也/喜歡/張衛健
會 v
飛的 z
的 uj
驢 n

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章