機器學習之文本挖掘（初學1）

原創

NicSmallFish

2020-06-14 14:36

一. 這裏是基於對網頁進行文本提取

#coding:utf-8

from lxml import etree,html
import chardet

#HTML文件路徑，以及讀取文件

path = 'C:/Users/zs/Desktop/learning.html' #路徑
content = open(path,"rb").read()
print(type(content)) # 輸出結果是<class 'bytes'>
page = html.document_fromstring(content) #解析文件
text = page.text_content() #去除所有標籤
# print type(text)
# print chardet.detect(text)
print(text) #輸出去除標籤後的解析結果

知識點：

1.python用lxml解析HTML，這裏有一篇博客是關於xml的使用：https://blog.csdn.net/lxh199603/article/details/53192883

2.import chardet：是用來查看字符串編碼

3.補充一下‘bytes’類的一些知識：
Bytes 對象只負責以二進制字節序列的形式記錄所需記錄的對象
# 。bytes是一種比特流，它的存在形式是01010001110這種。
#我們無論是在寫代碼，還是閱讀文章的過程中，肯定不會有
#人直接閱讀這種比特流，它必須有一個編碼方式，使得它變成有意義的比特流

二、

import sys
import os
import jieba

'''
python3 默認編碼是utf-8，所以這裏已經不需要這個了
reload(sys)
sys.setdefaultencoding('utf-8')
'''
seq_list=jieba.cut("小魚兒喜歡花無缺，也喜歡張衛健",cut_all=False)
print ("Default Mode:","/".join(seq_list))

seq_list=jieba.cut("小魚兒喜歡花無缺，也喜歡張衛健",cut_all=True)
print("Full Mode:","/".join(seq_list))

#搜索引擎模式
seq_list=jieba.cut_for_search("小魚兒喜歡花無缺，也喜歡張衛健")
print("search:","/".join(seq_list))

# 詞性標註
import jieba.posseg as pseg
words=pseg.cut("會飛的的驢")
for w in words:
print(w.word,w.flag)

輸出結果：

Default Mode: 小魚兒/喜歡/花無缺/，/也/喜歡/張衛健
Full Mode: 小魚/小魚兒/魚兒/喜歡/花無缺/無缺///也/喜歡/張衛健
search: 小魚/魚兒/小魚兒/喜歡/無缺/花無缺/，/也/喜歡/張衛健
會 v
飛的 z
的 uj
驢 n

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

機器學習之文本挖掘（初學1）

Nginx R31 doc 官方文檔-01-nginx 如何安裝

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

golang開發環境搭建(win10)

JavaWeb讀取xls文件報錯解決

機器學習之文本挖掘（初學1）

頭指針與頭結點的理解，鏈表帶有頭結點與不帶頭結點的python實現

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結