Python學習---操作word文檔-基礎篇

1.安裝python-docx模塊

1.1docx模塊的介紹

Python可以利用python-docx模塊處理word文檔,處理方式是面向對象的。也就是說python-docx模塊會把word文檔,文檔中的段落、文本、字體等都看做對象,對對象進行處理就是對word文檔的內容處理。

Official introduction:python-docx is a Python library for creating and updating Microsoft Word (.docx) files.
官方介紹:python-docx是一個Python庫,用來創建和更新Microsoft Word.docx文件

1.2docx模塊的相關概念

如果需要讀取word文檔中的文字(一般來說,程序也只需要認識word文檔中的文字信息),需要先了解python-docx模塊的幾個概念。

1,Document對象,表示一個word文檔。
2,Paragraph對象,表示word文檔中的一個段落
3,Paragraph對象的text屬性,表示段落中的文本內容。

1.3docx模塊的安裝

安裝命令:pip install python-docx

具體操作:cmd命令行-》輸入pip install python-docx。

最後出現Successfully installed即爲安裝成功

2.使用python-docx模塊

這是我們要操作的一份word文件。
在這裏插入圖片描述
程序代碼:

#讀取docx中的文本代碼示例

import docx  #調用庫

#獲取文檔對象
file=docx.Document("D:\\知行考試題庫.docx")
print("段落數:"+str(len(file.paragraphs)))#段落數爲13,每個回車隔離一段

#定義對象
document=docx.Document()

#輸出段落編號及段落內容

for i in range(len(file.paragraphs)):
    if(len(file.paragraphs[i].text)>=2):
        if(file.paragraphs[i].text[0] in ('一','二','三','四','五','六','七','八','九','十')):  #濾去無用信息
            print("第"+str(i)+"段的內容是:"+file.paragraphs[i].text)
            document.add_paragraph(file.paragraphs[i].text) #添加段落

document.save('D:\\term.docx')#保存文件

運行結果:
在這裏插入圖片描述
在這裏插入圖片描述

總結:
python-docx模塊是python對Microsoft Word文檔操作的一種手段(不支持.doc文件),可以實現對word文檔的一些簡單的操作,具體更多的實現,需要我們自己去思考,去查閱資料。希望大家都能在編程的海洋裏收穫一些有用的知識。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章