Python自動化辦公p12: pdf提取內容

import PyPDF2
import pdfplumber
#提取PDF內容 .extract_text()
with pdfplumber.open('MDSSD.pdf') as pdf:
    for page in pdf.pages:
        print(page.page_number) #頁數
    first_page = pdf.pages[0]
    print(first_page.extract_text()) #內容

#提取表格內容 .extract_table()
with pdfplumber.open('樑延禹-1911024_origin.pdf') as pdf:
    page = pdf.pages[6]
    for table in page.extract_tables(
            table_settings={"vertical_strategy":'text',
                            'horizontal_strategy':'text'
            }):#多個表格
        print(table)
    table=page.extract_table()#單個表格
    print(table)
#寫入到excal表格
from openpyxl import Workbook
with pdfplumber.open('樑延禹-1911024_origin.pdf') as pdf:
    page = pdf.pages[6]
    for table in page.extract_tables(
            table_settings={"vertical_strategy":'text',
                            'horizontal_strategy':'text'
            }):#多個表格
        print(table)
workbook = Workbook()
sheet = workbook.active
for row in table:
    if not ''.join([str(item) for item in row])=='':#去除空格
        new_row = []
        new_row.append(''.join([str(item) if item else '' for item in row[:3]]))#合併
        new_row +=new_row[3:]
        sheet.append(row)

workbook.save(filename='論文信息填寫_模板.xlsx')

#行內條件判斷
x=24
y = x*2 if x<20 else 20
print(y)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章