【script】python識別pdf文檔

原創

2020-06-19 23:13

from pdfminer.pdfparser import PDFParser
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfpage import PDFPage
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfpage import PDFTextExtractionNotAllowed

def parse(path):
    parser = PDFParser(path)
    document = PDFDocument(parser)

    if not document.is_extractable:
        raise PDFTextExtractionNotAllowed
    else:
        rsrcmgr = PDFResourceManager()
        laparams = LAParams()
        device = PDFPageAggregator(rsrcmgr, laparams=laparams)
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        result = ""
        for page in PDFPage.create_pages(document):
            interpreter.process_page(page)
            layout = device.get_result()

            for x in layout:
                if (isinstance(x, LTTextBoxHorizontal)):
                    result += x.get_text()
        return result

def main_pdf(path):
    return parse(open(path, 'rb'))

if __name__ == '__main__':
    print(main_pdf("path.pdf"))

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

pip 命令參數以及如何配置國內鏡像源

文章更新於：2020-04-05 注：如果 pip 命令不可以用，參見：python pip命令不能用文章目錄一、參數詳解1、命令列表2、通用參數列表二、實際應用1、常用命令2、`pip install` 安裝包3、`pip u

我不是高材生

2020-07-08 04:09:08

python 程序雙擊執行的小技巧

文章更新於：2020-04-26 按照慣例，需要的文件附上鍊接放在文首。文件名：ICOFX圖標製作軟件.7z 文件大小：40.2 MB 下載鏈接：https://www.lanzous.com/iayxw2b SHA256: 7

我不是高材生

2020-07-08 04:09:08

幾行代碼能搞定的事不必去點鼠標

文章更新於：2020-04-01 注1： bs4 庫就是 BeautifulSoup庫，版本4.x 注2：本文根據 bs4 官網文檔：Beautiful Soup Documentation 進行講解文章目錄一、bs4 庫簡介1

我不是高材生

2020-07-08 04:09:08

Faker——NLP造數據神器

Faker——NLP造數據神器寫在前面：開源詞典——funNLP （1）碼雲地址：https://gitee.com/

2020-07-07 21:48:25

python：else與循環語句聯合用法

我們都知道if else語句，今天看到了一種else的新用法，在此做記錄和大家分享。 Python中，如果一個循環沒有被break語句提前中止，那麼它的可選分支else就會被執行。 else和循環語句的聯合使用，如while和for循環中

2020-07-07 08:36:56

數據結構：二分查找python實現

二分查找是分而治之策略很好的例子，這裏給出了兩種實現，其中一種是使用遞歸方式實現。 #二分法 #遞歸查找 def Binary_search(alist, item, first, last): found = False

2020-07-07 08:36:56

【python】給出一個 32 位的有符號整數，你需要將這個整數中每位上的數字進行反轉。

示例 1: 輸入: 123 輸出: 321 示例 2: 輸入: -123 輸出: -321 示例 3: 輸入: 120 輸出: 21 注意: 假設我們的環境只能存儲得下 32 位的有符號整數，則其數值範圍爲 [−231, 231 −

2020-07-06 13:14:25

【python】字符串轉換整數 (atoi)

首先，該函數會根據需要丟棄無用的開頭空格字符，直到尋找到第一個非空格的字符爲止。當我們尋找到的第一個非空字符爲正或者負號時，則將該符號與之後面儘可能多的連續數字組合起來，作爲該整數的正負號；假如第一個非空字符是數字，則直接將其與之後連續

2020-07-06 13:14:25

kaggle波士頓房價預測，score=0.12986

作爲一個機器學習小白，之前拿titanic數據集練過手，遇到波士頓房價數據集（81個特徵）剛開始是有點懵，主要就懵在不知道如何下手處理數據，參考一些資料後，勉強跑通了流程，在此記錄一下。大神請自動繞過。 1、加載數據集數據集可以到kag

2020-07-05 22:50:38

python開發_platform_獲取操作系統詳細信息工具

python開發_platform_獲取操作系統詳細信息工具 ''' python中，platform模塊給我們提供了很多方法去獲取操作系統的信息如： import platform

2020-07-05 13:54:32

numpy中pad函數的常用方法

記錄以下，方便以後忘記了再回看一下文章鏈接

2020-07-05 06:12:43

python之面向對象（字段）

類成員：字段（保存在對象中）方法（保存在類中） class Foo: def __init__(self, name): # 字段 self.name = name # 方法

2020-07-05 06:12:43

python之反射

class Foo: def __init__(self, name, age): self.name = name self.age = age def show(self):

2020-07-05 06:12:43

python之面向對象（類的定義及封裝）

def foo(name, age, gender, content): print(name, age, gender, content) 第一次定義類： class Bar: def foo(self, na

2020-07-05 06:12:43

Python中函數的作用域

變量查找遵循L_E_G_B原則。其中，L是Local，局部變量，E是Enclosing，嵌套變量，G是Global，全局變量，B是Build_in，是內置變量。 x = 10 def f(): count = 5 def

2020-07-05 06:12:43

24小時熱門文章

最新文章

最新評論文章