【教程】Spire.PDF教程:C# 從 PDF 頁面的指定區域內提取文本

Spire.PDF是一個專業的PDF組件,能夠獨立地創建、編寫、編輯、操作和閱讀PDF文件,支持 .NET、Java、WPF和Silverlight。

下載Spire.PDF最新試用版

有時我們可能需要獲取PDF頁面中某個區域內的文本而不是全部的文本。本文將介紹如何使用Spire.PDF組件提取PDF頁面中指定矩形區域內的文本。

以下是我們所使用的示例文檔截圖,紅色矩形區域是即將提取文本的區域。

Extract-Text-from-a-Specific-Rectangular-Area-in-PDF-1

代碼段:

//創建PdfDocument實例  
PdfDocument pdf = new PdfDocument();  
//加載PDF文檔  
pdf.LoadFromFile("Input.pdf");  
   
//獲取第一頁  
PdfPageBase page = pdf.Pages[0];  
   
//從第一頁的指定矩形區域內提取文本  
string text = page.ExtractText(new RectangleF(50, 50, 500, 100) );  
   
//將文本寫入.txt文件  
StringBuilder sb = new StringBuilder();  
sb.AppendLine(text);  
File.WriteAllText("Extract.txt", sb.ToString());  

效果圖:

Extract-Text-from-a-Specific-Rectangular-Area-in-PDF-2

查看冰藍更多產品教程,爲你推薦:

                                                                         Spire.Doc系列教程>>

                                                                         Spire.XLS系列教程>>

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章