在 .Net 中阅读 PDF 文档

发布于11月03日

是否有一个开源库可以帮助我阅读/解析PDF文档.净成本/成本#？

推荐答案

自从这个问题上次在2008年得到回答以来，iTextSharp已经极大地改进了他们的api.如果您从http://sourceforge.net/projects/itextsharp/下载了他们的api的最新版本，您可以使用以下代码片段将pdf中的所有文本提取为字符串.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PdfParser
{
    public static class PdfTextExtractor
    {
        public static string pdfText(string path)
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }   
    }
}