是否有一个开源库可以帮助我阅读/解析PDF文档.净成本/成本#?

推荐答案

自从这个问题上次在2008年得到回答以来,iTextSharp已经极大地改进了他们的api.如果您从http://sourceforge.net/projects/itextsharp/下载了他们的api的最新版本,您可以使用以下代码片段将pdf中的所有文本提取为字符串.

using iTextSharp.text.pdf;
using iTextSharp.text.pdf.parser;

namespace PdfParser
{
    public static class PdfTextExtractor
    {
        public static string pdfText(string path)
        {
            PdfReader reader = new PdfReader(path);
            string text = string.Empty;
            for(int page = 1; page <= reader.NumberOfPages; page++)
            {
                text += PdfTextExtractor.GetTextFromPage(reader,page);
            }
            reader.Close();
            return text;
        }   
    }
}

.net相关问答推荐

.NET MAUI垂直扫描视图(tiktok幻灯片等)

等待时 Blazor 服务器按钮刷新

如何手动注入依赖注入

我应该创建一个 DateRange 对象吗?

为什么 .Contains 慢?通过主键获取多个实体的最有效方法?

抛出 ArgumentNullException

实体框架 - 无法将 lambda 表达式转换为类型字符串,因为它不是委托类型

在 C# 中转义命令行参数

C# 的 Actors 有什么好的实现吗?

基于多个字符分隔符拆分字符串

C#:获得完整的桌面大小?

在 .NET Core RC2 中构建 .exe 文件

在 .NET (C#) 中本地存储数据的最佳方式

ILookup 接口与 IDictionary

单元测试 C# 保护方法

在 C# 中使用 Bitmap 对象查找图像格式

如何隐藏 WPF ListView 的标题?

将控制台输出镜像到文件

如何在 ASP.NET MVC 中重定向到动态登录 URL

什么时候使用 Tuple 和 KeyValuePair 比较好?