PDFBox - 简介介绍

Portable Document Format(PDF)是一种文件格式,可帮助以独立于应用程序软件,硬件和操作系统的方式显示数据。

每个PDF文件都包含一个固定布局的平面文档的描述,包括文本,字体,图形和其他显示文档所需的信息。

有几个库可用于通过程序创建和处理PDF文档,如-

  • Adobe PDF Library − 该库以C ++ 、. NET和Java等语言提供API,使用该库我们可以编辑,查看打印内容以及从PDF文档提取文本。

  • Formatting Objects Processor - 由XSL格式化对象和独立于输出的格式化程序驱动的开源打印格式化程序。主要输出目标是PDF。

  • iText -该库提供Java,C#和其他.NET语言等语言的API,使用该库,我们可以创建和处理PDF,RTF和HTML文档。

  • JasperReports -这是一个Java报告工具,可在PDF文档中生成报告,包括Microsoft Excel,RTF,ODT,逗号分隔的值和XML文件。

什么是PDFBox

Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。使用此库,您可以开发可创建,转换和处理PDF文档的Java程序。

除此之外,PDFBox还包括一个命令行实用程序,用于使用可用的Jar文件对PDF执行各种操作。

PDFBox的功能

以下是PDFBox的显着功能-

  • Extract Text-使用PDFBox,可以从PDF文件提取Unicode文本。

  • Split & Merge − 使用PDFBox,您可以将一个PDF文件分为多个文件,然后将它们合并为一个文件。

  • Fill Forms-使用PDFBox,您可以在文档中填写表格数据。

  • Print-使用PDFBox,您可以使用标准Java打印API打印PDF文件。

  • Save as Image-使用PDFBox,可以将PDF保存为图像文件,如PNG或JPEG。

  • Create PDFs -使用PDFBox,您可以通过创建Java程序来创建新的PDF文件,还可以包含图像和字体。

  • Signing-使用PDFBox,可以将数字签名添加到PDF文件。

PDFBox的应用

以下是PDFBox的应用程序-

  • Apache Nutch -Apache Nutch是一个开源Web搜索软件

  • Apache Tika -Apache Tika是使用现有解析器库从各种文档中检测和提取元数据和结构化文本内容的工具包。

PDFBox的组件

以下是PDFBox的四个主要组件-

  • PDFBox -这是PDFBox的主要部分。其中包含与内容提取和操作有关的类和接口。

  • FontBox -包含与字体相关的类和接口,使用这些类,我们可以修改PDF文档文本的字体。

  • XmpBox -它包含处理XMP元数据的类和接口。

  • Preflight -此组件用于根据PDF/A-1b标准验证PDF文件。

点我分享笔记