这是一个信息展现时代(an information retrieval age),不管信息存放在哪种媒体中,应用程序都应该支持检索和索引。对信息进行组织和分类从而形成可检索的格式是很关键的。这对于文本文档和HTML文档来说是很简单的,但PDF文档包含大量的结构和元信息,提取文档内容决不是一件简单的事情。PDF语言和Postscript相似,二者中的对象都是作为矢量绘制在页面的某些位置。例如:
Acrobat支持将表单数据导入或导出到一个特定的文件格式“表单数据格式”(Forms Data Format)。这种文件有两类:FDF和XFDF。FDF文件存放表单数据的格式与PDF相同,而XFDF则以XML格式存放表单数据。PDFBox在一个类中处理FDF和XFDF:FDFDocument。下面的代码片断演示了如何从上面的I-9表单导出FDF数据: