PDF文件格式（二）：交叉引用类型“O“

这篇具有很好参考价值的文章主要介绍了PDF文件格式（二）：交叉引用类型“O“。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

PDF交叉引用类型有三种：“n”,"f","o";前两种比较常见，本文介绍第三种“o”类型。

type为"o"类型的引用在PDF文件中不能够直接找到对应的obj，它被以压缩的形式内嵌在其他的obj内，因此此类型的引用解析比较麻烦；

解析过程如下：

1. 获取交叉引用相关信息，先拿到其对应的ofs值，正常交叉引用的ofs表示对应obj的位置，但是这里ofs表示此交叉引用的信息被保存位置所在的obj位置；

2. 找到对应obj，获取其对应的"First"和"N"的值；First表示obj的stream解压之后需要解析的初始基本位置（base）；N表示需要解析的次数，每次解析的内容是交叉引用obj号和stream解压之后需要解析的位置(ofs)；最后交叉引用obj内容对应的解析位置是base+ofs，解析的内容是一个pdf的基本类型内容即可。到这里，交叉引用“o”类型的内容解析完毕。

实例：

PDF文件格式（二）：交叉引用类型“O“,文档结构,pdf,java,服务器

这是一段交叉引用表，Index内容是[13 61],表示从13号Obj开始，到74号结束，这里我们解析46号obj，不过在在PDF文档内查找并没有看到46号obj的，经过解析得出46号obj类型为'o'，因此不能直接在文档内找到obj：

PDF文件格式（二）：交叉引用类型“O“,文档结构,pdf,java,服务器

上面没有46号obj; 接下来需要解析交叉引用表得到46号obj对应的ofs（解析方法在前文PDF文件格式一），不过此时的ofs表示需要定位的obj的号，这里得到46号obj的ofs为19（截图红线部位），下面就是19号obj内容：

PDF文件格式（二）：交叉引用类型“O“,文档结构,pdf,java,服务器

19号obj内容可以看到First是219，N是28；然后解压缩stream内容如下：

PDF文件格式（二）：交叉引用类型“O“,文档结构,pdf,java,服务器

219的位置就是"<</DA"的初始位置，即交叉引用内容位置；28表示从开头位置解析次数，这里解析第一次内容是45和0，表示45号obj和此obj对应内容位置为219+0,定位位置是“<<”，表示这个obj对应内容是字典，解析一个字典内容是“<</DA(/Helv 0 Tf 0 g )/DR<</Encoding<</PDFDocEncoding 10 0 R>>/Font<</Helv 8 0 R/ZaDb 9 0 R>>>>/Fields[]>>”，第二次解析内容是46和106，表示46号obj和对应内容位置是219+106，定位位置是"[",表示这个obj对应内容是数组，解析一个数组内容就是“[47 0 R 48 0 R]”；后面解析方法以此类推。

上面就是获取交叉引用类型为"o"内容的方法了。文章来源地址https://www.toymoban.com/news/detail-832329.html

到了这里，关于PDF文件格式（二）：交叉引用类型“O“的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！