PDF作为最普遍的文件格式之一,正困扰着全球最先进的AI模型。尽管AI在编写复杂软件和解决高级物理问题方面进展迅速,但解析PDF仍是一个重大挑战。数据公司Surge的CEO Edwin Chen将其列为AI“不性感的失败”之一,限制了其现实世界的实用性。
以美国众议院监督委员会发布的杰弗里·爱泼斯坦庄园文件为例,最初发布的2万页文档均为PDF格式。随后司法部又发布了超过300万份文件,同样全是PDF。尽管司法部对文本进行了光学字符识别处理,但效果不佳,导致文件几乎无法被有效搜索。
AI视频编辑初创公司Kino的联合创始人Luke Igel指出,政府没有提供任何界面来汇总航班、日历事件或短信等信息,也没有真正的索引,用户只能靠运气寻找所需内容。为了更直观地查看和搜索这些通信记录,Igel和他的朋友尝试构建一个类似Gmail的克隆系统。
这需要从PDF中提取信息,而这远比听起来复杂。研究人员发现,即使是最先进的模型在从PDF提取信息时,也可能会错误地总结内容、混淆脚注和正文,甚至完全虚构内容。在一位研究员的AI发展时间线中,“PDF解析被解决!”被排在通用人工智能之前。
技术专家Riley Walz最初尝试使用谷歌的Gemini,但仅对最清晰的扫描件可靠,且处理数百万文档成本过高。随后团队转向了专门从事PDF解析的AI公司Reducto。该公司能够从带有加密解码错误的电子邮件线程、大量编辑的通话记录以及手写飞行清单的低质量扫描件中提取信息。
数据导出后,团队构建了一个完整的应用程序生态系统,包括可搜索的爱泼斯坦收件箱原型、交互式全球航班路径追踪系统等工具。Igel表示:“PDF信息提取的魔力在这里变得真实,它将彻底改变许多工作的方式。”
PDF难以被机器解析的部分原因在于,它最初并非为机器阅读而设计。该格式由Adobe在20世纪90年代初开发,旨在保存文档的精确视觉外观。与HTML等以逻辑顺序表示文本的格式不同,PDF由字符代码、坐标和其他绘制页面图像的指令组成。
光学字符识别技术可以将文字图像转换回计算机可用的文本,但当遇到多栏排版(如许多学术论文)时,它会从左到右机械读取,产生难以理解的混乱内容。虽然OCR工具旨在检测和纠正这类格式变化,但表格、图像、图表、标题、脚注和页眉都构成了进一步障碍。
当用户向ChatGPT等AI助手提供PDF时,它会循环使用多种工具,有时失败,有时将PDF传递给大型视觉模型执行OCR,有时会产生幻觉,通常需要很长时间和大量计算能力,结果却不稳定。研究人员指出,关键问题在于AI无法识别编辑结构,当遇到表格、表单等复杂元素时尤其困难。PDF属于某种需要理解其规范的文本文化。
PDF固有的困难还导致模型很少以其作为训练数据,这进一步加剧了问题。尽管这种情况正在开始改变,部分原因是AI开发者对高质量数据的需求日益迫切,而PDF包含了不成比例的高质量文本,但根本挑战依然存在。



