AI解析PDF为何仍是难题？从爱泼斯坦文件看技术瓶颈

发布时间：2026-02-23 19:32

PDF作为最普遍的文件格式之一，正困扰着全球最先进的AI模型。尽管AI在编写复杂软件和解决高级物理问题方面进展迅速，但解析PDF仍是一个重大挑战。数据公司Surge的CEO Edwin Chen将其列为AI“不性感的失败”之一，限制了其现实世界的实用性。

以美国众议院监督委员会发布的杰弗里·爱泼斯坦庄园文件为例，最初发布的2万页文档均为PDF格式。随后司法部又发布了超过300万份文件，同样全是PDF。尽管司法部对文本进行了光学字符识别处理，但效果不佳，导致文件几乎无法被有效搜索。

AI视频编辑初创公司Kino的联合创始人Luke Igel指出，政府没有提供任何界面来汇总航班、日历事件或短信等信息，也没有真正的索引，用户只能靠运气寻找所需内容。为了更直观地查看和搜索这些通信记录，Igel和他的朋友尝试构建一个类似Gmail的克隆系统。

这需要从PDF中提取信息，而这远比听起来复杂。研究人员发现，即使是最先进的模型在从PDF提取信息时，也可能会错误地总结内容、混淆脚注和正文，甚至完全虚构内容。在一位研究员的AI发展时间线中，“PDF解析被解决！”被排在通用人工智能之前。

技术专家Riley Walz最初尝试使用谷歌的Gemini，但仅对最清晰的扫描件可靠，且处理数百万文档成本过高。随后团队转向了专门从事PDF解析的AI公司Reducto。该公司能够从带有加密解码错误的电子邮件线程、大量编辑的通话记录以及手写飞行清单的低质量扫描件中提取信息。

数据导出后，团队构建了一个完整的应用程序生态系统，包括可搜索的爱泼斯坦收件箱原型、交互式全球航班路径追踪系统等工具。Igel表示：“PDF信息提取的魔力在这里变得真实，它将彻底改变许多工作的方式。”

PDF难以被机器解析的部分原因在于，它最初并非为机器阅读而设计。该格式由Adobe在20世纪90年代初开发，旨在保存文档的精确视觉外观。与HTML等以逻辑顺序表示文本的格式不同，PDF由字符代码、坐标和其他绘制页面图像的指令组成。

光学字符识别技术可以将文字图像转换回计算机可用的文本，但当遇到多栏排版（如许多学术论文）时，它会从左到右机械读取，产生难以理解的混乱内容。虽然OCR工具旨在检测和纠正这类格式变化，但表格、图像、图表、标题、脚注和页眉都构成了进一步障碍。

当用户向ChatGPT等AI助手提供PDF时，它会循环使用多种工具，有时失败，有时将PDF传递给大型视觉模型执行OCR，有时会产生幻觉，通常需要很长时间和大量计算能力，结果却不稳定。研究人员指出，关键问题在于AI无法识别编辑结构，当遇到表格、表单等复杂元素时尤其困难。PDF属于某种需要理解其规范的文本文化。

PDF固有的困难还导致模型很少以其作为训练数据，这进一步加剧了问题。尽管这种情况正在开始改变，部分原因是AI开发者对高质量数据的需求日益迫切，而PDF包含了不成比例的高质量文本，但根本挑战依然存在。

返回快讯列表