矢量字形是数字排版的基石,但现有基于学习的流程通常依赖精心整理的示例表和栅格到矢量的后处理,限制了其可访问性和可编辑性。VecGlypher的提出解决了这一痛点。它是一个单一的多模态语言模型,能够直接从文本描述或图像示例生成高保真度的矢量字形。用户只需提供一个风格提示、可选的参考字形图像以及目标字符,VecGlypher便能以自回归的方式输出SVG路径标记。这一过程完全避免了栅格中间产物,一次性生成可编辑、封闭的轮廓线。实现这一能力的关键在于其面向字体设计的训练方案。该方案包含两个阶段:首先在大规模、多样化的字体数据集上进行预训练,以掌握SVG语法和长序列几何结构;随后在高质量、带有专家标注(如描述性标签和示例)的精选字体库上进行后训练,使语言和图像描述与几何生成对齐。数据预处理包括坐标框架归一化、路径规范化、字体族去重和坐标量化,以确保长序列解码的稳定性。在跨字体族的评估中,VecGlypher在纯文本生成任务上显著优于通用大语言模型和专门的矢量字体基线模型。而在基于图像参考的生成任务上,其性能达到了先进水平,超越了现有方法。消融实验表明,模型规模和两阶段训练方案至关重要,且绝对坐标序列化能产生最佳的几何结果。VecGlypher通过允许用户使用文字或示例进行设计,极大地降低了字体创作的门槛,并为未来多模态设计工具提供了可扩展的基础。


