前沿大语言模型虽展现出强大的推理与数学能力,但从原始资料训练领域专用科学语言模型的实际过程仍缺乏详细记录。本研究提供了一个详尽的案例研究,展示了如何直接从涵盖数学、计算机科学和理论物理的arXiv LaTeX源文件出发,训练一个参数规模为十亿级别的科学语言模型。
研究描述了一个端到端的完整流程,涵盖了元数据过滤、存档验证、LaTeX提取、文本规范化、领域感知分词,以及在有限计算资源下的密集Transformer模型训练。通过多次实验运行,研究团队深入分析了训练稳定性、扩展行为、数据产出损失以及基础设施瓶颈。
关键发现包括:预处理决策如何显著影响可用标记数量;分词策略如何影响符号稳定性;以及存储和输入/输出限制如何可能与计算能力一样成为制约因素。研究进一步分析了收敛动态,并在数据丰富的预训练场景下展示了稳定的训练行为。
本研究并未提出新颖的模型架构,而是提供了一份基于工程实践、透明详实的报告,记录了如何从零开始训练一个小型科学语言模型。这些洞察旨在为那些在中等计算预算下运行、希望构建领域专用模型的研究人员提供支持与参考。


