Nacrith是一种新型神经无损压缩系统,其核心是结合了一个拥有1.35亿参数的Transformer语言模型(SmolLM2-135M)、一组轻量级在线预测器以及一个32位算术编码器。该系统在基础的LLM加算术编码范式上进行了多项创新。
主要技术贡献包括:将CDF精度从2^16提升至2^24,显著减少了大型词汇表中因最小概率下限导致的量化开销;引入用于快速局部预测的令牌级N-gram模型;通过在线梯度下降自适应校正每份文档LLM误差的自适应对数空间偏置头;基于置信度的LLM跳过机制,以加速高可预测令牌的处理;扩展了基于LLM的压缩器应用范围的混合二进制格式(NC06);实现了比PyTorch快数倍的单令牌解码速度的专用推理后端;支持多达8个工作节点的并行多GPU压缩;以及通过原生KV缓存滑动窗口大幅降低了每次滑动的成本。
该系统资源需求相对较低,仅需约500 MB的GGUF权重文件和每个工作节点约1.2 GB的显存,可在消费级GPU上运行。在标准测试集上,Nacrith实现了优异的压缩率,其性能显著超越了gzip、bzip2、CMIX v21和ts_zip等传统及先进压缩工具,并且压缩结果低于字节级别的零阶、一阶和二阶香农熵极限。在更大的数据集测试中,Nacrith同样表现出色,以明显更小的模型规模且无需微调,超越了其他先进神经压缩方法。一项在模型训练截止日期后发布的文档上的分布外评估证实,其优异性能并非源于记忆伪影,在未见文本上仍能实现高效压缩。这些成果标志着神经无损压缩技术向前迈出了重要一步。


