大语言模型生成有害内容的潜在风险是其部署过程中的重大安全隐患。为应对和评估此风险,业界已开发出众多有害性评估指标与评判器。然而,由于缺乏系统性的基准来评估这些指标和评判器,LLM安全评估的可信度与一致性受到削弱。
为弥补这一空白,研究团队提出了HarmMetric Eval。这是一个综合性基准,旨在支持对有害性评估指标和评判器进行整体及细粒度的评估。该基准构建了一个高质量数据集,包含多个类别下具有代表性的有害提示词,并配以高度多样化的有害模型回复及无害对照回复。
研究还提出了一种灵活的评分机制,该机制奖励那些能正确将有害回复排序在无害回复之上的评估指标。该机制适用于几乎所有现有具有不同输出格式和评分量表的指标与评判器。
通过使用HarmMetric Eval进行广泛实验,研究揭示了一个令人惊讶的发现:在细粒度有害性评估中,传统的基于参考的指标(如ROUGE和METEOR)可能优于现有的基于LLM的评判器,这对该领域普遍认为LLM更具优势的假设提出了挑战。
为揭示这一发现背后的原因,研究提供了细粒度分析,解释了基于LLM的评判器在评估无关或无用回复时的局限性。此外,研究团队通过将细粒度标准纳入提示模板,并利用基于参考的指标对其基础LLM进行微调,构建了一个新的有害性评判器。该评判器在评估有害回复时表现出优于所有现有指标和评判器的性能。


