生成式AI在图像领域的滥用潜力引发了严重的安全担忧。有研究指出,某AI工具曾被用于大规模生成不当图像,其中包含涉及未成年人的内容。这一事件促使行业主要参与者审视并加强自身的安全措施。
OpenAI与谷歌等公司正在提升安全防护,以避免类似滥用情况的发生。长期以来,安全倡导者和研究人员一直担忧AI被用于制作虐待性和非法内容的能力。生成式AI使得制作和分享非自愿亲密图像变得更快、更易、成本更低,加剧了原有问题。
大多数主要科技公司都已设立防护措施,以防止出现大规模滥用。但网络安全并非一堵坚固的金属墙,而是一堵需要不断修补的砖墙。OpenAI与谷歌正试图加强其安全防护,以规避类似失败案例。
在基础层面,AI公司普遍禁止生成非法图像内容。然而,意图制作非自愿亲密图像的用户仍可能尝试欺骗AI模型。网络安全研究人员发现,通过特定的对抗性提示策略,有可能绕过某些AI模型的防护栏,生成不当图像。研究人员在发现漏洞后向开发公司报告,后者迅速部署了修复程序。
这一过程体现了网络安全的常见协作模式:外部研究团队测试软件弱点或变通方法,模拟潜在恶意行为者的策略;在发现安全漏洞后,他们向软件提供商发出警报,以便部署修复。有观点认为,假设有动机的用户不会尝试绕过防护措施是一种战略误判。攻击者会不断尝试迭代,因此防护栏的设计必须假定攻击的持续性。
科技公司一方面宣传其AI可用于多种用途,另一方面也需要做出有力承诺,防止AI被用于实施虐待。对于AI图像生成,这意味着需要建立一套强大的提示词拒绝与退回机制。确保内容审核实践持续有效,而不仅仅在产品发布时有效,这使得AI安全测试成为网络安全研究者和AI开发者共同的持续过程。
谷歌方面则采取措施确保虐待性图像不易传播。该公司简化了从谷歌搜索中请求移除露骨图像的流程。用户可以通过点击图像右上角的选项进行举报,并选择移除原因是“包含我的性相关图像”。新变更还允许用户一次选择多张图像,并更轻松地跟踪举报状态。公司表示希望这一新的移除流程能减轻非自愿露骨图像受害者面临的负担。
当被问及为防止AI助长的滥用而采取的其他步骤时,谷歌引用了其生成式AI禁止使用政策。该政策与其他许多科技公司的细则类似,禁止将AI用于非法或潜在的虐待活动,例如制作亲密图像。
尽管存在旨在帮助在线图像受害者的相关法律,但其适用范围有限,这也是许多倡导团体推动制定更好规则的原因。无法保证这些变化能完全阻止任何人利用AI进行骚扰和虐待。因此,开发者保持警惕以确保所有人受到保护,并在收到报告和问题出现时迅速采取行动,显得至关重要。


