我认为我们可以采取三项措施。
首先,人工智能公司可以在模型上设置防护栏,防止它们协助制造生物武器。
Anthropic 公司正在非常积极地推进这项工作。
Claude 的宪法主要关注高层原则和价值观,其中包含少量具体的硬性禁令,其中一条就涉及禁止协助制造生物(或化学、核、放射性)武器。但所有模型都可能被越狱破解,因此作为第二道防线,我们自 2025 年中期起(当时测试显示我们的模型开始接近可能构成风险的阈值)部署了一个专门检测并拦截生物武器相关输出的分类器。
我们定期升级改进这些分类器,发现即使在复杂的对抗性攻击下,它们通常也表现出极强的鲁棒性。
这些分类器显著增加了我们提供模型服务的成本(在某些模型中接近总推理成本的 5%),从而压缩了我们的利润空间,但我们认为使用这些分类器是正确的选择。
| 通信人家园 (https://www.txrjy.com/) | Powered by C114 |