只需一步,快速开始
短信验证,便捷登录
军衔等级:
上校
金磊 发自 凹非寺 量子位 | 公众号 QbitAI
我们的任务,就是主动给这个大脑注射微量病毒,也就是精心设计的恶意提示、越狱指令、诱导性问题,以此来测试它会不会生病,并记录下它的抗体反应。这项工作充满了创造性,甚至带有一丝艺术感。它早已超越了单纯的技术工具对抗,演变成一场融合了语言学、心理学、社会学乃至哲学的认知博弈。
大模型像一个智商很强但情商一般的人,它会简单地遵循管理员给它的直接指令,但也容易被花言巧语欺骗。
攻击方不断从模型直接交互,向系统其它环节延伸攻击路径;而防御方则必须把防线从入口的提示词过滤,扩展到每个数据转换点、工具调用与记忆读写。
AI蓝军的核心价值在于以攻助防,AI安全尚处早期,我们需要攻击者的视角来验证防御能力,查缺补漏。防御是一个面,需要构建完整的体系,而蓝军最大的优势就是不按规则出牌
我们更注重发现和创新,比如暴露架构性缺陷、模型滥用途径、流程级风险等。这好比医生给癌症病人看病,一种是做放化疗,缓解已知的病痛;另一种是做病理检查,发现未知的连锁病发可能。前者接近标准和经验,后者则是在探索未知的未知。
最大的挑战在于判断攻击的性质,我们不知道它是绕过了现有的安全机制,还是触达了一个我们从未关注到的全新风险面。
他们应该是一种介于科学家、黑客与哲学家之间的混合体。
AI时代引入了太多全新的问题,像提示词注入、模型幻觉,这些在传统时代是没有的。你需要对大模型的整个训练过程有深入的认识,甚至包括背后的数学模型,这些都是全新的知识领域。AI时代的漏洞不再是代码中的一行错误,它可能体现在训练数据的偏见、奖励模型的设计缺陷,或是模型对一句诗的歧义理解中。攻击者用的不再是技术工具,而是心理学、哲学和语言艺术。
五年后,我希望AI蓝军能发展成为一支集技术洞察、风险预判、组织变革与伦理守护于一体的综合性力量。我们的终极目标,是打造一支集技术深度、战略思维、对抗意识与伦理担当于一体的数字时代的特种兵团。
0 举报本楼
发表回复 回帖后跳转到最后一页
版规|手机版|C114 ( 沪ICP备12002291号-1 )|联系我们 |网站地图
GMT+8, 2025-10-19 17:46 , Processed in 0.253479 second(s), 19 queries , Gzip On.
Copyright © 1999-2025 C114 All Rights Reserved
Discuz Licensed