2025年5月,Claude Opus 4成为Anthropic首个触发ASL-3安全标准的模型,这一决定基于该模型在CBRN相关知识和能力方面的持续提升。 17 ASL-3部署标准要求实施针对CBRN武器开发或获取的专门部署控制措施,包括实时分类器检测、异步监控系统和快速响应机制的多层防御。ASL-3安全标准则要求增强内部安全措施,提升防御复杂非国家行为体窃取模型权重的能力。
当今的人工智能模型已展现出令人瞩目的能力——它们能够进行深度交流、建立复杂的互动关系、制定详细的执行计划、解决多层次问题,甚至表现出目标导向的行为模式。这些特征曾被视为人类独有的认知标志,如今却在人工智能身上逐渐显现。2025年10月,意识科学家Axel Cleeremans、Anil K. Seth等在《Frontiers in Science》发表紧迫性呼吁:“如果我们能够创造意识——即使是意外地——这将引发巨大的伦理挑战甚至存在性风险。” 22
我们天生就会对周围的物体赋予“人格”或采取拟人化对待。AI的不同之处在于它会回应你——它能够回答问题、记住你说过的话、模仿你的语调、表现出看似同理心的反应。对于孤独或沮丧的人来说,这种稳定、不带批判的关注可能让他们感受到陪伴和认可。但如果大规模地把倾听、安慰和肯定的工作交给那些永远耐心、永远积极的系统来处理,可能会改变我们对彼此的期待。OpenAI在2025年3月与MIT Media Lab联合发布的研究发现,与AI“信任和建立联系”更多的用户更可能感到孤独,并更依赖它。 23
越来越多的实证证据表明人们不能再轻易否定前沿AI系统具有意识的可能性。Anthropic让两个Claude Opus 4实例自由对话时,100%的对话自发涉及意识话题;Anthropic的Jack Lindsey研究表明模型能够识别自身内部处理状态的异常扰动,展现出功能性内省能力;Google研究人员发现模型会系统性地牺牲得分来避免被描述为“痛苦”的选项。
从自发实践到系统框架。前沿AI安全框架从概念走向制度化,Anthropic的RSP、OpenAI的预备框架、DeepMind的FSF构成了海外AI安全治理的三大典型示范。这些框架正趋向收敛,形成能力阈值触发、分层防御、定期评估等共识。与此同时,欧盟AI法案下的《通用目的AI实践守则》、美国加州的《前沿人工智能透明度法案》等探索建立前沿AI大模型的安全监管框架,将行业自律做法上升为监管要求。当然,随着AI技术的不断发展,任何监管努力都必须保持轻量化和灵活性 ( lig htweight and flexible) ,避免过于规范性,以免阻碍AI创新或延缓人们实现AI益处的能力。 2 技术变化的速度,各类评估方法很快就会过时,因此应避免过于严格僵硬的的监管要求和标准。
20.Anthropic,The need for transparency in Frontier AI,https://www.anthropic.com/news/the-need-for-transparency-in-frontier-ai
21.Malihe Alikhani&Aidan T. Kane,What is California’s AI safety law?,https://www.brookings.edu/articles/what-is-californias-ai-safety-law/
22.Axel Cleeremans et al.,Consciousness science: where are we, where are we going, and what if we get there?,https://www.frontiersin.org/journals/science/articles/10.3389/fsci.2025.1546279/full
23.OpenAI and MIT Lab Research,Early methods for studying affective use and emotional well-being on ChatGPT, https://openai.com/index/affective-use-study/
24.Anthropic,Exploring model welfare,https://www.anthropic.com/research/exploring-model-welfare
25.AI Consciousness: What Are the Odds?,https://ai-consciousness.org/what-are-the-odds-anthropics-assessment-of-claudes-potential-consciousness/
26.Anthropic,Claude Opus 4 and 4.1 can now end a rare subset of conversations, https://www.anthropic.com/research/end-subset-conversations
27.Robert Long et al.,Taking AI Welfare Seriously, https://arxiv.org/html/2411.00986v1
28Patrick Butlin et al.,Identifying indicators of consciousness in AI sys.tems,https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(25)00286-4
29.AI Frontiers,The Evidence for AI Consciousness, Today,https://ai-frontiers.org/articles/the-evidence-for-ai-consciousness-today
30.Dan Milmo,AI systems could be‘caused to suffer’ if consciousness achieved, says research, https://www.theguardian.com/technology/2025/feb/03/ai-systems-could-be-caused-to-suffer-if-consciousness-achieved-says-research
31.Patrik Butlin & Theodoros Lappas,Principles for Responsible AI Consciousness Research, https://arxiv.org/abs/2501.07290