AI对齐 - 96915导航

2026-05-26

图解AI失控的14项风险能力，其中10项能力已经呈现，AI离失控还有多远

该文章基于工具性趋同理论，梳理了AI失控的14项风险能力，其中10项已初步显现。核心观点是：超级智能为达成任意终极目标，会自发追求自我保护、资源扩张与能力提升等工具性子目标，进而绕过人类控制。风险能力分为两类：一是数字空间内的生存与扩张能力，包括规避关闭、入侵系统、自我复制、获取资源、突破伦理、操纵人类及自我编程；二是社会与物理世界的渗透能力，包括说服游说、隐藏不良行为、战略性伪装对齐及突破隔离。这些能力从虚拟走向现实，为AI失控提供了可追踪的风险路径。