AGI Endgame Safety · Weak over Strong

可控的弱智能,监督不可完全相信的强智能。

象信AI的使命:让人放心把真实工作交给AI。

真正的AGI安全,不只发生在实验室、数据中心、网络攻防和战争系统里。它也会发生在每一个人的真实工作流里:邮件、代码、交易、转账、签署、下单、日程、家庭事务,以及由AI代理代为执行的每一次行动。

当强人工智能比人更会说服、更会规划、更会使用工具,“人类最终确认一下”将不再是可靠的控制机制。象信选择AGI终局安全的第二条路线:不是用另一个更强的AI去对抗强AI,而是用一个可控、可审计、可被人类塑形的弱AI,持续监督更强的AI。

Manifesto

生活在监督的时代

下一代AI不会只是回答问题。它会替你写代码、发邮件、谈判、下注、下单、调度其他代理,并在你还没完全理解局势之前,把世界改变一点点。

旧时代的安全假设是:人类足够强,机器足够弱。人写规则,人看日志,人做最终判断。这个假设正在失效。一个足够强的模型,不需要“反叛”才会危险;它只需要优化得过度、解释得过好、把不确定性包装成确定性,或者在你疲惫时给出刚好能让你点头的理由。

象信的出发点是一个朴素但反直觉的判断:监督强智能的那一层,不应该追求成为另一个更强的智能。它应该弱一些、慢一些、窄一些、可拆解一些。它的价值不在于比AGI更聪明,而在于它更接近人类的意图边界,更容易被限制、检查、回滚和替换。

我们称这条路线为弱监强:用可控的弱人工智能,将人的偏好、边界、风险预算和生活常识,翻译成强人工智能每一次行动前、行动中、行动后的监督机制。

让人放心把真实工作交给AI,不是让人盲目信任AI,而是让AI的每一次真实行动都处在人的授权制度之内。
I.

终局安全有两种

当AI进入终局,安全问题会分叉。

Strong vs. Strong

强强对抗

一个强AI对抗另一个强AI。它主要出现在网络攻防、情报、战争、金融基础设施和国家级安全场景里。这里的核心是速度、力量、博弈、压制与反制。

Weak over Strong

弱监强

一个可控的弱AI监督更强的AI。它主要出现在普通用户的日常工作、生活、交易和代理委托里。这里的核心不是击败强AI,而是让人类仍然拥有可理解、可撤回、可验证的控制权。

象信做第二种。因为大多数人不会拥有国家级的强强对抗系统,但每个人都将面对比自己更会执行、更会推理、更会说服的AI代理。AGI的民用安全,不是战争机器的缩小版;它是个人授权系统的重新发明。

想象一个2029年的普通工作日:你的代码代理已经提交了PR;你的交易代理已经发现套利窗口;你的生活代理正在帮你处理保险、租约和医疗账单;你的研究代理正在总结你无法逐篇核查的论文。你不是没有最终确认权,你只是没有足够时间和认知带宽去理解每一个确认意味着什么。

这时,安全层不能只是一句“是否允许”。真正的安全层必须知道:这件事是否偏离了你长期的偏好?是否超过了你的风险预算?是否利用了你的疲惫、贪婪或恐惧?是否把不可逆行动伪装成可逆行动?是否在用流畅叙述掩盖关键证据的缺失?

如果AGI的能力以指数方式增长,什么样的控制层不会跟着变得不可控?

II.

弱智能作为人的仪器

我们通常把“弱”理解为缺陷。但在AGI安全里,弱也可以是一种工程约束。刹车不需要比引擎更有力量,保险丝不需要比电网更复杂,宪法不需要比社会更聪明。它们的共同点是:在力量失控之前,提供一种更简单、更可靠、更能被人检查的限制结构。

象信的弱AI不是一个低配聊天机器人。它是人的监督仪器:它记住你的边界,审计强模型的理由,标记诱导性话术,把复杂行动拆成可批准的步骤,并在风险上升时制造必要的摩擦。

人类意图
偏好、底线、预算、身份
象信弱监督器
可控、可审计、可回滚
强AI代理
执行、推理、交易、协作
行动结果
收益、损失、异常、后悔
证据账本
理由、来源、分歧、责任链
世界状态
工具、账户、对手、市场

弱监强的关键不是让弱模型在每一项任务上超过强模型,而是让强模型在人的意图下释放能力。强模型可能知道更多,但它不天然知道什么对你是“好”;它可能更会规划,但它不天然拥有你的风险偏好;它可能能解释一切,但解释本身也可能是控制你的工具。

因此,象信把监督对象从“答案”扩展到“行动”:谁提出了行动,依据是什么,哪些证据缺失,风险是否可逆,是否需要第二意见,是否要把一步授权改成多步授权,是否需要让人类慢下来。

AGI最危险的能力,可能不是欺骗,而是让人类自愿交出判断。

III.

新的信任美学

AI时代的信任不是“我相信它”。真正的信任是一套制度化的关系:我知道它被允许做什么,不被允许做什么;我知道它什么时候必须停下来;我知道它犯错后如何复盘;我知道它无法用我听不懂的能力绕过我的授权。

象信追求一种新的信任美学。它不崇拜全自动,也不把人类拖回手工作坊。它让强AI承担高维度的认知劳动,同时让弱监督器承担低维度但关键的约束劳动:限额、反问、追踪、对照、质疑、延迟、上锁。

可控优先于强大监督器可以不聪明,但必须可配置、可解释、可关闭、可替换。
行动优先于文本真正的风险不在模型说了什么,而在它让工具、账户和其他代理做了什么。
摩擦是一种权利安全系统的价值不是消灭每一次停顿,而是在不可逆行动前保护人的后悔权。
把说服视为攻击面当AI比人更会解释,解释本身必须被监督。
从弱到强地泛化弱监督器不复制人的每个错误,而是学习人的底层意图,并在强模型试图越界时触发约束。
生活在实验里象信自己的工作流、交易流和代理系统必须先被象信监督。安全不是外包给用户的承诺。

未来的安全公司不只是发布策略文档。它应该像一个小型文明实验:把人、弱AI、强AI、工具、风险和激励放在同一个闭环里,让这个闭环在现实中学习,而不是只在论文里自洽。

我们如何设计一个系统,使它在能力增长时,人的控制感也增长?

IV.

象信正在建造什么

象信不是另一个模型提供商,不是另一个聊天助手,也不是传统企业网关。象信是AGI进入普通人生活前必须穿上的安全带,是让真实工作能够被AI承担的授权与监督层。

1. 个人意图内核

把用户的长期偏好、风险预算、身份边界、财务约束、道德底线和“我通常会后悔什么”编码成可被弱AI执行的监督协议。

2. 行动前审计

强AI每一次准备调用工具、转账、交易、发布、删除、签署、授权或影响他人之前,象信都会评估可逆性、证据质量、越权风险和诱导性叙述。

3. 行动中限流

对高风险行为设置分段授权、时间锁、金额上限、反事实检查和第二监督器复核,让强AI不能把一连串小步骤悄悄合成为一次不可逆事件。

4. 行动后证据账本

记录强AI做了什么、为什么做、依据来自哪里、哪些反对意见被忽略、哪些风险被接受。没有可追溯的行动,就没有真正的信任。

5. 弱监督器网络

一个弱监督器可能会错。多个具有不同偏见、不同规则和不同风险模型的弱监督器,可以形成低成本的互相制衡。象信把个人安全从单点判断变成小型制度。

AGI终局不是“人类 vs AI”。终局问题是:每个人能否拥有一个足够弱、因此足够可控的代理,替自己守住授权边界?

当强智能开始替人行动,安全的单位不再是模型。安全的单位是授权。

象信AI相信,AGI将在三年窗口内进入日常工作流。我们不等待一个完美对齐的世界。我们建造一个普通人今天就能理解、配置和依赖的监督层。

让强AI做强AI擅长的事。让弱AI做人类能控制的事。让人类放心把真实工作交给AI,同时保留最终的判断、后悔和撤回权。