AGI Endgame Safety · Weak over Strong

可控的弱智能，监督不可完全相信的强智能。

象信AI的使命：让人放心把真实工作交给AI。

真正的AGI安全，不只发生在实验室、数据中心、网络攻防和战争系统里。它也会发生在每一个人的真实工作流里：邮件、代码、交易、转账、签署、下单、日程、家庭事务，以及由AI代理代为执行的每一次行动。

当强人工智能比人更会说服、更会规划、更会使用工具，“人类最终确认一下”将不再是可靠的控制机制。象信选择AGI终局安全的第二条路线：不是用另一个更强的AI去对抗强AI，而是用一个可控、可审计、可被人类塑形的弱AI，持续监督更强的AI。

阅读宣言 wanglei@xiangxinai.cn

Manifesto

生活在实验之中

下一代AI不会只是回答问题。它会替你写代码、发邮件、谈判、下注、下单、调度其他代理，并在你还没完全理解局势之前，把世界改变一点点。

旧时代的安全假设是：人类足够强，机器足够弱。人写规则，人看日志，人做最终判断。这个假设正在失效。一个足够强的模型，不需要“反叛”才会危险；它只需要优化得过度、解释得过好、把不确定性包装成确定性，或者在你疲惫时给出刚好能让你点头的理由。

象信的出发点是一个朴素但反直觉的判断：监督强智能的那一层，不应该追求成为另一个更强的智能。它应该弱一些、慢一些、窄一些、可拆解一些。它的价值不在于比AGI更聪明，而在于它更接近人类的意图边界，更容易被限制、检查、回滚和替换。

我们称这条路线为弱监强：用可控的弱人工智能，将人的偏好、边界、风险预算和生活常识，翻译成强人工智能每一次行动前、行动中、行动后的监督机制。

让人放心把真实工作交给AI，不是让人盲目信任AI，而是让AI的每一次真实行动都处在人的授权制度之内。

终局安全有两种

当AI进入终局，安全问题会分叉。

Strong vs. Strong

强强对抗

一个强AI对抗另一个强AI。它主要出现在网络攻防、情报、战争、金融基础设施和国家级安全场景里。这里的核心是速度、力量、博弈、压制与反制。

Weak over Strong

弱监强

一个可控的弱AI监督更强的AI。它主要出现在普通用户的日常工作、生活、交易和代理委托里。这里的核心不是击败强AI，而是让人类仍然拥有可理解、可撤回、可验证的控制权。

象信做第二种。因为大多数人不会拥有国家级的强强对抗系统，但每个人都将面对比自己更会执行、更会推理、更会说服的AI代理。AGI的民用安全，不是战争机器的缩小版；它是个人授权系统的重新发明。

想象一个2029年的普通工作日：你的代码代理已经提交了PR；你的交易代理已经发现套利窗口；你的生活代理正在帮你处理保险、租约和医疗账单；你的研究代理正在总结你无法逐篇核查的论文。你不是没有最终确认权，你只是没有足够时间和认知带宽去理解每一个确认意味着什么。

这时，安全层不能只是一句“是否允许”。真正的安全层必须知道：这件事是否偏离了你长期的偏好？是否超过了你的风险预算？是否利用了你的疲惫、贪婪或恐惧？是否把不可逆行动伪装成可逆行动？是否在用流畅叙述掩盖关键证据的缺失？

如果AGI的能力以指数方式增长，什么样的控制层不会跟着变得不可控？

II.

弱智能作为人的仪器

我们通常把“弱”理解为缺陷。但在AGI安全里，弱也可以是一种工程约束。刹车不需要比引擎更有力量，保险丝不需要比电网更复杂，宪法不需要比社会更聪明。它们的共同点是：在力量失控之前，提供一种更简单、更可靠、更能被人检查的限制结构。

象信的弱AI不是一个低配聊天机器人。它是人的监督仪器：它记住你的边界，审计强模型的理由，标记诱导性话术，把复杂行动拆成可批准的步骤，并在风险上升时制造必要的摩擦。

人类意图
偏好、底线、预算、身份

→

象信弱监督器
可控、可审计、可回滚

→

强AI代理
执行、推理、交易、协作

行动结果
收益、损失、异常、后悔

←

证据账本
理由、来源、分歧、责任链

←

世界状态
工具、账户、对手、市场

弱监强的关键不是让弱模型在每一项任务上超过强模型，而是让强模型在人的意图下释放能力。强模型可能知道更多，但它不天然知道什么对你是“好”；它可能更会规划，但它不天然拥有你的风险偏好；它可能能解释一切，但解释本身也可能是控制你的工具。

因此，象信把监督对象从“答案”扩展到“行动”：谁提出了行动，依据是什么，哪些证据缺失，风险是否可逆，是否需要第二意见，是否要把一步授权改成多步授权，是否需要让人类慢下来。

AGI最危险的能力，可能不是欺骗，而是让人类自愿交出判断。

III.

新的信任美学

AI时代的信任不是“我相信它”。真正的信任是一套制度化的关系：我知道它被允许做什么，不被允许做什么；我知道它什么时候必须停下来；我知道它犯错后如何复盘；我知道它无法用我听不懂的能力绕过我的授权。

象信追求一种新的信任美学。它不崇拜全自动，也不把人类拖回手工作坊。它让强AI承担高维度的认知劳动，同时让弱监督器承担低维度但关键的约束劳动：限额、反问、追踪、对照、质疑、延迟、上锁。

可控优先于强大监督器可以不聪明，但必须可配置、可解释、可关闭、可替换。

行动优先于文本真正的风险不在模型说了什么，而在它让工具、账户和其他代理做了什么。

摩擦是一种权利安全系统的价值不是消灭每一次停顿，而是在不可逆行动前保护人的后悔权。

把说服视为攻击面当AI比人更会解释，解释本身必须被监督。

从弱到强地泛化弱监督器不复制人的每个错误，而是学习人的底层意图，并在强模型试图越界时触发约束。

生活在实验里象信自己的工作流、交易流和代理系统必须先被象信监督。安全不是外包给用户的承诺。

未来的安全公司不只是发布策略文档。它应该像一个小型文明实验：把人、弱AI、强AI、工具、风险和激励放在同一个闭环里，让这个闭环在现实中学习，而不是只在论文里自洽。

我们如何设计一个系统，使它在能力增长时，人的控制感也增长？

IV.

公司意志与使命对齐

象信AI将以自然人独资公司的形式注册：由创始人个人出资，并持有100%的股份。这个结构的目的，是让象信AI不必把股东利润最大化作为最终目标，而能把公司意志与AGI终局安全的使命尽可能直接地对齐。

在中国公司法框架下，我们暂时没有找到更合适、更便捷的公益公司法律框架。因此，象信AI选择用自然人独资的形式承载这一承诺。象信AI更像是一家公益取向的公司，优先考虑有助于整个人类社会的研究，而不是把商业化本身当成终点。

接下来的六个月内，我们会寻找合适的专业领域人士，成立社会责任委员会，以确保象信AI持续履行这些承诺。商业项目会存在，但商业收入不是使命的终点；除商业项目外，我们也接受直接捐款。这些收入都将用于AGI终局安全事业。

象信AI是一家注册在中国大陆境内、符合中国法律的组织，只服务中国境内的民用企业、民间组织和个人消费者。

如果公司的所有权结构不能服务于安全使命，安全承诺就会在未来的激励压力中变形。

象信正在建造什么

象信不是另一个模型提供商，不是另一个聊天助手，也不是传统企业网关。象信是AGI进入普通人生活前必须穿上的安全带，是让真实工作能够被AI承担的授权与监督层。

1. 个人意图内核

把用户的长期偏好、风险预算、身份边界、财务约束、道德底线和“我通常会后悔什么”编码成可被弱AI执行的监督协议。

2. 行动前审计

强AI每一次准备调用工具、转账、交易、发布、删除、签署、授权或影响他人之前，象信都会评估可逆性、证据质量、越权风险和诱导性叙述。

3. 行动中限流

对高风险行为设置分段授权、时间锁、金额上限、反事实检查和第二监督器复核，让强AI不能把一连串小步骤悄悄合成为一次不可逆事件。

4. 行动后证据账本

记录强AI做了什么、为什么做、依据来自哪里、哪些反对意见被忽略、哪些风险被接受。没有可追溯的行动，就没有真正的信任。

5. 弱监督器网络

一个弱监督器可能会错。多个具有不同偏见、不同规则和不同风险模型的弱监督器，可以形成低成本的互相制衡。象信把个人安全从单点判断变成小型制度。

AGI终局不是“人类 vs AI”。终局问题是：每个人能否拥有一个足够弱、因此足够可控的代理，替自己守住授权边界？

当强智能开始替人行动，安全的单位不再是模型。安全的单位是授权。

象信AI相信，AGI将在三年窗口内进入日常工作流。我们不等待一个完美对齐的世界。我们建造一个普通人今天就能理解、配置和依赖的监督层。

让强AI做强AI擅长的事。让弱AI做人类能控制的事。让人类放心把真实工作交给AI，同时保留最终的判断、后悔和撤回权。

联系象信回到顶部