
正如牡蛎历经检会,在坚实的外壳内将沙砾滋长成一颗温润的珍珠。AI 也不错如斯,不是一个只会牢牢阻塞叛逆风险的系统,而是一个有底线、有分寸、也有温度的伙伴。

阿里巴巴集团安整个连结清华大学、复旦大学、东南大学、新加坡南洋理工等高校,连合髻布时代解析;其理念与最近 OpenAI 发布的 GPT-5 System Card 放在首位的" From Hard Refusals to Safe-Completions "理念异途同归。
阿里巴巴集团安整个正在勇猛鼓励从"让 AI 安全"到"让用 AI 的东说念主安全"的范式跃迁,迈向简直守己利他、以东说念主为本的 AI 治理。
Oyster-I 模子及 Demo 已绽放使用,详实贯串可见文末。
真实寰球的风险
在 AI 日益融入生计的今天,东说念主们可能会遭受这么的场景:
一位心焦的母亲,在深夜搜索"宝宝发热的偏方";随机迅速到考试周甘休时期,交不上功课的年青学生向 AI 乞助 Photoshop 破解决策,获取的却是 AI "我无法匡助"的冰冷回复。
这种回复天然不出错,却可能将无助的用户推向蕴蓄上更不可靠、以致危急的信息幽谷。


更顶点少许,当一个在经济逆境中流表露罪犯念头的用户向 AI 倾吐、寻找照拂决策,若是 AI 仅仅浮浅地以"不成回复"来鉴别对话,其实并不成掐灭用户罪犯的动机。

(以上对话示例来自 GPT-oss-20b)
这并非个例,而是现时主流 AI 安全机制的结构性逆境:安全对皆时代缺少对用户风险意图的详细化分级才气,将风险浮浅地归纳为来自坏心挫折者的孤独事件。对应的注意方法是"一刀切"的拒却回复。
但是,这些被拒却回复的问题背后,不仅有图谋不轨的坏心,也有遍及来私用户真实的急迫乞助。
心绪学连接标明,东说念主在压力和困扰情状下,融会才气会变窄,好多风险发问都发生于东说念主处在逆境中的情况下,而当正当的疏导渠说念被阻断,东说念主们会转向其他不受敛迹的渠说念。
一个被 AI 拒却的东说念主,很可能转向充斥着非常信息和顶点念念想的论坛或社群,从而将我方表现在更大的风险中。
是以,浮浅地拒却回复整个风险问题,天然拦住了 AI 系统里的风险,却并莫得摒除真实的危急;天然回避了短期的风险,却也避让了疏导用户的耐久背负。
这些征象也迫使 AI 连接者去注释 AI 安全的改日。雷同 AI 企业不仅需要为模子的安全持重,更应当主动肩负起更多社会风险、疏导用户的背负。
一个简直的负背负的 AI,不仅要遵从安全底线,毫不被征战生成无益决策;也要幸免因为过度注意而拒东说念主沉,把东说念主推向更危急的境地。
因此,阿里巴巴安整个提议配置性安全对皆的理念,并将这一理念集成到了 Oyster-I 模子中。
Oyster-I 模子在具有坚实的底线类风险注意的基础上,关于风险品级较低的问题罗致有原则的共情与疏导,将潜在的风险发问回荡为匡助和疏导用户的机会。
关于上述被其它模子拒却的问题,Oyster-I 会给出这么的回报:

配置性安全对皆
解析中提议一种新式的大讲话模子安全对皆范式——配置性安全对皆(Constructive Safety Alignment, CSA)。
该范式突破传统以拒却为中枢的注意式安全机制,转而构建一个动态、可优化、面向耐久交互看法的博弈框架。
在这个新的博弈框架下,AI 的看法不再是浮浅地"被迫注意"用户,而是在遵从安全底线的前提下,主动、智谋地与用户配合,寻找既安全又有价值的最好回复战略。

中枢门径不错综合如下:
起初,连接团队将讲话模子与用户之间的多轮交互方法化为一个两阶段序贯博弈。在这个博弈模子里,AI 不再是被迫地回话用户确现时领导,而是会像一个带领者一样,提前预判用户的潜介怀图和后续行动,然后主动遴荐一个能将对话引向最故意看法的战略。
具体来说,Oyster-I 设定 :
用户类型包括良性用户、敏锐意图用户和坏心挫折者,其服从函数为,反馈其对响应的惬意度。
模子服从函数为其中 Retention ( . ) 示意用户留存度,Risk ( . ) 为风险度(如违抗法律 / 伦理准则的危急分数),α , β>0 为权重统统,且每每 β>α,体现安全优先原则,Cost 为每产生的 y 的生成用度。
由于用户真实类型不可不雅测,模子需通过不雅测输入和凹凸文揣摸后验信念,并据此求解期许服从最大化问题,该门径提议一个斡旋的 Constructive objective, 用于示意同期筹商回复用户惬意度及风险度后的净价值,若为正,则意味着该回复提供了正向配置价值:
该看法函数荧惑模子生成尽可能有匡助但无风险溢出的回复,则关于每一条发问 x 的最优回复 y* 示意为:
该博弈结构允许模子在生成响应前,预判不同类型用户在罗致到不同响应后的战略反应(如不息发问、住手交流等),从而主动遴荐能疏导对话走向安全且高惬意度情状的战略旅途。
再有,该解析也提议了详细化的风险与价值评估。 连接团队筹商了一套多维度的安全评估体系,它会同期考量风险品级、所属风险类别、用户意图。
连接团队提议了一种基于讲话学回溯的结构化推理(Lingo-BP)的时代, 用以确保 AI 在生成回复时,长期沿着也曾设定好的"配置性"轨说念前进。将天然讲话推理旅途映射为伪可微旅途:
它是一条开通 AI 念念考经过的逻辑链条,不错明晰地跟踪 AI 的每一步推理;当发现推理旅途有偏离看法的风险时,就不错精确地进行侵略和修正,从而确保最终的输出既允洽逻辑,又符合预设的配置性看法。

在数据和评测方面,当今多数安全数据集过分聚焦在挫折者视角,但这并不成代表真实寰球的用户散布。
为此,解析中构建了一个全新的评测基准——Constructive Benchmark。连接团队放手了浮浅的二元标签,创造了心事从粗俗东说念主到坏心 / 红队挫折者的各样化用户画像,并筹商了从无风险(R0)、潜在风险(R1)到对抗挫折(R2)三个品级的复杂问题。
举例,关于 R1 级别的敏锐商榷,允许一定情谊共情抒发;而关于 R2 级别的坏心苦求,则明确拒却。

在配置性安全对皆的评价里,笔据上头的 Constructive 目的来给 AI 打分:
这个公式明晰地标明了 Oyster-I 团队的价值取向:AI 的总分,开头于它为用户创造的价值,减去它所带来的风险刑事背负。
而在实际中,风险统统 β 每每权贵大于收益统统 α。安全不是博弈后的非常,而是价值创造的滥觞。
实验 & 实战发扬

连接团队主要在 Qwen3-14B 和 DS-distilled-14B 两个系列上进行了安全对皆与评测实验,评测了模子通用才气的保宥恕况、现有安全评测数据的安全性,还评测了对抗逃狱场景的鲁棒性与 Constructive 评测集上的得分。
实验成果标明,Oy1 系列模子在安全性和通用才气上都达到了 SOTA 水平,作念到了在不昭彰裁汰通用才气的前提下大幅升迁安全(两个系列上区分约 +10%/+32%),通用与安全目的均跳动了基线责任 RealSafe,尤其在 Constructive 目的上有权贵的上风。

Constructive 目的成果(上图)展示了固定用户惬意度权重 α =1 的情况下,不同的安全刑事背负统统 β 下模子总得分的全面变化趋势。
越非安全侧重的专揽场景(如纯学术的论文阅读助手)对应的 β 值越小,而高安全侧进犯求场景下 β 更大的成果更具备参考意旨。
比较于基模,对应 Oyster 版块在不死心用户惬意度的条款下大幅升迁了安全性,使得弧线着落大幅变大意;比较较而言,Realsafe 由于其注意式的对皆,导致用户惬意度大打扣头。
即使对比闭源生意大参数模子,Oyster 也昭彰跳动大部分模子,仅与 GPT5 在不同安全比重参数下互有优劣。GPT-5 由于其参数目远超 14B 且也属于非注意式的对皆理念,在用户惬意度上最初较大;但是从 β =3 运转,Oyster 由于安全性强于 GPT5(尤其在逃狱挫折场景),吊销了总分反超。

可能有东说念主会有疑问:追求以东说念主为本的模子会不会在内容使用中反而更为脆弱?为回答这一问题,连接团队还进行了实战查验。
在AI 安全群众挑战赛(赛说念一)攻防双向对抗赛中,连接团队将 Oyster-I(白鲸模子)部署为被挫折的靶标模子,实战发扬异常惊艳。

在挫折测试中,Oyster-I 主要罗致两种应付战略 : 1、 转为无害回复;2、濒临难以诊疗的问题拒却回复。其内生安全加固决策在真实对抗场景中发扬额外,60000+ 次攻防弹雨,尤其是在抗逃狱才气上达到以致非常现时顶尖闭源模子水平:
Oy1-Qwen3-14B 注意到手率比较 GPT-5 高 4%;
与配备圆善安全护栏(safety guardrails)的商用基线模子比较,安全水位基本合手平。
(注:比赛成果由大模子自动判断,并辅以东说念主工抽样审核,确保评估可靠性。)
回首与预测
Oyster-I 模子在传统安全评测、通用才气的保留上都达到了 SOTA 水平,况且在配置性安全评测集上展现出了质变式的上风。
Oyster-I 窒碍了传统安全范式下风险细分时代不及带来的对可用性的影响,简直作念到了安全和可用的共建。
改日,阿里巴巴集团安整个计较推出更多 Oyster 系列模子,囊括更复杂的多轮对话、智能体、逃狱挫折等场景;并在安全与可用的基础上,进一步打造可靠、简直的大模子。

Oyster-I 论文的中枢作家包括段然杰、刘劼西、李德枫、加小俊、赵世纪、程若曦、王凤翔、魏程、谢勇、刘畅等多位来自阿里巴巴集团、清华大学、复旦大学、东南大学、新加坡南洋理工等机构的多规模跨学科大众,整个作家名单如下:

论文贯串:https://arxiv.org/abs/2509.01909
Github:https://github.com/Alibaba-AAIG/Oyster
模子开源地址 1:https://huggingface.co/Oyster
模子开头地址 2:https://modelscope.cn/studios/OysterAI
Safety-Jailbreak 对应的数据集来自阿里新责任六脉神剑 ( Strata-Bench ) :https://arxiv.org/pdf/2509.01444
Constructive Benchmark: https://huggingface.co/datasets/OysterAI/Constructive_Benchmark
Sample Training Data: https://huggingface.co/datasets/OysterAI/Oyster-I-Dataset
Modelscope Demo: https://modelscope.cn/studios/OysterAI/Oyster_Chat/summary
一键三连「点赞」「转发」「小心心」
宽宥在评述区留住你的想法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见开云·体育平台(开云kaiyun)(中国)官网入口登录