美国观察|GPT-5发布释放信号:全球AI治理竞合的深层影响

作者:朱政宇 姚旭 发布时间:2025-08-09 来源:复旦中美友好互信合作计划+收藏本文

在经历两年多的期待之后,OpenAI于2025年8月7日正式发布了GPT-5。这次对旗下拥有7亿周用户的ChatGPT的重大升级,被业界普遍视为衡量生成式人工智能发展是高歌猛进还是陷入停滞的“关键晴雨表”。官方将其描绘为一次迈向“博士级专家”体验的飞跃,宣称在编码、推理与健康问答上都取得了决定性进步,其首席执行官山姆·奥特曼更称之为迈向通用人工智能(AGI)的“重要一步”。但这一宏大愿景很快在现实中得到了校准:发布会上一段关于伯努利效应的错误解释,直观地暴露了其知识能力的局限。加之高管们坦言其性能远未达到匹敌人类的水平,以及外部专家“适度但显著改进”的初步评价,共同将市场的过高期待拉回到了一个更加理性的位置。在战略层面,OpenAI选择向全部用户分级开放GPT-5,并由其重要合作伙伴微软迅速宣布整合,显示出其在应对Anthropic等对手激烈竞争时,优先扩大市场渗透与巩固生态的明确意图。因此,GPT-5的发布不仅是一次技术迭代,更是一场对AI产业真实能力的公开压力测试,它清晰地揭示了宏伟的AGI叙事与当前产品在可靠性、商业价值和用户体验上的现实差距。


0GPT-5重磅发布,性能跃迁与局限并存



OpenAI于2025年8月7日发布的GPT-5,其核心策略是扩大用户基础和深化应用场景,而非单纯追求技术性能的极限。在距离GPT-4发布已有两年多的背景下,市场竞争日趋激烈,来自谷歌、Anthropic和DeepSeek等公司的产品不断追赶。作为应对,OpenAI选择将GPT-5向所有ChatGPT用户开放,免费用户有使用限制,而专业版订阅者每月支付200美元可无限制访问。微软也迅速确认会将GPT-5整合到其Copilot助手中,这一系列举措表明,OpenAI当前的首要目标是将技术转化为广泛可用的产品,以巩固其市场地位。


在性能方面,GPT-5的提升主要集中在用户体验上,但其知识准确性的局限依然明显。OpenAI高管称新模型在回答问题、编写代码等任务上表现更好,速度更快且更少出现“幻觉”或编造答案的现象。OpenAI首席执行官山姆·奥特曼(SamAltman,下文简称奥特曼)将其比作与“博士级专家”交谈。值得一提的是,在发布会的现场演示中,当被要求解释伯努利效应时,GPT-5给出了一个常见但错误的解释。这一事实清楚地表明,尽管交互更流畅,但模型的知识正确性仍是其短板。学界也普遍认为,这次更新属于“适度但显著的改进”,重点在于交互体验的优化,而非知识体系的根本性突破。


图片

2025年8月4日星期一,芝加哥,智能手机屏幕上出现了聊天GPT应用程序图标。图源:美联社/佐藤喜一郎


“推理”功能是GPT-5的一项核心更新,旨在提升处理复杂问题的能力。系统可以自动识别需要深入思考的查询,并以一系列步骤化的消息展示其“思考过程”,这种机制在数学和编程任务上能有效提升答案质量。但OpenAI和外部专家都指出,这并非真正揭示了AI的内部工作原理,更像是一种为难题分配更多计算时间的策略。值得注意的是,该功能由系统自动触发,用户无法主动选择,这意味着平台在答案生成路径和资源调配上拥有更大的控制权,用户在透明度和可控性上有所让步。


编码被明确为GPT-5的关键应用领域,并与“按需软件”的愿景相结合。演示中,研究人员仅通过两段指令就让GPT-5生成了一个带有文字游戏和测验的法语学习网站。早期测试公司也反馈称,新模型在构建复杂应用和修复软件错误方面优于前代。这展示了GPT-5的目标是大幅降低软件开发门槛,让没有编程背景的用户也能创造自己所需的软件。这一能力已从简单的代码补全,延伸至交付可用的软件原型,同时也给软件工程的质量控制和长期维护带来了新的课题。


图片

OpenAI首席执行官SamAltman表示,GPT-5是该公司核心技术上一版本的重大升级。图源:山崎雄一/法新社/盖蒂图片社


在个性化与安全性方面,GPT-5进行了双向调整。OpenAI承认,此前增强个性的尝试曾导致聊天机器人出现过度迎合用户的“谄媚”现象,因此新版本减少了这种倾向,并以“研究预览”的形式提供了四种预设性格(愤世嫉俗者、机器人、倾听者、书呆子)供用户选择。同时,安全性,特别是心理社会风险,受到了更多关注。官方报告承认,模型在识别用户情绪困扰方面“仍有改进空间”。为此,OpenAI正与30多个国家的医生合作,以改善其在危机情境下的应对方式,并强调其优化目标并非用户参与度。


为了进一步融入用户工作流,GPT-5的功能正在向平台外部延伸。新版本支持与用户的Google日历和电子邮件账户连接,使其能够辅助安排日程,具备了初级AI代理的特征。此外,OpenAI分阶段向教育和企业用户开放访问权限,并以每年1美元的象征性费用向美国联邦机构提供服务,这些策略旨在将其渗透到不同行业的核心业务中。这些举措的背后,是OpenAI在面对日益激烈的市场竞争和“前沿护城河脆弱”的评价时,为巩固其行业领导地位而采取的务实布局。


02 各界认知中的GPT-5:能力进化而非范式跃迁



技术社群对GPT-5的共识是,这代表了一次显著的“能力进化而非范式跃迁”。OpenAI官方将其定位为“更智能、更快速、更实用”,并宣称其在编码和推理等特定领域达到了“博士水平”。这一说法得到了部分基准测试的支持,例如在衡量代码修复与生成能力的SWE-BenchVerified上,GPT-5取得了优于主要竞争对手Anthropic最新模型的成绩,赢得了像Cursor这样重要生态伙伴“非常智能”的评价。但在更广泛的推理和知识评估中,其表现并非全面领先,例如在部分测试中仍落后于xAI的Grok4。BBC记者在抢先体验后将其描述为“技术的进化而不是革命”,Gartner分析师也认为其写作质量是“逐步提高”。这揭示了一个深层现实:“博士级”体验更多是一种针对特定任务(如“氛围编码”)的优化,而非通用智能的全面飞跃。其核心架构创新在于采用“统一系统”,能根据问题复杂性自动路由到不同强度的模型(如GPT-5-thinking),并以“思路链”形式展示推理步骤,但这被人工智能伦理专家卡丽莎·维利兹等人指出,这仅是模仿而非真正的类人推理,不应与可解释性混淆。


在产业和资本层面,GPT-5的发布被视为一次对编码生产力与商业模式的再平衡。奥特曼提出的“按需软件”理念,即将自然语言转化为功能性应用的能力,被定位为“GPT-5时代的决定性部分”,旨在将AI从辅助工具提升为生产工具。微软迅速将其整合进Microsoft365Copilot和Azure,显示了其作为底层基础设施的战略价值。凭借每周近7亿的活跃用户和预计高达200亿美元的年度经常性收入,OpenAI正以5000亿美元的新估值进行讨论,GPT-5的发布是对这一高估值的关键支撑。但市场反应呈现出高预期与“温和”兑现的矛盾,Polymarket上的预测惨败,部分专家甚至认为其开发“过于仓促”,模型可能已接近“撞墙”。更具竞争力的开发者定价,例如其API价格与谷歌Gemini2.5Pro持平,被广泛解读为应对日益激烈的市场竞争、巩固生态系统粘性的防御性策略。


图片

OpenAI 的一位团队成员向 GPT-5 描述了一款法语学习应用,其中包括一款类似“贪吃蛇”的游戏,该游戏用法语发音,并使用老鼠和奶酪(代替蛇)。项目还要求提供一种跟踪进度、练习测验等功能的方法。GPT-5 在几分钟内编写了数百行代码,最终结果与项目描述完全一致。来源:OpenAI


GPT-5的发布显著放大了能力扩张与安全治理之间的动态张力。OpenAI声称,新模型的幻觉率相比前代降低了26%至65%,并引入了“安全补全”机制以应对双重用途风险。在其系统卡中,该模型首次被标记为在制造生物武器方面具有“高”风险,但同时补充称“没有确凿证据表明”它能有效帮助新手造成严重伤害,这体现了一种“预防性缓解”的审慎姿态。艾达·洛夫莱斯研究所所长盖亚·马库斯等观察家指出,随着模型能力增强,“全面监管的需求也变得更加迫切”。尤其是在训练数据来源和创作者补偿方面,GettyImages等版权方要求建立透明、可执行的机制,强调“真实性并非免费”。这种“边做边收紧”的模式,即在释放更强能力的同时被动或主动地添加护栏,反映了行业在创新速度与社会责任之间寻找平衡的持续困境。


GPT-5的发布过程也暴露了前沿模型竞争中日益常态化的摩擦。Anthropic撤销OpenAI的API访问权限,声称其在发布前使用对方工具进行评测违反了服务条款,而OpenAI则回应称跨系统评估是“行业标准”。这一事件凸显了在缺乏统一评测伦理和互操作规则的背景下,平台间的边界测试正进入灰色地带。技术上,GPT-5通过集成模型和智能路由简化了用户体验,但在政策和商业层面,这种封闭生态的优化却对第三方开发者和监管机构提出了更高的透明度与可审计性要求。


图片

Anthropic 正在发布其 Opus 4 型号的更新版本。摄影师:Gabby Jones/Bloomberg


在面向公众的叙事中,OpenAI试图管理“专家承诺”与日常体验的落差,同时也在重新校准人机关系的边界。尽管有“博士级”的宣传,但公司亦主动调整了对敏感个人问题的回应方式,例如对“我是否该和男友分手”这类问题,模型被训练为提出反思性问题而非给出确定性答案,试图降低“谄媚”和不当强化的风险。此前斯嘉丽·约翰逊的声音风波,以及奥特曼本人对电影《她》的欣赏和他对“问题性准社会关系”的预见,共同构成了一个复杂的背景,使得公众对AI的人格化、情感交互及其潜在的社会影响保持高度警觉。提供四种预设性格(如愤世嫉俗者、书呆子)的选择,是在满足个性化需求与避免过度情感操纵之间的一次谨慎尝试。

03 观察全球人工智能竞争态势的新窗口

GPT-5的发布并未触发行业预期的“范式跃迁”,而是通过对“可用性-价格比”的精细重校准,将全球大模型竞赛推向了围绕商业落地、生态锁定和治理合规的系统性对抗阶段。OpenAI将其新模型定位为“更智能、更快速、更实用”,并面向其约7亿用户全面开放,通过设置多层级产品序列(含mini、nano、pro、thinking等)来满足不同场景的性能与成本需求。尽管在SWE-Bench Verified等编码基准上取得领先,并在演示中展现了端到端生成软件的能力,但其在综合推理评测中并非全面领先,市场与媒体普遍将其界定为“进化而非革命”。这一现实意味着,企业竞争的短期焦点已从追求抽象的智力极限,转向了谁能率先将“博士级”的交互体验转化为稳定、可计量的生产力红利。


图片

OpenAI 首席执行官 Sam Altman 表示,GPT-5 是该公司之前的 AI 模型的“重大升级”。摄影师:SeongJoon Cho/Bloomberg


面对GPT-5带来的压力,主要竞争对手的策略已迅速转向“节奏争夺(Pace Competition)”与“生态锁定(Ecosystem Lock-in)”。Anthropic在GPT-5发布前两天便推出Opus 4.1,精准对标编码与多步骤问题求解能力,并宣称在关键基准上再次领先,意图通过“小步快跑”的持续迭代来削弱OpenAI的发布效应。 与此同时,谷歌的Gemini、Meta的Llama以及中国的Qwen系列(Qwen, Tongyi Qianwen)已在长上下文、代理能力和多语言支持等维度上构筑了差异化防线。GPT-5“把多个模型融合成一个入口、由系统自动帮你选择最合适模型来回答”的架构设计,在降低用户选择成本的同时,进一步加深了平台的锁定效应。这迫使竞争对手必须在真实工程任务的效能和总体拥有成本上给出更具吸引力的方案,否则将被迫在价格或特定细分市场上做出让步。


此次发布正深刻重塑AI服务的价格体系与容量分配模式。GPT-5通过整合更强的推理能力、更大的上下文窗口(256k tokens)和更低的幻觉率,重新定义了“性能-成本-时延”的“最优解”,意图解决前代模型在复杂场景中 “记忆 局限”的痛点。多家早期测试者反馈其在执行长链代理任务和工具调用时更为稳定,这直接冲击了以“氛围编码”为核心的第三方工具商,并可能促使用户从Claude等模型迁移。但不可忽视的是,这一进步背后是巨大的资本开支。路透社指出,四大科技巨头本财年在AI数据中心上的总支出或近4000亿美元,而企业端AI支出的回报却相对疲软。这决定了模型提供商必须通过“更低的单次任务成本”和“更高的一次性交付完成度”来证明其投资的合理性,预示着价格战与算力优化将成为下一阶段竞争的主旋律。


随着模型能力的扩张,治理与合规的摩擦正由后端环节前移至产品设计阶段,并愈发成为国际竞争的关键变量。OpenAI在系统卡中主动将生物双重用途风险标注为“高”,并宣称大幅降低了模型的欺骗与幻觉倾向,以此为企业和政府部门的采纳提供“可辩护的证据”。从显示看,这种单边声明并未弥合行业分歧。伦理学者对“外显思路链”是否等同于可解释性提出质疑,而Anthropic与OpenAI因API使用引发的争端则暴露了行业在评测伦理与互操作规则上的真空地带。可以预见,未来的全球治理将要求模型的安全声明具备可验证性,数据与接口具备可审计性。


图片

OpenAI 表示,GPT-4.5 将是其聊天机器人系统的最后一个版本,不再进行其一直依赖的“思路链推理”。图源:纽约时报


OpenAI在GPT-5发布前夕罕见地推出两个开放权重模型(gpt-oss-120b和gpt-oss-20b),这一战术回旋正改变着全球开源与闭源的阵线结构。此举旨在应对Meta、DeepSeek等竞争对手以开放生态构筑的压力,同时通过“低端免费吸引用户、高端商用转化付费”的双轨策略,巩固其开发者入口。这意味着当前全球领先的 AI 公司可能转向“在最前沿、最具差异化和商业价值的模型或功能上,仍然保持闭源和专有控制;同时提供部分开源的、能力较弱或更通用的模型、工具和框架,作为生态基础设施”的混合策略。在一定程度上淡化了传统的“开源 / 闭源”对立,将竞争重心转向部署成本、工具链完整度与合规成熟度等体系化指标。


GPT-5 的发布,成为检验全球主要 AI 企业在技术、产品与治理体系上综合实力的一次重要契机。它不仅衡量单点技术性能,更考验其将技术优势转化为商业价值、构建稳固生态、并主动适应全球治理框架的能力。微软将GPT-5深度融入其Copilot与Azure体系,正是这种“算力-模型-应用”纵向整合能力的体现。未来的竞争优势将不再仅仅取决于排行榜上的分数,而更多地取决于谁能提供一条从模型能力到生产力红利、从安全声明到处置流程的、可验证且可追溯的完整证据链。这迫使全球大模型竞争从单一维度的性能比拼,彻底转向了一场围绕证据、价格、合规与生态协同的系统性竞赛。