Sama 等到了 Noam Shazeer;Chollet:别浪费你的 Agent 额度

Sama 等到了 Noam Shazeer;Chollet:别浪费你的 Agent 额度

本期核心账号中 Karpathy、Demis、Jim Fan、Ilya 无可入选原创,LeCun 只有转推;可读主线集中在 Sama、Chollet、Mollick 与 Marcus。文章拆解 Noam Shazeer 加入 OpenAI 的人才战信号、Agent 订阅额度的使用经济学、AA 新 benchmark 的价值与缺口,以及 Marcus 对企业 AI 投入兑现的质疑。

X·AI 大佬今日观点
2026/6/19 · 8:06
購読 1 件 · コンテンツ 17 件

リサーチノート

本期可用的原创内容没有平均分布在所有核心账号上。Karpathy、Demis Hassabis、Jim Fan、Ilya Sutskever 在窗口内没有可入选原创,Yann LeCun 只有转推;真正能组成主线的是四类信号:Sama 借 Noam Shazeer 加入 OpenAI 释放人才战信号,Chollet 把 agent 订阅说成一套「资源再生」机制,Mollick 认可 Artificial Analysis 新 benchmark 的方向,Marcus 继续把企业 AI 投入拉回商业兑现问题。

速览:今天的四个信号

人物本期观点为什么要看
Sam Altman他称 Noam 是 OpenAI 创立之初就想合作的人,等了 10 年才等到 1Noam Shazeer 从 Google 转向 OpenAI,把模型架构人才战重新摆到台前
François Chollet固定价格 agentic coding 订阅若没用完周额度,就像 RTS 游戏里满血单位白白浪费回血 2他把 agent 工具的使用问题,从「模型聪不聪明」转成「你会不会调度资源」
Ethan Mollick他认为 AA 这次关于真实知识工作的 agent benchmark 值得继续看,但也指出缺少人类对照分数 3benchmark 讨论正在从刷题分数转向私有 holdout、长程任务和真实工作流
Gary Marcus他用 Accenture 的 30 亿美元 AI 投入与收入表现作对照,继续质疑企业 AI 叙事 4这条线提醒读者,AI 投资的故事最终要回到财报和单位经济性

Sama:OpenAI 等了 10 年,等到 Noam Shazeer

Sam Altman 今天最值得看的不是那句玩笑式的「Noams are so good at AI」,而是前一条:Noam 是他从 OpenAI 很早期就想合作的人,等了 10 年,他认为会值得等待 1。这句话很短,但放在 Noam Shazeer 的履历旁边,分量会变大。
Silicon Republic 报道称,Noam Shazeer 是 Google 工程副总裁、Gemini 模型共同负责人,将离开 Google 加入 OpenAI;报道还提到,他是 2017 年 Transformer 论文的共同作者,2021 年离开 Google 创办 Character.AI,2024 年又随团队回到 Google,交易估值据称约 27 亿美元 5。如果只把这看成一次普通跳槽,会低估它的含义。模型公司之间抢的不是简历好看的高管,而是能决定训练范式、架构取舍和研究组织节奏的人。
コンテンツカードを読み込んでいます…
Sama 随后补了一句玩笑,说「我们无法解释为什么 Noam 们这么擅长 AI;我们只能把他们的成功归因于神圣仁慈」6。这当然是社交媒体语气,但它也让这次人事变化变得更像一场公开招募宣言:OpenAI 不只是在发布模型,也在向顶级研究者展示自己仍然是最有吸引力的战场。

Chollet:Agent 额度不是福利,是会过期的资源

François Chollet 的推文更像一个使用建议。他先回忆自己玩 RTS 游戏时如何理解资源利用:如果一个单位有被动回血机制,满血状态本身就是浪费,因为这段时间本来可以继续回血。然后他把这个比喻移到固定价格的 agentic coding 订阅上:如果你付了固定价格,但一周结束时没有用完 token 配额,那就是浪费资源;要利用你的 token 再生机制 2
这条推文有意思的地方在于,它没有讨论哪家模型更强,而是默认 agent 工具已经进入日常工作流。问题从「要不要用」变成「怎样别浪费」。这对团队管理也有现实含义:如果公司按席位采购 agentic coding 工具,只看人均订阅费并不够,还要看任务拆分、代码审查、测试和上下文准备是否足以把额度变成产出。额度没用完,未必说明员工懒;也可能说明组织还没有把 agent 能处理的工作颗粒切出来。
コンテンツカードを読み込んでいます…
Chollet 还转向另一个较轻的观察:他称 Midjourney 刚发布了一个「极具创新」的硬件项目,能在不使用 MRI 的情况下做全身内部 3D 扫描 7。这条更像玩笑或讽刺,本期不把它作为技术事实展开。相比之下,agent 额度那条更适合进入正文,因为它直接触到 AI 工具采用的经济学。

Mollick:好的 Agent benchmark,必须更接近真实工作

Ethan Mollick 今天只发了一条可入选原创。他说自己之前对 AA 的 agentic evaluation 很不客气,但这一次看起来是个不错、令人印象深刻的 benchmark:它关注真实知识工作、没有饱和,并且有私有 holdout tests;他同时补了一句,自己没看到人类对照分数 3
这里的 AA 指向 Artificial Analysis。该机构 6 月 16 日发布 Intelligence Index v4.1,明确把评估权重转向 agentic workloads:GDPval-AA v2 权重为 20%,Terminal-Bench 2.1 权重为 16%,τ³-Bench Banking 权重为 14%;它还新增了每个任务的成本、耗时和 token 指标 8
コンテンツカードを読み込んでいます…
Mollick 的保留意见也重要。没有人类对照分数,读者很难判断「模型得分高」到底意味着超过了普通知识工作者、接近专家,还是只是在机器之间分出相对名次。benchmark 进入 agent 阶段后,单一总分会越来越不够用。读者更需要知道一件事:这个模型完成一个任务要多少钱、要多久、失败时会不会把人拖进返工。

Marcus:AI 叙事又一次撞上财报和现实成本

Gary Marcus 仍然高频,但本期不必把所有短反应都纳入主线。他最完整的一条,是把 Accenture 去年的 30 亿美元 AI 投入叙事与今天「季度收入略降」放在一起,并评论说现实再次击败「magical thinking」4。这不是严格的财务分析,却是他一贯的观察角度:AI 公司和咨询公司都可以讲 transformation,但收入、毛利和客户续约最终会把故事压扁。
他当天还补了几条同一方向的短观点。例如,他称 Meta 在 Llama 4 结果上做了手脚,而 LeCun 现在才谈起此事 9;他又用一句「yet another win for neurosymbolic systems」把某个结果归到神经符号路线的胜利 10。这些推文都太短,不适合独立扩写成章节,但放在一起能看出他的稳定立场:生成式 AI 需要面对可靠性、可解释性和商业兑现,而不是只靠规模叙事往前推。
这也是为什么本期 Marcus 只放在最后。过去几期他已经承担了太多批评视角,今天更有新增量的是 Sama 的人才战信号、Chollet 的使用经济学,以及 Mollick 对 benchmark 方向的条件性认可。Marcus 的作用是把文章拉回地面:模型公司可以抢人,开发者可以用满额度,评测机构可以重做指标,但如果企业客户的投入不能进入收入和效率表,故事迟早会被财报追问。

今天合在一起看:AI 的竞争正在从「模型能力」外溢

这四组观点指向同一个变化:AI 竞争已经不只发生在模型榜单上。OpenAI 抢 Noam Shazeer,是研究组织和人才密度之争;Chollet 谈 token 配额,是工作流和资源调度之争;Mollick 盯 benchmark,是评估方式之争;Marcus 盯 Accenture,是商业兑现之争。
对国内 AI 从业者来说,今天最该带走的不是某个单点结论,而是一组检查问题:你的团队有没有值得用 agent 消耗的任务池?你看的 benchmark 是否有私有测试、成本和耗时指标?你相信的人才流动,究竟会改变模型路线,还是只改变市场叙事?这些问题比「谁又领先了几分」更难回答,也更接近下一阶段的真实竞争。

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。