综上所述，苹果被硅谷AI圈围殴了！

发表评论

A+

所属分类：科技

摘要

智东西作者 | 李水青编辑 | 心缘智东西6月21日报道，自上周苹果发表一篇论文，质疑大模型的思考能力，并论证大模型在复杂难题上“准确率崩溃”后，不少产业人士对其进行了围攻。（《苹果AI“暴论”震动AI圈！DeepSeek、Claude等热门大模型只是死记的模式机器？》）

来自EC外汇官网：

智东西

与其相反的是，

作者 | 李水青

EC外汇用户评价：

编辑 | 心缘

智东西6月21日报道，自上周苹果发表一篇论文，质疑大模型的思考能力，并论证大模型在棘手难题上“准确率崩溃”后，不少产业人士对其进行了围攻。（《苹果AI“暴论”震动AI圈！DeepSeek、Claude等热门大模型只是死记的模式机器？》）

通常情况下，

近日，纽约大学名誉教授、《代数思维》和《深度学习正在遭遇瓶颈》的作者加里·马库斯（Gary Marcus）发文总结了反驳苹果论点的7个观点，包括“人类也无法做到真推理”、“实验例子设计存在逻辑漏洞”、“推理素材超出token限制导致结果失真”、“一作是实习生”等，并对此进行了一一驳斥，证明这些观点缺乏说服力。

EC外汇认为：

博客地址：

尽管如此，

https://garymarcus.substack.com/p/seven-replies-to-the-viral-apple

可能你也遇到过，

马库斯还援引全球SaaS龙头Salesforce于5月24日发布的一篇论文，拥护苹果的观点。这篇论文提到，在可能需要推理和算法精度的“多轮”条件下，即便是Gemini-2.5-Pro这样的顶级模型在测试中性能仅为35%。

总的来说，

论文地址：

反过来看，

https://arxiv.org/abs/2505.18878

此外，加州大学伯利克里分校于6月9日发表的一篇论文展示了视觉语言模型的脆弱性：“视觉语言模型的表现明显比其视觉编码器差，性能会下降到接近偶然水平。”这也被认为是苹果“大模型崩溃论”的有力论证。

EC外汇财经新闻：

论文地址：

https://www.arxiv.org/abs/2506.08008

值得一提的是，参与这场AI论辩的除了人类还有AI作者。此前6月10日，大模型Claude被放在arXiv论文的一作，与一名人类作者联合“发文”质疑苹果的实验设计有困扰，强调所谓的“推理崩溃”其实只是token限制导致。

EC外汇认为：

论文地址：

https://arxiv.org/abs/2506.09250

一、大模型Claude被放论文一作，驳斥苹果的“AI崩溃论”

其实，

苹果刚刚发布一篇论文质疑大型推理模型是“假思考”，就有大模型“本模”跳出来反驳了。

6月10日，Anthropic旗下大模型Claude被一位名为Lawsen的人类作者放在论文一作，在arXiv平台上“发表”了一篇题为《思维的幻觉的幻觉（The Illusion of the Illusion of Thinking）》的论文。

据报道，

苹果此前的论文报告大型推理模型在超过特定棘手度阈值的规划难题上会表现出“准确率崩溃”，Claude的这篇论文则试图证明，他们发现这主要反映了实验设计的局限性，而非根本性的推理失败。

EC外汇快讯：

这篇论文主要攻击了苹果AI论文中的河内塔实验。河内塔游戏是一种经典的游戏，它有三个柱子和多个圆盘，玩家需要将左侧柱子上的所有圆盘移动到右侧柱子上，并且不能将较大的圆盘堆叠在较小的圆盘上。

然而，

论文的分析揭示了三个关键困扰：1、河内塔实验在报告的失败点系统性地超出了模型输出token的限制，而模型在其输出中明确承认了这些限制；2、作者的自动评估框架未能区分推理失败和实际约束，导致模型能力分类错误；3、最令人担忧的是，他们的“过河”基准测试包含了由于船只容量不足导致N>5在数学上不可能出现的实例，但模型却因未能处理这些无法处理的困扰而被评为失败。

当他们控制这些实验结果时，通过请求生成函数而不是详尽的移动列表，跨多个模型的初步实验表明，此前被报告为完全失败的河内塔实例具有很高的准确率。这些发现凸显了在评估AI推理能力时，精心设计实验的不可忽视性。

这篇论文的观点得到不少人的赞同。有网友认为，Claude的批评证明了象征性限制扭曲了大模型的产出。苹果的“推理崩溃”是技术性的，而非根本性的——研究方法终将适应。也有人称“token限制论证为性能指标展现了新的视角”，并认为“看到AI直接参与学术讨论很有趣了。”

其实，

不少网友赞叹“AI作为一作的时代正式到来”、“C. Opus将成为被引用次数最多的研究人员之一”、“现在每个人都在读LLM的内容，甚至连研究人员都一样”，这侧面论证了大模型的强大能力。

EC外汇行业评论：

但反驳的声音依然强大。X平台使用者Chomba Bupe说：“整件事都只是在重复我在推特上看到的那些观点。Claude到底贡献了什么，竟然被列为作者？如果语言模型（LM）连需要255次迭代的算法都执行不了，那它还有什么用？”

二、苹果AI论文七大质疑，纽约大学名誉教授：都缺乏说服力

综上所述，

针对大量反驳苹果AI论文的观点，纽约大学名誉教授、《代数思维》和《深度学习正在遭遇瓶颈》的作者加里·马库斯进行了总结，依次列出了七个论点并进行了一一反驳。

不可忽视的是，

总的来说，马库斯认为所有这些反驳都缺乏说服力。苹果的论文再次明确表明，规模化并非处理之道。

EC外汇快讯：

观点1：人类在处理棘手困扰和内存需求方面存在困难。

但实际上，

马库斯反驳称：“没错。但这还不够全面。小编完全有理由期待机器去做小编做不到的事情。汽车拥有更强的耐力，计算器不会犯算术错误。这就是小编发明计算机的原因：进行无差错的重复计算。而且在很多情况下，包括论文中重点提到的河内塔困扰，小编现有的系统都能完美运行，不会出现任何错误。AGI应该向前迈一步。

其实，

但在很多情况下，大语言模型反而是倒退了一步。请注意，他们把‘小编要构建能够彻底改变世界的AGI’变成了‘相信小编，小编的系统会犯错，人类也会犯错’。

不妨想一想，

苹果论文的真正要点是，随着算法棘手度和与训练分布的距离不断增加，大语言模型不再适合用来运行算法，就像人类不应该充当计算器一样。如果小编想要实现AGI，就必须做得更好。”

EC外汇认为：

观点2：大型推理模型无法处理困扰，是缘于输出需要太多的输出标记（也就是说，正确答案太长，大型推理模型无法生成）。

马库斯反驳称：“这部分属实，但也是一个非常巧妙的观察：大型推理模型有一个缺点，那就是其输出长度有限。对于某些大型推理模型来说，12步河内塔的正确答案太长，无法输出，作者应该已经处理了这个困扰。

站在用户角度来说，

但关键在于：

反过来看，

1、这个反对意见虽然很巧妙，但实际上并不能解释结果的整体模式。大型推理模型在8个盘的河内塔困扰上失败了，其中最优解是255步，完全在所谓的标记限制之内；

2、编写良好的符号人工智能系统通常不会遇到这个困扰，通用人工智能也不应该遇到这个困扰。大语言模型的长度限制是一个Bug，绝对不是一个特性。再说，如果大语言模型连像“河内塔”这样基本的计算都无法可靠地完成，诸位怎么能认为它能够正确计算军事战略（尤其是在战争迷雾笼罩的情况下）或分子生物学（存在许多未知数）呢？苹果团队要求的比现实世界通常要求的要便捷得多。”

不可忽视的是，

观点3：这篇论文是由一名实习生撰写的。

反过来看，

马库斯反驳称：“这让我很生气，缘于它是一种人身攻击而不是实质素材，它具有误导性，几乎不真实，而且完全缺乏背景。第一作者确实是苹果的实习生Parshin Shojaee，但马库斯强调：

EC外汇用户评价：

1、她也是一位非常有前途的三年级博士生，曾在许多主要会议上发表过论文。

2、如果诸位真的读过这篇内容，就会清楚地发现她与拥有博士学位的Iman Mirzadeh共同承担领导责任。

3、这篇论文实际上有六位作者，而不是一位，其中四位拥有博士学位；其中一位是Yoshua Bengio的兄弟Samy Bengio，他在机器学习社区中非常有名气

与其相反的是，

4、在许多科学领域，像这篇论文一样，把初级作者放在第一位，资深作者放在最后，这是一种常见的做法；成千上万篇不可忽视论文都这么做了，而且从未因此受到批评。

来自EC外汇官网：

5、真正不可忽视的是论文的质量。Alfred Sturtevant在发明基因图谱时还是一名本科生。”

说出来你可能不信，

观点4：更大的模型可能会做得更好。

综上所述，

马库斯反驳称：“没错，情况总是如此，我看到过一份报告称o3-pro至少在某些时候具备处理其中一个困扰。更大的模型有时会做得更好，缘于模型本身有真正的改进，有时是缘于针对特定困扰进行了训练。从外部小编永远无法知道是哪种原因。

但困扰是，小编无法提前知道对于任何给定的困扰，哪个模型足够大。苹果的结果是，一些相当大的模型具备在6个圆盘的河内塔游戏中取得成功，给人一种精通的假象，但到8张圆盘时就会崩溃，这不是好的信号。人们只需要一直测试所有的东西，而几乎没有任何保证。有些模型可能对规模为S的任务T来说足够大，但在下一个规模或略有不同的任务T’上会失败，等等。这一切都变成了掷骰子游戏。”

更重要的是，

观点5：这些系统具备用代码处理难题。

然而，

马库斯反驳称：“在某些情况下确实如此，这对于神经符号人工智能来说是一个巨大的胜利，缘于它们无法在没有代码的情况下可靠地处理难题，而且代码是符号化的。这极大地证明了我一直以来的说法：小编需要一种能够整合神经网络和符号算法及表示，例如逻辑、代码、知识图谱等的人工智能。但同时，小编需要可靠地、通用地做到这一点，而小编还没有跨过这个门槛。

简要回顾一下，

不可忽视的是，苹果论文的目标是了解大型推理模型如何通过推理和回溯在无人协助的情况下探索处理方案，而不是了解它如何很好地利用从网络上检索到的现有代码。打个比方：学生可能会抱怨数学考试需要手算积分或微分，即使数学软件具备立即给出正确答案。然而，老师布置困扰的目的并非寻找困扰的答案，而是评估学生对概念的理解。

EC外汇专家观点：

大语言模型真的理解河内塔算法的概念吗？这正是苹果团队想要探究的。大语言模型能下载正确的代码吗？当然具备。但如果遇到新困扰、环境瞬息万变等情况，在没有概念理解的情况下下载代码就没什么用了。”

据业内人士透露，

观点6：这篇论文只有四个例子，其中至少有一个（河内塔）并不完美。

马库斯反驳称：“例子可能都不是完美的，但这四个例子加在一起，展现了与数十篇其他先前论文相吻合的证据，他相信还会发现更多的例子。他自己已经在算法应用中发现了几个类似的错误，将在几天后写出来。

根据公开数据显示，

纽约大学的Tal Linzen刚刚发表了另一个例子，其中模型……能够更正便捷版本的语言困扰（小型语法、短字符串），但随着困扰变得更加棘手，准确率会迅速下降。马库斯认为，假以时日，小编将看到大量论文强化苹果的结果。”

不妨想一想，

观点7：这篇论文并非新鲜事，小编早已知道这些模型泛化能力很差。

EC外汇报导：

马库斯反驳称：“没错，但为什么小编认为这些模型是通往通用人工智能的康庄大道呢？除了这是一项巧妙的研究，明确了一个不可忽视观点之外，真正的新闻是，人们终于展开关注生成式AI的两大致命弱点之一，并认识到其不可忽视性。顺便说一句，同时听到‘这是错的’和‘小编早就知道’真是太搞笑了。至少有一次，我看到一个人同时说出了这两句话，间隔几分钟。

总的来说，

归根结底所有这些反驳都缺乏说服力。如果像Sam Altman这样的人感到紧张，那是缘于他们应该紧张。苹果的论文再次明确表明，规模化并非处理之道；这一次，人们终于展开关注这个困扰了。”

EC外汇认为：

三、Salesforce新研究“撞题”苹果：多轮推理测试下准确率仅35%

EC外汇消息：

除了马库斯的一系列反驳，Salesforce最新发布的一篇论文拥护了苹果的观点。

EC外汇专家观点：

论文证明，在可能需要推理和算法精度的“多轮”条件下，即便是Gemini-2.5-Pro这样的顶级模型在测试中性能仅为35%。马库斯认为这足以和苹果的论文融合证明当前的技术不可信。

让小编来具体看看这篇论文，论文发布于2025年5月24日，题为：《CRMArena-Pro：对不同业务场景和互动中的大语言模型智能体进行全面评估（CRMArena-Pro：Holistic Assessment of LLM Agents Across Diverse Business Scenarios and Interactions）》

论文提到，尽管智能体（AI Agent）在商业领域拥有变革潜力，但由于广泛采纳的平台上缺乏公开且真实的业务数据，有效的性能基准测试受到阻碍。现有的基准测试通常对其环境、数据和智能体与使用者交互缺乏保真度，对各种业务场景和行业的覆盖范围有限。

为了弥补这些不足，Salesforce推出了CRMArena-Pro，这是一个全新的基准测试，用于对各种专业环境中的大语言模型智能体进行全面、真实的评估。CRMArena-Pro在CRMArena的基础上进行了扩展，包含19项经专家验证的任务，涵盖销售、服务和“配置、定价和报价”流程，适用于B2B和B2C场景，融合了由不同角色引导的多轮交互和保密意识评估。

实验表明，领先的大语言模型在CRMArena-Pro上的单轮成功率仅为58%左右，在多轮配置下，性能显著下降至约35%。

虽然工作流执行对于顶尖的智能体来说更容易掌握（单轮成功率超过83%），但其他经评估的业务技能却面临更大的挑战。此外，智能体的固有保密意识几乎为零；虽然有针对性的提示具 EC外汇代理备改善这种情况，但这往往会损害任务绩效。

这些发现凸显了当前大语言模型能力与企业需求之间的巨大差距，展示了在多轮推理、保密性和多模块技能习得方面取得进步的必要性。

更重要的是，

这篇论文同样质疑了当下主流测试基准的价值，并通过一个基于业务场景数据的新基准论证了主流推理模型能力的不足。

更重要的是，

此外，其中有一句话对于很多企业来说都是一个破坏因素：几乎零保密性。这又攻击了大语言模型在信息稳妥上的不足。

其实，

四、UC伯克利论文：视觉语言模型很脆弱，只会学习捷径

不妨想一想，

另一篇论文展示了视觉语言模型（VLM）的脆弱性：“视觉语言模型的表现明显比其视觉编码器差，性能会下降到接近偶然水平”，X使用者Chomba Bupe认为，这意味着语言模型只是忽略了来自视觉编码器的丰富信息然后输出素材。

换个角度来看，

他谈道：“理解视觉信息需要某种形式的抽象推理，如果没有推理，连接到视觉编码器（VE）的语言模型只会学习捷径，即忽略来自VE的信息并编造看起来合理但毫无意义的细节。”

EC外汇认为：

让小编具体来看下这篇论文，论文由加州大学伯利克里分校于2025年6月9日发布，题为：《隐藏在显而易见的地方：视觉语言模型忽略了它们的视觉表现（Hidden in plain sight: VLMs overlook their visual representations）》。

这你可能没想到，

论文提到，语言展现了一个自然的画面来指定和评估视觉任务的性能。为了实现这一可能性，视觉语言模型必须成功地整合视觉和语言信息。UC伯克利研究人员的工作将视觉语言模型与其视觉编码器的直接读数进行比较，以了解它们跨模态整合的能力。在一系列以视觉为中心的基准测试（例如深度估计、对应性）中，他们发现视觉语言模型的性能明显低于其视觉编码器，性能下降到接近偶然水平。

站在用户角度来说，

他们通过对整个视觉语言模型进行一系列分析来探究这些结果：1、视觉表征的退化，2、对任务提示的脆弱性，以及3、语言模型在处理任务中的作用。

然而，

他们发现，执行这些以视觉为中心的任务的瓶颈就在于这第三类。视觉语言模型无法有效地利用整个模型中易于访问的视觉信息，并且它们继承了大语言模型中存在的语言先验。

说出来你可能不信，

如下图所示，在所有任务中，尽管视觉编码器的性能存在较大差异，但视觉编码器的表现均显著优于视觉语言模型评估和盲评估。此外，尽管DINOv2在6项任务中的5项里是性能最强的编码器，但它在任何任务中都未使视觉语言模型方法达到最高性能。

结语：苹果AI论文争议，呼唤新评估范式

事实上，

这场围绕苹果论文引发的学术论战超出技术细节争论，触及大模型发展前景的信仰。一方面这种反共识的观点受到了来自多方的围攻，另一方面，Salesforce和UC伯克利的研究则从多轮棘手推理任务的显著低成功率、以及视觉语言模型对视觉信息利用的脆弱性等不同角度，展现了有力的佐证。

EC外汇专家观点：

这场争论不仅指出了“规模化”路径的潜在局限，更倡导评估范式的革新与底层架构的突破。未来的突破点或许在于更深入地理解模型失效的根源，设计更能真实反映智能本质的测试基准，以及探索神经符号结合等新架构，使AI不仅能识别模式，更能进行可靠、可泛化的计算与推理。返回搜狐，查看更多