苹果研究员发现大模型不能形式推理

科技 2024-10-12 18:36

六名苹果 AI 研究员(其中一名是实习生)在预印本平台 arxiv 上发表了一篇论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》，他们发现大模型不能形式推理。研究人员称，GSM8K 基准测试被广泛用于评估大模型在小学水平问题上的数学推理能力。过去几年，大模型在 GSM8K 上的表现有显著提高，但它们的数学推理能力是否真的提升了？研究人员利用符号模板创建了一个改进基准测试 GSM-Symbolic，能对大模型的推理能力进行更可控的评估。结果显示，大模型并不具有真正的逻辑推理能力，仅仅改变问题的某个数值或者增加一条子句，大模型的表现就会显著下降。

https://arxiv.org/pdf/2410.05229

相关资源：

看 LLM 失智集锦，AI 大牛 Karpathy 用表情包解释“9.9<9.11” 前段时间冲上热搜的问题「9.11 比 9.9 大吗？」，让几乎所有 LLM 集体翻车。看似热度已过，但 AI 界大佬 Andrej Karpathy...
科学: 名人自杀产生类似传染病的模仿效应 1962 年 8 月 4 日玛丽莲梦露（Marilyn Monroe）去世（死因被认为是自杀）后的几个月里，美 […]...
银河系也许不会与仙女座星系相撞天文学家多年来一直认为，银河系（Milky Way）将在几十亿年之后与它最近的邻居仙女座星系（Andromed […]...
书籍: 香港 Open Books 计划发布首批开放阅读电子书开读（Open Books Hong Kong）先导计划由香港中文大学、香港城市大学和香港大学三间高等教育院校 […]...
谷歌搜索引擎全面揭秘：近百份文档泄露，博主爆肝数周逆向工程继 5 月的文件泄露事件后，谷歌的搜索引擎又被掀了个底朝天。不仅 DeepMind 发论文解释了 Vizier 系统的机制，博客作者 Mario Fischer 还对近百份文档做了彻底的调研分析，为我们还原了这个互联网巨兽的全貌。...
计算机科学家证明热会毁灭纠缠量子纠缠通常需要工作在极低的温度下，温度的上升会破坏纠缠粒子之间的脆弱联系。现在计算机科学家在预印本平台 ar […]...
大模型的幻觉是不可避免地随着大模型的日益普及，批判性地检查其固有的局限性也日益重要。幻觉是大模型最常见的问题之一，我们是否可能通过改进 […]...
黑洞喷流引发恒星爆炸超大质量黑洞会发射出强大的辐射和粒子喷流。Messier 87（M87星系）中心的超大质量黑洞 M87* 其质 […]...
将 Android 手机变成监听工具之前的实验表明，智能手机中的陀螺仪和加速计等惯性测量单元（IMU），可以通过检测声波振动监听对话。这意味着，即 […]...
科学家利用细胞凋亡杀死癌细胞人体通过被称为细胞凋亡的自然死亡过程每天更换 600 亿个细胞，而癌细胞通常会修改促进细胞凋亡的基因，使自己获 […]...
苹果: 苹果仍然嫌恶英伟达，使用 Google 硬件训练 AI 苹果研究人员发表了一篇论文《Apple Intelligence Foundation Language Mo […]...
苹果仍然嫌恶英伟达，使用 Google 硬件训练 AI 苹果研究人员发表了一篇论文《Apple Intelligence Foundation Language Mo […]...
软件: Chrome 服务故障导致部分用户无法访问保存的密码 Google Chrome 披露，由于一个没有正确功能保护的产品行为变化导致大量用户在长达 18 个小时内无法 […]...
OpenAI 阿尔特曼秀 5 颗草莓疯狂暗示 GPT-5？匿名新模型神秘现身，数学超强阿尔特曼又来搞事情了！一张 5 颗草莓照片，让全网掀起热议狂澜。这不是明摆着暗示，神秘 Strawberry 项目真实存在。难道 GPT-5 真的要来了吗？...
“共和国勋章”和国家荣誉称号建议人选公示，中国工程院首批院士王永志、预警机事业开拓者王小谟等入选 8 月 12 日消息，据新华社消息，今年是中华人民共和国成立 75 周年，党中央决定开展国家勋章和国家荣誉称号集中评选颁授，隆重表彰一批为新中国建设和发展作出杰出贡献的功勋模范人物。...
SK 海力士：内存 EUV 光刻成本快速增长，考虑转向 4F2 或 3D DRAM SK 海力士研究员 Seo Jae-Wook 在会议上提出，由于 1c DRAM 开始 EUV 光刻成本激增，考虑转向...
大模型只是在模仿 AI 学界将图灵测试视为智能的终结测试，然而图灵本人不是这么认为的，他将这一测试称为模仿游戏，将其作为与智能相 […]...
朝鲜黑客利用最近修复的 Windows 0day 安装 rootkit 微软在上周的例行安全更新中修复了一个 0day 漏洞 CVE-2024-38193，它位于 AFD.sys 中 […]...
调查发现父母更信任 ChatGPT 生成的健康指导发表在《儿科心理学杂志》上的一项研究显示，在不知道作者的情况下，为孩子寻找医疗保健信息的父母更信任 AI，而不 […]...
政治自恋助长了将政治对手非人化的倾向发表在《British Journal of Social Psychology》上的一项研究为部分人以非人化 […]...

苹果研究员发现大模型不能形式推理

本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途，内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

发表回复取消回复

苹果研究员发现大模型不能形式推理

相关资源：

看 LLM 失智集锦，AI 大牛 Karpathy 用表情包解释“9.9<9.11” 前段时间冲上热搜的问题「9.11 比 9.9 大吗？」，让几乎所有 LLM 集体翻车。看似热度已过，但 AI 界大佬 Andrej Karpathy...

科学: 名人自杀产生类似传染病的模仿效应 1962 年 8 月 4 日玛丽莲梦露（Marilyn Monroe）去世（死因被认为是自杀）后的几个月里，美 […]...

银河系也许不会与仙女座星系相撞 天文学家多年来一直认为，银河系（Milky Way）将在几十亿年之后与它最近的邻居仙女座星系（Andromed […]...

书籍: 香港 Open Books 计划发布首批开放阅读电子书 开读（Open Books Hong Kong）先导计划由香港中文大学、香港城市大学和香港大学三间高等教育院校 […]...

计算机科学家证明热会毁灭纠缠 量子纠缠通常需要工作在极低的温度下，温度的上升会破坏纠缠粒子之间的脆弱联系。现在计算机科学家在预印本平台 ar […]...

大模型的幻觉是不可避免地 随着大模型的日益普及，批判性地检查其固有的局限性也日益重要。幻觉是大模型最常见的问题之一，我们是否可能通过改进 […]...

黑洞喷流引发恒星爆炸 超大质量黑洞会发射出强大的辐射和粒子喷流。Messier 87（M87星系）中心的超大质量黑洞 M87* 其质 […]...

将 Android 手机变成监听工具 之前的实验表明，智能手机中的陀螺仪和加速计等惯性测量单元（IMU），可以通过检测声波振动监听对话。这意味着，即 […]...

科学家利用细胞凋亡杀死癌细胞 人体通过被称为细胞凋亡的自然死亡过程每天更换 600 亿个细胞，而癌细胞通常会修改促进细胞凋亡的基因，使自己获 […]...

苹果: 苹果仍然嫌恶英伟达，使用 Google 硬件训练 AI 苹果研究人员发表了一篇论文《Apple Intelligence Foundation Language Mo […]...

苹果仍然嫌恶英伟达，使用 Google 硬件训练 AI 苹果研究人员发表了一篇论文《Apple Intelligence Foundation Language Mo […]...

软件: Chrome 服务故障导致部分用户无法访问保存的密码 Google Chrome 披露，由于一个没有正确功能保护的产品行为变化导致大量用户在长达 18 个小时内无法 […]...

OpenAI 阿尔特曼秀 5 颗草莓疯狂暗示 GPT-5？匿名新模型神秘现身，数学超强 阿尔特曼又来搞事情了！一张 5 颗草莓照片，让全网掀起热议狂澜。这不是明摆着暗示，神秘 Strawberry 项目真实存在。难道 GPT-5 真的要来了吗？...

SK 海力士：内存 EUV 光刻成本快速增长，考虑转向 4F2 或 3D DRAM SK 海力士研究员 Seo Jae-Wook 在会议上提出，由于 1c DRAM 开始 EUV 光刻成本激增，考虑转向...

大模型只是在模仿 AI 学界将图灵测试视为智能的终结测试，然而图灵本人不是这么认为的，他将这一测试称为模仿游戏，将其作为与智能相 […]...

朝鲜黑客利用最近修复的 Windows 0day 安装 rootkit 微软在上周的例行安全更新中修复了一个 0day 漏洞 CVE-2024-38193，它位于 AFD.sys 中 […]...

调查发现父母更信任 ChatGPT 生成的健康指导 发表在《儿科心理学杂志》上的一项研究显示，在不知道作者的情况下，为孩子寻找医疗保健信息的父母更信任 AI，而不 […]...

政治自恋助长了将政治对手非人化的倾向 发表在《British Journal of Social Psychology》上的一项研究为部分人以非人化 […]...

本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途，内容原作者如不愿意在本网站刊登内容，请及时通知本站，予以删除。

发表回复 取消回复

银河系也许不会与仙女座星系相撞天文学家多年来一直认为，银河系（Milky Way）将在几十亿年之后与它最近的邻居仙女座星系（Andromed […]...

书籍: 香港 Open Books 计划发布首批开放阅读电子书开读（Open Books Hong Kong）先导计划由香港中文大学、香港城市大学和香港大学三间高等教育院校 […]...

计算机科学家证明热会毁灭纠缠量子纠缠通常需要工作在极低的温度下，温度的上升会破坏纠缠粒子之间的脆弱联系。现在计算机科学家在预印本平台 ar […]...

大模型的幻觉是不可避免地随着大模型的日益普及，批判性地检查其固有的局限性也日益重要。幻觉是大模型最常见的问题之一，我们是否可能通过改进 […]...

黑洞喷流引发恒星爆炸超大质量黑洞会发射出强大的辐射和粒子喷流。Messier 87（M87星系）中心的超大质量黑洞 M87* 其质 […]...

将 Android 手机变成监听工具之前的实验表明，智能手机中的陀螺仪和加速计等惯性测量单元（IMU），可以通过检测声波振动监听对话。这意味着，即 […]...

科学家利用细胞凋亡杀死癌细胞人体通过被称为细胞凋亡的自然死亡过程每天更换 600 亿个细胞，而癌细胞通常会修改促进细胞凋亡的基因，使自己获 […]...

OpenAI 阿尔特曼秀 5 颗草莓疯狂暗示 GPT-5？匿名新模型神秘现身，数学超强阿尔特曼又来搞事情了！一张 5 颗草莓照片，让全网掀起热议狂澜。这不是明摆着暗示，神秘 Strawberry 项目真实存在。难道 GPT-5 真的要来了吗？...

调查发现父母更信任 ChatGPT 生成的健康指导发表在《儿科心理学杂志》上的一项研究显示，在不知道作者的情况下，为孩子寻找医疗保健信息的父母更信任 AI，而不 […]...

政治自恋助长了将政治对手非人化的倾向发表在《British Journal of Social Psychology》上的一项研究为部分人以非人化 […]...

发表回复取消回复