苹果研究员发现大模型不能形式推理

科技

六名苹果 AI 研究员(其中一名是实习生)在预印本平台 arxiv 上发表了一篇论文《GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models》,他们发现大模型不能形式推理。研究人员称,GSM8K 基准测试被广泛用于评估大模型在小学水平问题上的数学推理能力。过去几年,大模型在 GSM8K 上的表现有显著提高,但它们的数学推理能力是否真的提升了?研究人员利用符号模板创建了一个改进基准测试 GSM-Symbolic,能对大模型的推理能力进行更可控的评估。结果显示,大模型并不具有真正的逻辑推理能力,仅仅改变问题的某个数值或者增加一条子句,大模型的表现就会显著下降。

https://arxiv.org/pdf/2410.05229


本站提供的内容用于个人学习、研究以及其他非商业性或非盈利性用途,内容原作者如不愿意在本网站刊登内容,请及时通知本站,予以删除。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注