评估大语言模型在科学问题解决方面的进步

Subhashini Venugopalan，谷歌研究院研究科学家

我们引入了 CURIE，这是一个科学的长上下文理解、推理和信息提取基准，用于衡量大型语言模型在解决科学问题和协助科学家完成实际工作流程方面的潜力。研究

2025 年 4 月 3 日

Subhashini Venugopalan，谷歌研究院研究科学家

我们引入了 CURIE，这是一个科学的长上下文理解、推理和信息提取基准，用于衡量大型语言模型在解决科学问题和协助科学家完成实际工作流程方面的潜力。

科学的进步依赖于在科学文献中积累的集体知识的基础上进行构建的能力，这不仅需要深厚的领域专业知识和推理技能，还需要在特定问题的背景下应用这些知识的能力。大型语言模型 (LLM) 已经在包括常识推理、语言理解、编码、数学和科学问答在内的广泛领域中展现出惊人的知识广度。随着 LLM 从仅仅浮表面知识转变为推理和积极解决问题，它们在科学领域的应用具有巨大的潜力，有望彻底改变研究的开展和理解方式。

要实现这一潜力，需要严格评估大语言模型处理科学任务固有复杂性的能力。有必要衡量模型理解和推理长篇、背景丰富的科学信息（包括图表中的多模态内容）的能力，并且至关重要的是，了解模型用于选择适当工具来解决手头问题的推理过程。然而，目前大语言模型的科学基准通常侧重于短篇问题和多项选择题，主要测试知识的回忆能力，其次是推理能力。

为了弥补这一差距，我们提出了几个新的基准和数据集，以衡量 LLM 在有额外背景信息的情况下寻找信息和解决问题的能力。我们的论文“ CURIE：评估 LLM 在多任务科学长上下文理解和推理方面的能力”将在ICLR 2025上发表，该论文重点关注六个科学学科中的任务，这些任务测试长上下文理解、推理、信息提取和聚合能力。同样，在NeurIPS 2024上，我们推出了“ SPIQA：基于科学论文的多模态问答数据集”，它评估了 LLM 对科学论文中的图表查询做出回答的能力。除了这个数据集之外，我们还创建了一个基准测试集，并对多模态 LLM 在该任务上的表现进行了评估。此外，在 NeurIPS 2024 的 MATH-AI 研讨会上，我们分享了“ FEABench：评估多物理推理能力的语言模型”，其中我们提出了一项任务来衡量 LLM 代理使用有限元分析 (FEA) 软件模拟、推理和解决物理、数学和工程问题的能力。

CURIE，科学推理的多任务基准 CURIE 旨在评估大语言模型在六个学科领域的科学问题解决能力：材料科学、凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质。它包括十项具有挑战性的任务，需要领域专业知识、对长上下文信息的理解和多步骤推理。CURIE 中的任务涵盖一系列科学工作流程，包括信息提取、推理、概念跟踪、聚合、代数运算、多模态理解和跨领域专业知识，所有这些都是在完整科学论文的背景下执行的。通过要求大语言模型熟练掌握这些现实任务，CURIE 旨在衡量他们在协助科学家日常工作流程方面的潜力。

居里-1 CURIE 基准包含 10 项任务，共有 580 个输入和解决方案对，基于六个不同科学学科的 429 篇研究文献：材料科学、理论凝聚态物理、量子计算、地理空间分析、生物多样性和蛋白质 - 涵盖科学研究的实验和理论方面。

居里-2 左图： CURIE 中输入查询的平均长度约为 15000 个单词。右图：真实答案平均包含 954 个单词。

领域专家在基准测试开发的每个阶段都发挥着至关重要的作用。首先，他们帮助定义和识别准确代表现实世界科学工作流程的任务，并帮助从其领域中获取相关研究论文。然后，他们协助创建详细的基本事实答案，优先考虑准确性、细微差别和全面性。最后，他们根据关键特征对每个示例进行评分，从而量化任务难度。然后，我们选择了评估指标，并确认了它们与专家对模型响应与基本事实答案的主观评估之间的相关性。下表概述了基准测试所涵盖的具体任务。

居里-3 简要描述 CURIE 中模型在给定单个研究文档（通常是一篇完整论文）的上下文时要执行的任务。还显示了所测量的功能和评估指标。

程序化和基于模型的评估 CURIE 中的任务多种多样，具有混合和异构形式的地面实况注释，例如 JSON、LaTeX 方程式、YAML 文件或自由格式文本。评估自由形式生成具有挑战性，因为答案通常是描述性的，即使指定了格式（就像我们的大多数情况一样），每个字段的响应也可能具有不同的形式。例如，材料网格点有时可以指定为“[ p，q，r ]”，有时指定为“ p × q × r” 。因此，除了程序化评估指标（例如ROUGE-L、intersection-over-inion（用于 BIOGR）和Identity Ratio（用于 PDB））之外，我们还提出了两个基于模型的评估指标。

（1）LMScore：提示 LLM 询问预测与事实的接近程度，采用 3 点量表：如果预测只有少量小错误，则为“好”，如果有很多小错误，则为“还行”，如果存在重大错误，则为“差”。我们考虑标记对数似然得分的加权平均值来得出最终置信度。

(2) LLMSim：用于检索任务，我们要求模型从研究文档中详尽提取许多细节，例如材料的描述符、属性和值，并提供无序列表或记录作为输出。我们使用思路链 (CoT) 提示，要求 LLM 查看每个基本事实记录并识别与基本事实的每个字段（键）和值正确匹配的预测记录。一旦我们将基本事实记录与预测记录匹配，我们就可以测量检索任务的精确度和召回率，并计算所有文档的平均精确度、召回率和F1 分数。

居里-4 根据 CURIE 基准对各个 LLM 的每个任务进行标准化评分，以衡量其在 10 个长上下文任务（见上表）中的表现，这些任务需要六个科学学科的专业知识。分数越高越好。

居里-5 CURIE 中六个科学领域的 10 个任务的长上下文 LLM 的平均标准化性能。

我们在 CURIE 上评估了流行的长上下文封闭权重和开放权重模型，发现所有模型和任务都有很大改进空间，特别是需要全面检索多个值并进行聚合的 DFT、MPV 和 GEO 任务。本文包括对专家结果的详细分析。值得注意的是，专家们发现模型响应很有前景，特别是在从科学论文中提取细节、适当分组以及以所需格式生成响应方面。总体而言，提高 LLM 在这些任务上的有效性将增强和加速科学家的工作流程。

SPIQA：科学论文多模式问答数据集虽然 CURIE 评估了不同领域长文本的科学推理，但理解科学文章中的多模态内容则带来了额外的挑战。通常，关键见解、动机和科学方法的简化概述都以精心制作的图表和表格的形式呈现。因此，为了独立评估 LLM 同时推理科学文章中多个图表和相关文本的能力，我们引入了科学论文图像问答 (SPIQA) 数据集和基准。使用 SPIQA，我们测试了 LLM 的多模态和长上下文能力。

居里-6 给定一篇研究论文中图表中的问题，我们评估多模态 LLM 理解多个图表、表格和论文文本中的信息的能力，以便将其答案建立在正确的图表中。

在 SPIQA 中，我们利用多模态 LLM 的广泛专业知识和理解单个图形和表格的能力来整理 270k 个问答对的大型数据集。问题涉及多幅图像，涵盖图表、表格、示意图和结果可视化。

居里-7 SPIQA 数据集所涵盖的约 25,000 篇计算机科学论文的子域分布。SPIQA 包含 152,000 幅图和 117,000 幅表上的 270,194 个问答对，其中每个查询的答案都以图或表为基础。

通过大量实验，我们评估了 12 个突出的基础模型，以完成科学论文图像中响应的基础任务。此外，我们通过在 SPIQA 训练集上微调两个开源系统（LLaVA和InstructBLIP）展示了显著的性能提升，这揭示了改进开源多模态 LLM 在科学图像理解和推理方面的有希望的途径。

有限元分析平台工程和科学中的另一个基本要求是构建现实世界的精确模拟并调用软件工具来回答定量问题。借助FEABench ，我们研究了 LLM 通过推理自然语言问题描述并操作有限元分析(FEA) 软件COMSOL Multiphysics ®来计算答案来端到端解决工程建模问题的能力。基准测试包括一组 15 个手动验证的问题 (FEABench Gold)，以及一组更大的算法解析问题，这些问题可能用于调整模型。该基准测试中的问题被证明具有足够的挑战性，以至于我们测试的 LLM 和代理无法完全正确地解决任何问题。

居里-8 左图：说明性示例，展示数据集中传热问题的规格。右图： FEABench Gold 问题按物理领域分布。

基准：构建值得信赖的科学人工智能 GitHub 上提供了下载CURIE、SPIQA和FEABench的数据集和评估代码的链接，以及BIOGR（生物多样性）数据集的扩展版本。这些基准代表了为 AI 系统创建具有挑战性和现实性的评估的重大努力，重点关注长期上下文理解、多模态推理和计算工具的集成。我们希望这些能够鼓励和支持社区对科学任务进行更严格的评估，从而促进 AI 辅助科学发现的进步。欢迎对 GitHub 存储库做出贡献，尤其是与增强评估指标相关的贡献。

致谢我们感谢为这些基准做出贡献的几位领域专家。我们要特别感谢学生研究员 Nayantara Mudur、Shraman Pramanick、Maria Tikanovskaya 和 Martyna Plomecka 的宝贵贡献；并衷心感谢我们领域专家合作者 Eun-Ah Kim、Haining Pan、Victor V. Albert、Brian Rohr、Michael J. Statt、Gowoon Cheon、Yasaman Bahri、Zahra Shamsi、Xuejian Ma、Shutong Li、Dan Morris 和 Drew Purves 的贡献。我们还要感谢项目的其他成员，包括 Hao Cui、Peter Norgaard、Paul Raccuglia、Pranesh Srinivasan、Elise Kleeman、Ruth Alcantara、Matthew Abraham、Muqthar Mohammad、Ean Phing VanLee、Chenfei Jiang、Elizabeth Dorfman、Michael P Brenner、Viren Jain 和 Sameera Ponda，感谢他们对基准的批判性和深思熟虑的贡献以及鼓励和支持。

A Healthy Programmer

评估大语言模型在科学问题解决方面的进步

MichaelCantFly

A healthy Programmer always open for Challenge

评论

最近文章

评论

存档

分类