《ScienceBoard:首个真实科研工作流多模态智能体评测框架问世》

2025-06-27每日科技网

每日科技网

  一、科研 AI 新纪元:从 "分析者" 到 "执行者" 的跨越

  当 AI 智能体能够自主操作生物建模软件模拟蛋白质结构、调用天文模拟器分析星体轨迹,并将结果自动整理成 LaTeX 文档时,科学研究正迎来前所未有的变革。香港大学联合多所机构发布的 ScienceBoard,作为面向真实科研任务的多模态智能体评测环境,揭示当前最强 AI 模型在复杂科研工作流中的平均成功率仅 15%,为 "AI 科学家" 的发展指明了关键突破方向。

  二、背景与挑战:科研智能体的现实困境

  1. 科研任务的三维复杂性

  工具多样性:生物信息学需 Python 编程、天文研究依赖 AlmaPy 库、地理信息分析要调用 QGIS 插件

  流程长周期:蛋白质结构预测需经历序列输入→模型构建→能量优化→结果验证 4 个阶段

  跨模态交互:既需理解论文文本指令,又要处理软件界面视觉信息,还要生成命令行操作

  2. 现有评测体系的双重缺失

  

评测类型 优势 科研场景适配缺陷
WebArena 等 通用软件交互能力测试 缺乏科学领域专业工具支持
ScienceQA 等 科学问题理解评估 无法模拟真实操作流程

 

  三、ScienceBoard 架构:重构科研智能体评测生态

  1. 多领域科研环境基建

  六大学科集成

  双模态操作接口:同时支持 GUI 像素级点击(如 PyMOL 分子旋转操作)与 CLI 命令行(如gmx energy -f md.log)

  自动评估机制:开发 128 个领域特异性评估函数,支持数值匹配(如能量计算误差≤0.5kcal/mol)、状态对比(如文件生成完整性)

  2. 通用动作空间定义

  基础操作:CLICK[x,y]、TYPE["command"]、SCROLL[Δy]

  功能

  ocall_api:调用 NASA 天文数据接口

  oanswer:生成科研结论自然语言描述

  workflow_control:DONE/RETRY/ABORT 流程控制

  四、评测集构建:169 个真实科研任务的挑战层级

  1. 任务设计方法论

  人工 + 程序验证:由领域专家基于软件手册设计任务,经 3 轮交叉验证确保可行性

  典型任务示例

  生物化学:使用 PyMOL 生成新冠病毒刺突蛋白 RBD 区域的 3D 结构图并导出为 PDF

  天文学:在 Stellarium 中模拟 2025 年 7 月 4 日火星冲日现象并测量视星等

  跨领域任务:用 Python 处理 QGIS 导出的植被指数数据并生成趋势分析图表

  2. 四级难度体系

  

难度等级 占比 核心能力要求 典型任务
Easy 54% 单步操作 / 基础配置 安装 Python 科学计算库
Medium 28% 多步逻辑 / 跨模态跟踪 用 MATLAB 绘制黑体辐射曲线
Hard 17% 长程规划 / 多软件协作 用 VASP 计算石墨烯能带结构
开放问题 1% 领域创新 / 未知场景探索 设计新型催化剂筛选工作流

 

  五、实验发现:当前智能体的能力断层

  1. 整体性能表现

  商业模型:GPT-4o 成功率 15.2%,Claude 3.5 达 14.8%

  开源模型:InternVL3 在地理信息任务中表现突出(27.3%),但天文学任务仅 8.1%

  专业模型:OS-ATLAS 在 GUI 操作任务中成功率比通用模型高 9.4%,但长流程任务失败率超 60%

  2. 失败原因解构

  执行策略失误:38% 的失败源于点击位置偏差(如误触软件菜单按钮)

  领域知识缺失:29% 因不理解科学概念导致操作错误(如错误设置 DFT 计算精度)

  长程规划不足:23% 在多步骤任务中遗漏关键环节(如未保存中间计算结果)

  六、未来路径:构建 "科研 AI 团队" 雏形

  1. 模块化分工实验

  规划 - 执行解耦

  plaintext

  GPT-4o(规划) + UGround(执行) → 成功率提升至28.7%(+13.5%)

  领域专家模型:引入 ChemBERTa 处理化学任务,相关场景成功率提升 11.2%

  2. 三大发展方向

  知识融合:开发基于科研手册的任务相关学习机制

  系统架构:构建可编排的 "planner+executor+domain expert" 协作框架

  物理延伸:从虚拟环境走向实验室机器人控制接口

  七、结语:AI 科学家的黎明之光

  ScienceBoard 的实验数据揭示了一个双重现实:当前智能体在科研任务中的表现仍远低于人类专家,但模块化设计与领域知识融合已展现显著提升潜力。正如项目负责人孙秋实所言:"我们不仅提供了评测基准,更定义了 AI 科学家的能力坐标系。" 随着 ScienceBoard 开源生态的完善(项目地址:https://qiushisun.github.io/ScienceBoard-Home/),科研智能体正从概念走向真实实验室,为科学发现注入前所未有的自动化动力。

电脑版

Copyright © 2014 newskj.org All Rights Reserved.

粤ICP备11086997号-6

科技相关活动邀约:1069823586@qq.com