AI4S新突破!许闲教授团队论文被人工智能国际顶会ICCV 2025录用

作者: 发布时间:2025-08-23 来源:复旦大学经济学院+收藏本文

从车辆损伤图像识别到病历文本语义理解,从农田受灾的卫星遥感数据到财产险中房屋结构的视频分析,金融保险行业所面临的数据处理任务早已不仅仅局限于文本,这些任务横跨图像、文本、视频等多种模态,对信息的综合理解与推理能力提出极高要求。多模态人工智能大语言模型凭借强大的跨模态理解与逻辑推理能力为破解这些难题带来曙光。但是,一个关键问题始终悬而未决:如何系统性评估这些模型在保险场景下的真实能力?它们究竟能在多大程度上解决行业特有的多模态任务?


为此,复旦大学许闲教授团队携手美国罗切斯特大学合作者提出了全球首个面向保险行业的多模态模型评估基准INS‑MMBench,在科学智能(AI for Science,简称AI4S)领域取得新突破。研究团队系统梳理保险价值链上的多模态任务,构建分层任务体系与评测数据集,并对 GPT‑4o、Qwen‑VL、Gemini 等国内外主流多模态大模型进行了评估测试,使得行业迎来了第一套可量化、可复现的多模态模型评测框架,让多模态 AI 在保险核心业务中的真实能力与应用潜力得以清晰锚定。该研究近日被人工智能与计算机视觉领域国际顶级会议ICCV 2025录用。


图片




作者简介


林陈威(Chenwei Lin),复旦大学大数据研究院博士研究生,复旦大学经济学院2021级保险专业硕士毕业生

闾涵加(Hanjia Lyu),美国罗切斯特大学博士研究生,复旦大学经济学院2013级保险学本科毕业生

许闲(Xian Xu),复旦大学经济学院教授,复旦发展研究院中国保险与社会安全研究中心主任

罗杰波(Jiebo Luo),美国罗切斯特大学计算机科学系教授


论文链接:

https://arxiv.org/pdf/2406.09105

项目地址:

https://github.com/FDU-INS/INS-MMBench

数据仓库:

https://huggingface.co/datasets/FDU-INS/INS-MMBench


INS-MMBench:

多层级多模态保险任务体系


研究团队从保险价值链出发,以“自下而上” 的层级设计,构建覆盖汽车、财产、健康、农业四大类保险,涵盖从基础能力到实战应用的完整评估体系。

图片

图片

INS-MMBench任务体系图


INS-MMBench涵盖三类任务:


基础任务(22 项):聚焦单个视觉元素的识别能力,例如识别车辆外观、 判断屋顶是否有裂缝、读取血压计数值。这些任务是保险业务的基本功,考验多模态大模型对关键视觉信息的识别与理解能力。

元任务(12 项):整合多个基础任务的综合理解题,例如从图像中识别车辆外观、损伤部位、受损程度等要素并综合评估。这类任务模拟保险流程中信息整合 的环节,考验多模态大模型对视觉要素的跨信息关联能力。

场景任务(项):还原真实保险场景的实战应用题,例如从事故现场照片、车辆受损情况到责任判定的全流程推理。这类任务涉及多步决策,直接对应核保、理赔等核心业务场景,直接反映多模态大模型在保险业务中的表现。

整个基准包含 12052 张图像和 10372 个问题,所有数据经保险专家严格校准,确保与真实业务高度贴合。


大模型实测:

揭示保险场景多模态应用的 “短板与潜力”


研究团队选取了11个主流多模态大模型(包括 GPT-4o、Gemini 1.5、GLM4V等闭源模型,以及QwenVL 2.5 32B等开源模型)进行测评,揭示了当前多模态大模型在保险领域的“能力画像”:


图片

图片

图片


保险多模态任务充满挑战GPT-4o虽以69.70综合得分领先,但模型整体在保险专业领域表现平平,在部分任务中未达人类专家水准。这凸显了保险行业知识密集、场景复杂的特点,即便先进模型也无法完全胜任。

领域适配存在明显差异:模型在汽车保险(如车辆外观识别)和健康保险(如医疗影像识别)中表现较好,但在财产保险(如房屋损伤类型判断)和农业保险(如作物生长识别)中得分较低,提示行业落地可采取 先易后难 的阶段性策略。

复杂场景推理短板显著真实业务场景测试中,模型集体表现不佳,这些任务需要从多模态信息中抽取关键要素,进行多步逻辑推导,但现有模型常在关键推理节点断链,成为深度应用的主要障碍。

开源模型潜力凸显:开源模型表现超预期,国产开源模型Qwen-2.5-VL-32B在医疗影像检测、车辆损伤识别等任务中准确率接近甚至超越部分闭源模型。这为保险企业在平衡成本、数据安全与性能时提供了新选择,开源方案有望成为兼具性价比和灵活性的重要选项。

行业建议:

“量体裁衣”,分阶段推进模型落地


基于上述发现,为助力保险行业更好地应用多模态大模型,提出如下落地建议:


循序渐进,优先攻克优势领域鉴于模型在汽车险和健康险部分任务中的良好表现,行业可采取“先易后难”策略。初期聚焦于这些优势领域的基础任务,如车险的简单定损、健康险常规疾病风险评估等,快速实现模型的初步落地应用,积累经验与数据。

构建专家推理思维链,强化模型推理能力:针对模型在多步推理中的薄弱环节,需系统梳理保险专家的决策思维路径,将复杂推理过程分解为可学习的思维链条。通过专项训练让模型掌握专家级推理逻辑,配合人工审核关键决策节点,形成AI推理+专家校准的协同模式,逐步适应复杂业务场景需求。

关注开源,挖掘定制化潜力开源模型在特定任务中的出色表现,为保险企业提供了新机遇。企业可结合自身数据安全需求与成本考量,深入探索开源模型的定制化路径。通过技术优化,挖掘其在保险领域的独特价值,打造贴合自身业务的专属模型解决方案。

复旦大学在近年来系统布局科学智能(AI for Science,简称AI4S)与人文社会科学智能(AI for Social Sciences and Humanities,简称AI4SSH),致力于推动包含人文社会科学在内的学科同人工智能的深度融合与研究范式变革。这一成果是经济学院和许闲教授研究团队聚焦AI4S、AI4SSH方向取得的跨学科研究新进展。未来,研究者将更进一步着眼AI4S驱动下的研究范式与研究内容变革,秉承科技向善理念,让智能技术真正服务于社会应用实践与价值创造,为经济社会的智能化转型与发展贡献更多高质量研究成果。


附注:ICCV简介

国际计算机视觉大会(ICCV,International Conference on Computer Vision)是人工智能与计算机视觉领域最具影响力的顶级学术会议之一,每两年举办一次,与CVPR(Conference on Computer Vision and Pattern Recognition)、ECCV(European Conference on Computer Vision)并称为计算机视觉领域的三大顶会。由电气电子工程师学会(IEEE,Institute of Electrical and Electronics Engineers)与计算机视觉基金会(CVF,Computer Vision Foundation)共同主办,ICCV 汇聚了全球顶尖的计算机视觉专家,聚焦前沿视觉理论与技术突破。ICCV 2025将于2025年10月19日在美国夏威夷檀香山召开。