📰 金融大模型评测体系2.0版在上海发布
近日,2025金融大模型评测体系在上海发布,标志着自去年发布的首个金融大模型评测体系以来的第一次全面升级。此次升级聚焦于标准引领、数据驱动、安全可信与生态共建四个方面,力求为行业提供一个科学的选型工具和能力对标的“标尺”。评测体系包含多个指标、方法和基准,弥补了行业内缺乏权威评测体系的空白。
该评测体系汇聚了4个公开数据集和22个自建数据集,约3.6万条评测数据,采用循环选项打乱机制和多样化提示词,研发了金融裁判大模型,实现评测流程的自动化和标准化。通过这一体系,上海金融领域的银行、券商、基金及投资等机构能够获得权威、精准的大模型能力评估,从而助力机构在选型、优化及风险管理上做出更加科学的决策。
根据最新的评测结果,今年金融大模型的测试成绩显著提升,行业平均分从71.9分升至87.37分。评测还发现,海内外大模型整体能力相近,但在中文领域,国内大模型表现出领先优势。同时,国内金融大模型在语言理解、法规政策更新等方面具备优势,而国外大模型在数学计算和跨语言推理等领域更为突出。
🏷️ #金融大模型 #评测体系 #数据驱动 #安全可信 #行业标准
🔗 原文链接
📰 金融大模型评测体系2.0版在上海发布
近日,2025金融大模型评测体系在上海发布,标志着自去年发布的首个金融大模型评测体系以来的第一次全面升级。此次升级聚焦于标准引领、数据驱动、安全可信与生态共建四个方面,力求为行业提供一个科学的选型工具和能力对标的“标尺”。评测体系包含多个指标、方法和基准,弥补了行业内缺乏权威评测体系的空白。
该评测体系汇聚了4个公开数据集和22个自建数据集,约3.6万条评测数据,采用循环选项打乱机制和多样化提示词,研发了金融裁判大模型,实现评测流程的自动化和标准化。通过这一体系,上海金融领域的银行、券商、基金及投资等机构能够获得权威、精准的大模型能力评估,从而助力机构在选型、优化及风险管理上做出更加科学的决策。
根据最新的评测结果,今年金融大模型的测试成绩显著提升,行业平均分从71.9分升至87.37分。评测还发现,海内外大模型整体能力相近,但在中文领域,国内大模型表现出领先优势。同时,国内金融大模型在语言理解、法规政策更新等方面具备优势,而国外大模型在数学计算和跨语言推理等领域更为突出。
🏷️ #金融大模型 #评测体系 #数据驱动 #安全可信 #行业标准
🔗 原文链接