智源研究院推出智源评测体系，发布国内外140余个大模型评估结果

Po山鲸AI官方编辑

“在7-12年级，大模型与人类之间的差异变化不明显。然而，在3-6年级，呈现年级越低，大模型与人类差异越大的趋势。”

5月17日，智源研究院举办大模型评测发布会，发布并解读国内外140余个开源和商业闭源的语言及多模态大模型全方位能力评测结果。

智源研究院在测评中引入海淀区教师进修学校新编小学三年级至高三学段，覆盖语数英物化史6个学科，总计45套试卷，1400道试题。每套试卷由教师预估海淀学生平均分数，答案不唯一的题目由海淀教师评分。

智源研究院院长王仲远在接受界面新闻等媒体采访时表示：引入K12本身不是为了评测教育，而是为了评测大模型跨学科的能力。

王仲远表示，造成上述问题的原因在于，往往越低年级的题目图片越多。他认为，这也反映了目前多模态技术还不如大语言模型，当低年级测试题目中包含图片越多，大模型反而做不好。

智源研究院智能评测组负责人杨熙表示：从表面上来看，大模型做不好低年级的题目是因为图形题目比较多。低年级教辅书有一些趣味化的展示，所以对于小朋友而言，图片更直观，但大模型读图还没有达到很高的水平。

其次，这是大模型训练导致的，大模型训练更多是面向成人的认知，使用的数据大部分来自于互联网。小朋友的相关数据较少，以及人类在低幼期间获取知识的方式和成人获取知识的方式也有不同。也能从侧面反映出，大模型学习的方式和人的认知发展方式有差别。

“从某种意义上来讲，也证明了人类在多模态认知上还是非常独特的。人脑的机制依然在科学研究上还没完全理解透，对于AGI到底会什么时候实现、以什么方式实现，还有很多探讨的地方。”王仲远表示。

整体来看，这次的测评显示出：图表与难度存在一定的交互影响，图表会拉低模型在容易、中等难度题目上的表现。

{{userData.name}}已认证