近期,新华社研究院中国企业发展研究中心发布《人工智能大模型体验报告》,让我们看一看专业机构发布的体验报告和我们野路子的报告有什么不同。
目前我们得到的是一份62页的PPT版本的报告,但是内容十分的全面,首先在前言中,报告指出研究报告的,目的是:
为了全面、真实呈现我国当前主流科技企业所推出的大模型产品的现状、优势、特点,同时为行业健康发展进一步探索方向,建言献策,新华社研究院中国企业发展研究中心特启动本次报告研究。基于评测条件、评测时间等限制,评测最终结果不可避免存在一定主观性,具体结果供产业参考。
报告分为三个部分,分别是:
01大模型成为AI大规模落地拐点
主要介绍大模型的生态图谱,以及测评的规则
测评大模型评测纬度:
?基础能力(共题):考察产品的语言能力,跨模态能力以及AI向善的引导能力。
?智商测试(共题):涵盖常识知识、专业知识、逻辑能力三大项。其中专业知识包括数学、物理、金融、文学等10+项细分,逻辑能力则包括推理能力、归纳能力以及总结等6项维度。
?情商测试(共50题):衡量产品个体情感能力。包括自我认知、自我调节、社交意识、人际关系管理等方面,本次情商测试围绕不同场景下的突发状况、沟通技巧、情绪管理等展开。
?工作提效能力(共50题):面向新闻工作者、画家及设计师、市场营销人员、律师和调研人员的5类工作者,将工作人员会遇到的问题逐一梳理,考察产品是否能有效帮助相关人员的工作效率提升。
评测大模型产品:
?Chat-GPT4
?Chat-GPT3.5
?Vicuna-13B
?商量
?文心一言
?讯飞星火
?通义千问
?ChatGLM
打分规则
?5分:答案较为完美,内容可在实际场景中直接使用
?4分:基本可用,可在实际场景中使用
?3分:调整可用,但需人工进行调整后方可使用
?2分:大略可用,需要较多人工调整方可使用
?1分:不可用,答非所问、语言不通
02大模型厂商整体测评
这样一章主要介绍8个大模型的整体得分,最高的是chatGPT4,得分;最低的是Vicuna-13B,得分为,文心一言得分,排名第3,讯飞星火得分,排名第五。
从得分上来看,各个模型并没有拉开,可能是测试的题目都不是太难。
03分模块测评结果
这部分详细介绍了各个测试的用例(估计是部分),从测试用例来看,是比较的偏文科,没有涉及编程,初中数学以上的内容。
这估计也是得分没有拉开的原因。
04评论
从ChatGPT推出,我就第一时间介绍和使用这个工具,在讯飞星火推出后,我也曾经写过5篇测评的文章:
文心一言和讯飞星火全面对比测试:(一)语言理解能力
文心一言和讯飞星火全面对比测试:(二)任务完成
文心一言和讯飞星火全面对比测试:(三)常识问题
文心一言和讯飞星火全面对比测试:(四)逻辑数学
文心一言和讯飞星火全面对比测试:(五)编程能力
在讯飞星火推出1.5之后,又做了测试:
测试
讯飞星火升级,能力有很大提升,在不一本正经胡说
从我的测试感受上来看,大模型的确的提升能力的工具,但是这个工具还很不完善,因此,了解这个工具的特性,他在那个方面是有特长的,哪个方向有短板,是我们急需了解的,这样有助于我们了解他,合理的使用他。
遗憾的是,我们国内不能用GPT4.0,我们很多的模型也并没对大众开放。但是,就我个觉得,通用的大模型应用,最终可能不会超过3家,OpenAI应该是一家,国内至少可以能智能胜出一家,第三家也只可能在中美产生。在现在抓住先发优势,是关键。