中文通用大模型评测基准SuperCLUE发布：讯飞星火认知大模型国内第一文心一言垫底

日期：2023-05-09 来源：快科技作者：随心浏览：134 违规举报

快科技5月9日消息，中文通用大模型综合性评测基准SuperCLUE正式发布。

中文通用大模型基准（SuperCLUE），是针对中文可用的通用大模型的一个测评基准，它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

它主要回答的问题是：在当前通用大模型大力发展的情况下，中文大模型的效果情况。包括但不限于：这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、这些模型与人类的效果对比如何？

根据首个榜单显示，国内大模型中，近期发布的星火认知大模型最好，总分53.58分，与GPT-4相比有23个百分点的差距，与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是，讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面，已经达到GPT 3.5平齐的水准。

在语义理解方面，讯飞星火认知大模型甚至得到100分的满分，超过GPT-4。

而百度文心一言在总榜单中排名最后一名，得分32.61分。

据了解，SuperCLUE评测榜单由三部分组成：总榜单、基础能力榜单、中文特性榜单，排行榜会定期更新，可点此访问.

基础能力：包括了常见的有代表性的模型能力，如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力：包括了中学、大学与专业考试，涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力：针对有中文特点的任务，包括了中文成语、诗歌、文学、字形等10项多种能力。

总榜单

基础能力榜单

中文特性榜单

免责声明：
1、本站所收集的部分公开资料来源于互联网，转载的目的在于传递更多信息及用于网络分享，并不代表本站赞同其观点和对其真实性负责，也不构成任何其他建议。
2、本站部分内容是由网友自主投稿和发布、编辑整理上传，对此类内容本站仅提供交流平台，不为其版权负责，更不为其观点承担任何责任。
3、因行业及专业性有限，故未能核验会员发布内容的真实性及有效性，不为其负责，如有虚假或违规内容请将相关材料发邮件到info@n360.cn举报，本站核实后积极配合删除。
4、如果您发现网站上有侵犯您的知识产权的作品，请与我们取得联系，我们会及时处理或删除。

标签： 模型第一包括基础专业大学

更多>同类资讯文章

0 条相关评论

推荐图文

十方融海：从模型到终	德邦快递里的“她力量
国庆高速路充电桩迎"	“鸡排哥”爆火后有了
第十五届中国菊花博览	云顶电商圈第六届电商
Nexus2140韩国博览会	陈持平作品荣登国家级

推荐资讯文章

点击排行

• 十方融海：从模型到终端，重新定义 AI 产业落地	• 00后用DeepSeek日卖3.3亿元”？
• AI聚合平台 Cherry Studio 超详细介绍	• 最具颠覆性技术马斯克再次警告：AI有可能给人
• 李想称自己微博是理想Mind GPT大模型生成：擅长	• 7000多个小组说关就关美国贴吧的用户这次彻底
• 印度也要自研AI技术 OpenAI直接泼冰水：完全没	• ChatGPT大更新！API新增杀手级能力还降价：新模
• 三天涨超20%！富士康最新发声今年已涨150%	• 自研千亿参数！360智脑获工信部信通院认证：国

中文通用大模型评测基准SuperCLUE发布：讯飞星火认知大模型国内第一 文心一言垫底

中文通用大模型评测基准SuperCLUE发布：讯飞星火认知大模型国内第一文心一言垫底