推广 热搜: APP  吉三代  品牌  智能  深圳APP外包公司  出口  产业  中国  手机  发展 

中文通用大模型评测基准SuperCLUE发布:讯飞星火认知大模型国内第一 文心一言垫底

   日期:2023-05-09     来源:快科技    作者:随心    浏览:54    违规举报
 

快科技5月9日消息,中文通用大模型综合性评测基准SuperCLUE正式发布。

中文通用大模型基准(SuperCLUE),是针对中文可用的通用大模型的一个测评基准,它尝试在一系列国内外代表性的模型上使用多个维度能力进行测试。

它主要回答的问题是:在当前通用大模型大力发展的情况下,中文大模型的效果情况。包括但不限于:这些模型不同任务的效果情况、相较于国际上的代表性模型做到了什么程度、 这些模型与人类的效果对比如何?

根据首个榜单显示,国内大模型中,近期发布的星火认知大模型最好,总分53.58分,与GPT-4相比有23个百分点的差距,与gpt-3.5-turbo在总分上有13个百分点的差距。

值得一提的是,讯飞星火认知大模型在对话、百科知识、角色模拟、计算能力、语义理解、逻辑推理方面,已经达到GPT 3.5平齐的水准。

在语义理解方面,讯飞星火认知大模型甚至得到100分的满分,超过GPT-4。

而百度文心一言在总榜单中排名最后一名,得分32.61分。

中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一 文心一言垫底

据了解,SuperCLUE评测榜单由三部分组成:总榜单、基础能力榜单、中文特性榜单,排行榜会定期更新,可点此访问.

基础能力:包括了常见的有代表性的模型能力,如语义理解、对话、逻辑推理、角色模拟、代码、生成与创作等10项能力。

专业能力:包括了中学、大学与专业考试,涵盖了从数学、物理、地理到社会科学等50多项能力。

中文特性能力:针对有中文特点的任务,包括了中文成语、诗歌、文学、字形等10项多种能力。

中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一 文心一言垫底 总榜单

中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一 文心一言垫底 基础能力榜单

中文通用大模型评测基准SuperCLUE发布:讯飞星火大模型国内第一 文心一言垫底 中文特性榜单

免责声明:
1、本站所收集的部分公开资料来源于互联网,转载的目的在于传递更多信息及用于网络分享,并不代表本站赞同其观点和对其真实性负责,也不构成任何其他建议。
2、本站部分作品内容是由网友自主投稿和发布、编辑整理上传,对此类内容本站仅提供交流平台,不为其版权负责,更不为其观点承担任何责任。
3、因行业及专业性有限,故未能核验会员发布内容的真实性及有效性,不为其负责,如有虚假或违规内容敬请准备材料图片发邮件到info@n360.cn举报,本站核实后积极配合删除。
4、如果您发现网站上有侵犯您的知识产权的作品,请与我们取得联系,我们会及时处理或删除。
 
 
更多>同类资讯文章
0相关评论

推荐图文
推荐资讯文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  免责声明  |  版权隐私  |  信息发布规则  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  粤ICP备2020081222号
Powered By DESTOON