首页>动态>正文
模型“日日新”:商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT
2023-06-21 21:19:20    来源:上海证券报·中国证券网

商汤科技近日公布了自研中文语言大模型“商量SenseChat ”在MMLU、AGIEval、C-Eval三个权威大语言模型评测基准的成绩。根据评测结果,“商量SenseChat ”在三个测试集中表现均领先ChatGPT,实现了我国语言大模型研究的重要突破。

截至目前,已有近千家企业客户通过申请,应用和体验“商量SenseChat ”超强的长文本理解、逻辑推理、多轮对话、情感分析、内容创作、代码生成等综合能力,并且“商量SenseChat ”还在服务客户过程中,持续实现着快速迭代和提升,以及知识的实时更新。

商汤科技公布的评测结果中,选取了全球三大权威语言模型测评基准MMLU、AGIEval、C-Eval,结果显示“商量SenseChat ”在三个测试集中表现均领先ChatGPT,部分已十分接近GPT4的水平。


(资料图片)

其中,MMLU是由美国加州大学伯克利分校、哥伦比亚大学、芝加哥大学及伊利诺伊大学厄巴纳-香槟分校联合打造的大规模多任务语言理解的评测基准,涵盖了科学、技术、工程、数据,人文、社会科学等领域的57个科目,难度从初级水平到高级专业水平,考验世界知识和解决问题的能力。

在该评测中,“商量SenseChat ”综合得分为,远超GLM-130B(分)的得分,同时还超过了ChatGPT(分)、LLaMA-65B(分)仅落后GPT-4(分),位居第二。

AGIEval是由微软研究院发布的,专门用于评估基础模型在人类认知和问题解决相关任务中表现出的一般能力,从而实现模型智能和人类智能的对比。

在该评测中,“商量SenseChat ”测出的分数,遥遥领先GLM-130B(分)、LLaMMA-65B(分),并再次超越ChatGPT(分),仅次于GPT-4的分。在其中的AGIEval(GK)评测子集中,“商量SenseChat ”以分全面领先,仅微弱差距落后GPT-4(分)。

C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集,包含了13948个多项选择题,涵盖了52个不同的学科和四个难度级别。

面对C-Eval评测基准,“商量SenseChat ”拿到了的分数,在参评的18个大模型中,仅次于GPT-4(分),全面领先ChatGPT等一众海内外大模型。其中,C-Eval(Hard)子评测集,是选择了8个具有挑战性的数据、物理和化学科目,进一步考核大语言模型的推理能力,“商量SenseChat ”也表现居于前列。

据悉,今年4月,商汤正式发布“商汤日日新SenseNova”大模型体系,以及自研中文语言大模型“商量SenseChat”。截至6月,全球范围内正式发布的大语言模型已超过40款,其中由中国厂商、高校、科研院所等发布的大语言模型近20款。

(文章来源:上海证券报·中国证券网)

关键词:

模型“日日新”:商汤“商量SenseChat 2.0”多个评测基准综合表现超ChatGPT

商汤科技近日公布了自研中文语言大模型“商量SenseChat”在MMLU、AGIEv2023-06-21

手自一体的车自动挡怎样使用_手自一体的车怎么使用手动挡_每日看点

1、手自一体车怎么开之变速方式介绍  手自一体车采用的是手自一体变2023-06-21

今日快看!公安部:今年新增列管七类麻精药品

在公安部今天(21日)召开的新闻发布会上,国家禁毒办副主任、公安部禁2023-06-21

桃城区福苑社区:以练促防 防患未“燃”

2023年6月是第22个全国“安全生产月”。日前,桃城区福苑社区联合衡水2023-06-21

第十一届中德经济技术合作论坛在德国柏林举行 焦点报道

【第十一届中德经济技术合作论坛在德国柏林举行】当地时间6月20日,第2023-06-21

​被打服了!巴勒斯坦主帅盛赞国足!扬科维奇表态让人肃然起敬

杨科维奇表示:我们团队整体氛围不错,球员能够遵守规章制度,教练要做2023-06-21

i7-13650HX配满血RTX4060 大学生游戏本首选ROG魔霸新锐2023 播报

随着高考的结束,准大学生们在这个暑期,是时候好好的放松自己,让游戏2023-06-21

广西壮族自治区市场监督管理局 端午节节令食品监督抽检信息通告( 2023年第75期)

随着端午节临近,为保障广大消费者节日期间饮食安全,广西壮族自治区市2023-06-21

工信部:支持中外企业在自动驾驶等领域开展合作

中新社北京6月21日电 (记者 李晓喻)中国工业和信息化部副部长辛国2023-06-21

《封神三部曲》主创揭秘:雷震子是如何创作出来的?

  于是我们打回了最初,从最基本的资料中提取元素来造一个属于《封神2023-06-21

云南高院发布行政审判白皮书 2022年行政机关负责人出庭应诉率首次突破80%_全球新要闻

6月19日上午,云南省高级人民法院发布2022年度云南法院行政审判白皮书2023-06-21

当前关注:多地再掀购车补贴潮:车市“价格战”仍将持续?

全国乘联会秘书长崔东树表示,随着中央和地方促进汽车消费政策落地,市2023-06-21

Autosar网络管理:网络问题QA 世界实时

Q1:CanNmImmediateRestartEnabled使能,NM PDU的外发行为?A1:先2023-06-21

环球最新:车主曝极氪X偷偷更换电池品牌?官方回应:误会

车主曝极氪X偷偷更换电池品牌?官方回应:误会2023-06-21

国家消防救援局大庆航空救援支队组织跨昼夜飞行训练 今日关注

nullnullnullnull2023年6月19日,黑龙江省大庆市,国家消防救援局大庆2023-06-21

智能声控的升降桌、遥控起伏的多功能床,实验室检测分多步走!沪智能家具国家标准正日趋完善

摘要:沪智能家具国家标准正日趋完善  家具产品步入智能时代,可以通2023-06-21

Condi 恶意软件曝光,利用TP-Link AX21 路由器构建DDoS僵尸网络

IT之家6月21日消息,根据网络安全公司Fortinet发布的最新公告,介绍了2023-06-21

【天天播资讯】护航高校毕业生就业路 毕业生对民营企业关注重视度不断提升

央视网消息:目前,正值高校大学生毕业季。教育部统计,2023年全国高校2023-06-21

环球热推荐:电影成为中国文化国际传播新力量

【文艺观潮】从“走出去”到“走进去”电影成为中国文化国际传播新力量2023-06-21

新资讯:董晓东_关于董晓东的简介

1、董晓东,男,满族,1967年9月生,承德围场人,1988年1月入党,19892023-06-21

世界速看:土豆不去皮可以用微波炉蒸熟吗

关于土豆不去皮可以用微波炉蒸熟吗的内容,包含可以用微波炉打土豆吗土2023-06-21

外交部美大司司长介绍中美双方达成的五项共识

据外交部官网消息,2023年6月19日晚,外交部美大司杨涛司长就美国国务2023-06-21

世界快报:羚羊钩藤汤_关于羚羊钩藤汤介绍

1、羚羊钩藤汤是一剂中药方剂,主要功效用于肝经热盛,热极动风所致的2023-06-21

减税降费、扩大开放综合试点!我国服务业今年实现较快增长

今年以来,国家持续推进服务业领域减税降费,开展服务业扩大开放综合试2023-06-21

世界要闻:昆明做试管婴儿需要经历哪些步骤?

近年来,因为不孕不育需求量的增加,试管婴儿技术也逐渐成为了人们讨论2023-06-21