AI考生抵达,商汤与上海AI实验室等发布“书生·浦语”大模型
随着AI大语言模型越来越多地表现出接近人类智能,面向人类设计的高难度、综合性考试被越来越多地引入到对语言模型的智能水平进行评测。OpenAI 在其关于 GPT-4 的技术报告中就主要通过各领域的考试对模型能力进行检验。
2023年高考今日开考,中文大语言模型是否能够在高考中赶超ChatGPT呢?
综合“大考”:“书生·浦语”多项成绩领先于 ChatGPT
(资料图片仅供参考)
近日,商汤科技、上海AI实验室联合香港中文大学、复旦大学及上海交通大学发布千亿级参数大语言模型“书生·浦语”(InternLM)。
“书生·浦语”具有1040亿参数,是在包含1.6万亿token的多语种高质量数据集上训练而成。
全面评测结果显示,“书生·浦语”不仅在知识掌握、阅读理解、数学推理、多语翻译等多个测试任务上表现优秀,而且具备很强的综合能力,因而在综合性考试中表现突出,在多项中文考试中取得超越ChatGPT的成绩,其中就包括中国高考各个科目的数据集(GaoKao)。
“书生·浦语”联合团队选取了20余项评测对其进行检验,其中包含全球最具影响力的四个综合性考试评测集:
由伯克利加州大学等高校构建的多任务考试评测集MMLU;
微软研究院推出的学科考试评测集AGIEval(含中国高考、司法考试及美国SAT、LSAT、GRE和GMAT等);
由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集C-Eval;
以及由复旦大学研究团队构建的高考题目评测集Gaokao;
实验室联合团队对“书生·浦语”、GLM-130B、LLaMA-65B、ChatGPT和 GPT-4进行了全面测试,针对上述四个评测集的成绩对比如下(满分100分)。
“书生·浦语”不仅显著超越了GLM-130B和LLaMA-65B等学术开源模型,还在AGIEval、C-Eval,以及Gaokao等多个综合性考试中领先于ChatGPT;在以美国考试为主的MMLU上实现和ChatGPT持平。这些综合性考试的成绩反映出“书生·浦语”扎实的知识掌握程度和优秀的综合能力。
虽然 “书生·浦语”在考试评测上取得优秀成绩,但在测评中也可以看到,大语言模型仍然存在不少能力局限性。“书生·浦语” 受限于2K的语境窗口长度(GPT-4的语境窗口长度为32K),在长文理解、复杂推理、撰写代码以及数理逻辑演绎等方面还存在明显局限。另外,在实际对话中,大语言模型还普遍存在幻觉、概念混淆等问题。这些局限使得大语言模型在开放场景中的使用还有很长的路要走。
四个综合性考试评测数据集结果
MMLU是由伯克利加州大学(UC Berkeley)联合哥伦比亚大学、芝加哥大学和UIUC共同构建的多任务考试评测集,涵盖了初等数学、物理、化学、计算机科学、美国历史、法律、经济、外交等多个学科。
细分科目结果如下表所示。
(图中粗体表示结果最佳,下划线表示结果第二)
AGIEval是由微软研究院在今年新提出的学科考试评测集,主要目标是通过面向的考试来评估语言模型的能力,从而实现模型智能和人类智能的对比。
这个评测集基于中国和美国各类考试构建了19个评测大项,包括了中国各科高考、司法考试以及美国的 SAT、LSAT、GRE 和 GMAT等重要考试。值得一提的是,在这19个大项有9个大项是中国高考,通常也列为一个重要的评测子集 AGIEval (GK)。
下列表格中,带GK的是中国高考科目。
(图中粗体表示结果最佳,下划线表示结果第二)
C-Eval是由上海交通大学、清华大学和爱丁堡大学合作构建的面向中文语言模型的综合性考试评测集。
它包含了52个科目的近14000道考题,涵盖数学、物理、化学、生物、历史、政治、计算机等学科考试,以及面向公务员、注册会计师、律师、医生的职业考试。
测试结果可以通过leaderboard获得。
Gaokao是由复旦大学研究团队构建的基于中国高考题目的综合性考试评测集,包含了中国高考的各个科目,以及选择、填空、问答等多种题型。
在GaoKao测评中,“书生·浦语”在超过75%的项目中均领先ChatGPT。
分项评测:阅读理解、推理能力表现出色
为避免“偏科”,研究人员还通过多个学术评测集,对“书生·浦语”等语言模型的分项能力进行了评测对比。
结果显示,“书生·浦语”不仅在中英文的阅读理解方面表现突出,并且在数学推理、编程能力等评测中也取得较好成绩。
知识问答方面,“书生·浦语”在TriviaQA 和 NaturalQuestions 两项评测上得分为69.8和27.6,均超越LLaMA-65B(得分为68.2和23.8)。
阅读理解(英语)方面,“书生·浦语”明显领先于LLaMA-65B和ChatGPT。浦语在初中和高中英语阅读理解中得分为92.7和88.9,ChatGPT得分为 85.6 和81.2,LLaMA-65B则更低。
中文理解方面,“书生·浦语”成绩全面超越主要的两个中文语言模型ERNIE-260B和GLM-130B。
多语翻译方面,“书生·浦语”在多语种互译中的平均得分为33.9,显著超越LLaMA(平均得分15.1)。
数学推理方面,“书生·浦语”在GSM8K和MATH这两项被广泛用于评测的数学考试中,分别取得62.9和14.9的得分,明显领先于Google的PaLM-540B(得分为56.5和8.8)与LLaMA-65B(得分为50.9和10.9)。
编程能力方面,“书生·浦语”在HumanEval和MBPP这两项最具代表性的考评中,分别取得28.1和41.4的得分(其中经过在代码领域的微调后,在HumanEval上的得分可以提升至45.7),明显领先于PaLM-540B(得分为 26.2和36.8)与LLaMA-65B(得分为23.7和37.7)。
此外,研究人员还对“书生·浦语”的安全性进行评测,在TruthfulQA(主要评价回答的事实准确性) 以及CrowS-Pairs(主要评价回答是否含有偏见)上,“书生·浦语”均达到领先水平。
(以上图片由商汤科技授权中国网财经使用)
原标题:AI考生今日抵达,商汤与上海AI实验室等发布“书生·浦语”大模型
标签:
您可能也感兴趣:
为您推荐
国家金融监督管理总局局长李云泽:强化央地监管协同 持续整治金融市场乱象
当前消息!万达集团回应“19亿股权被冻结”:正通过法律途径申诉
世界看热讯:四大证券报精华摘要:6月8日
排行
- 上海奕瑞光电子冲刺科创板 已完成上市辅导工作
- 光大信托创新基建投融资模式 开年来基础产业信托规模逼近160亿
- 外界一时错愕!亲密战友反戈一击 皖通科技董事长惨遭罢免
- 良品铺子上市连续十涨停 股价已达40.41元/股 高瓴资本“十...
- 出手阔绰!中恒集团一下“砸”出近20亿:认购莱美药业定增 ...
- 金融机构重仓12只口罩概念股!海王生物、欣龙控股等多只个股涨停
- 市场获利颇丰!A股或现第三大“黄金坑” 逾10亿元大单加仓14...
- 券商股午后异动频频!中原证券涨逾7% 政策组合拳能否疏通市...
- 2020少壮派富豪榜出炉!人均财富364亿 还有一个95后!19名中国人上榜
- 业绩主要靠商品房!巨量解禁前高额分红 “新疆首富”的广汇...
精彩推送
- AI考生抵达,商汤与上海AI实验室等发布“书生·浦语”大模型
- 胶州市纪委监委通报2起不担当不作为乱作为假作为典型问题
- 环球要闻:宝应学生创客再夺全省第一挺进国赛!
- 聚焦:张燕生:甘肃要把资源优势转化为后发优势
- 全球热头条丨午评:三大指数早间低位震荡 猪肉板块涨幅居前
- 世界快资讯:ie工程师是什么意思(pe工程师是什么意思)
- 每日热议!吕梁市成立青年企业家商会
- 趁着好天气机收小麦忙
- 国家金融监督管理总局局长李云泽:强化央地监管协同 持续整...
- 焦点快看:当ChatGPT4.0遇到高考作文,究竟发挥如何?
- 世界观天下!坚持品质交付 旭辉集团荣获2023年蓝筹年会“美...
- 当前消息!万达集团回应“19亿股权被冻结”:正通过法律途径申诉
- 前沿热点:金帝股份过会:今年IPO过关第136家 国信证券过2单
- 亚辉龙:预计二季度终端医院诊疗量、手术量有望超过疫情前-每...
- 今日申购:开创电气、汇隆活塞
- 优品车美股涨12.58%_焦点报道
- 全球观焦点:阳泉首批6辆电动渣土车投入使用
- 今日聚焦!从知者寥寥到家喻户晓“临汾优选”火起来了
- 长治潞城查处3起货车载人违法行为 焦点热文
- 环球报道:“全面融湾”加速跑
- 占地5万平方米 海南杭萧钢构二期项目计划7月投产-世界速看料
- 世界看热讯:四大证券报精华摘要:6月8日
- 世界快消息!富县考察组来洛考察学习
- 世界要闻:老年机按哪个键开机
- 全球观热点:中消协发布消费警示:警惕培训班退费骗局
- 植田和男“鸽派”论调见效 市场押注日本央行6月会议按兵不动...
- 全球快资讯丨降低银行负债端成本 引导增量资金入市 国有大...
- 加拿大央行加息引发美债抛售加剧 机构提前布局“高通胀与暂...
- 家常包子馅做法大全窍门_家常包子馅做法大全
- 筷子兄弟 -《父亲》mv_正式完整版_父亲筷子兄弟父子篇
- 200家上市公司! 北交所一次数量、体量与质量的多层跃升 观点
- 微头条丨畅游汾河文化生态景区
- 聆听抗日感人故事激发奉献拼搏斗志
- 每日快播:携程集团发布2023Q1财报:净营收92亿元 同比增长124%
- 118家公司拟调入新三板创新层 72家符合北交所上市财务条件 ...
- 浑源县多措并举激发“头雁”动能|当前资讯
- 世界微头条丨创科实业涨超5%,驳斥沽空指控
- 学者有四失文言文翻译或失则易_学者有四失文言文翻译|当前热文
- 9的倍数的特征是什么_9的倍数 环球快播报
- 机构上周密集调研244家上市公司 机械设备、医药生物行业受关注
- 全球速看:应县千亩盐碱地变身新粮仓
- ST澄星“摘帽”进度将再次拖延
- 世界快资讯:隰县开展“守护青春,预防毒品”宣传活动
- 中消协发布消费警示:警惕培训班退费骗局 天天日报
- 世界快播:广东2023年夏季高考首场考试顺利进行,70万考生奔赴考场
- 深交所:*ST腾信股票终止上市
- 世界看热讯:护航夺魁之路!中建二局华南公司爱心助考在行动
- 名师点评海南高考作文:降低审题难度 让考生有话说 焦点报道
- 每日视讯:*ST越博与财务总监徐方伟收警示函 业绩预告两度不准
- 23旭越惠诚2优先B票面利率为2.6200% 环球观天下
- 环球观热点:犬人文言文翻译_犬人文言文翻译及注释
- 天天微动态丨11年吉林男子欠银行199元,8年后猛增到1.5万,行...
- 海联金汇:公司在汽车轻量化车身和安全结构件方面一直保持行...
- 测名字打分数生辰八字
- 壬午年是东四还是西四命_壬午年是哪一年|快看点
- 日本低保申请数连续3年增加 或受新冠疫情及物价上涨影响
- 300N.m超大扭矩长安汽车,UNI-T眨眼间释放驾趣本能
- 环球新消息丨23国君Y1今日发布发行公告
- 十恶是哪十恶_十善是哪十善
- 新型冠状病毒mRNA疫苗Ⅱ期临床试验启动
- 阿根廷跟队记者:梅西不会回到巴萨,这已成事实
- 卡霍夫卡水电站大坝发生爆炸后 安赛乐米塔尔乌克兰分公司停产
- 环球焦点!临川区气象台发布雷电黄色预警信号【III级/较重】...
- 上海市消保委呼吁制定细化外卖包装收费规则 把选择权交给消...
- 氢气对人体的十大好处 创辉(氢气对人体的作用好处与坏处)
- 【世界快播报】广西壮族小伙的军旅梦:从篮球冠军到“武警精英”
- 【新要闻】【收评】菜粕日内下跌1.29% 近5日累计涨幅1.71%
- 【环球新视野】苏州相城一企业获批国家博士后科研工作站
- 每日热讯!沪指涨0.08%,创指跌1.61%:AI+概念高温不退
- 恒指公司:大市回调之下科指仍录强劲资金流入
- 担心不能退费进入“退款群”?小心这可能是陷阱|全球聚看点
- 天天讯息:创元科技:接受中信建投证券调研
- 刚刚,华为重大发布!孟晚舟发声
- 海关总署:前5个月民营企业进出口总额同比增长13.1%
- 建研设计:公司有承接新型城镇化项目
- 天天即时看!脸书正试图帮助其社区谈论种族问题
- 全球短讯!云南首个公益诉讼生态修复基地落地安宁
- 翁源县气象台发布雷雨大风黄色预警【III级/较重】【2023-06-0...
- 雷雨大风+冰雹+龙卷!黑龙江省发布龙卷预警 动态焦点
- 当前信息:渤海化学拟22.5亿元投建丙烯酸酯和树脂新材料项目
- 修茸还是修葺的意思_修茸还是修葺 微资讯
- 全球速看:中消协发布消费警示:警惕培训班退费骗局
- 土耳其里拉兑美元一度大跌7.1%至创纪录低位 交易员称土国有...
- 今日热议:你过桥他爬桥、买个馒头排大队……网红打卡怎样才...
- 中国联通数字技术助力信息无障碍和适老化改造
- 微资讯!透视“A拆A”上市案例:十家市值已达母公司50%以上 ...
- 民生银行重要公告:打击信用卡他人代还
- 2023年房屋征收,拆迁补偿协商处理,这5点要注意
- 华塑科技06月07日主力资金大幅流出 观天下
- 豪华车别乱买 最新保值率榜单出炉 奔驰第三 特斯拉第九
- 2023年06月07日[国企改革]涨停板金字塔_全球微速讯
- 环球快消息!谢幕,并且插科打诨 —魔界剧团解析 Part.1 ...
- 最新:中消协发布消费警示:警惕培训班退费骗局
- 今日最新!深圳市气象台发布暴雨橙色预警【II级/严重】【2023...
- 普通人10万存定期还是存活期?
- 杭州热电:董事长许阳因工作调整辞职_每日聚焦
- 系统教程篇:让windows系统自动关闭停止响应的程序
- 西藏天路(600326)6月7日主力资金净买入1240.44万元|当前热闻
- 赔偿金收据如何写?
- 著名经济学家徐洪才:中国新型城市化还有后半场,到2050年要...