企业加快智能化转型 大模型“画龙”小数据“点睛”
大模型“画龙”,小数据“点睛”
企业加快智能化转型
◎本报记者 翟冬冬
小数据、优质数据应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据进行模型的微调,使模型更加精准地服务具体应用场景。从这个角度来讲,小数据将在未来基础模型完成下游任务时,起到关键的作用。
王金桥
中国科学院自动化研究所研究员
如今大数据已经成为人工智能的“标配”。在训练人工智能模型的过程中,如果想让其变得更加聪明,大量的、多样性的数据必不可少。但近日,著名人工智能学者吴恩达在展望人工智能下一个10年的发展方向时,表达了不同的观点。他认为,小数据、优质数据的应用或是未来趋势。
中国科学院自动化研究所研究员王金桥表示,小数据、优质数据应用有其前提,即需要在大的基础模型(预训练模型)之上,通过小数据进行模型的微调,使模型更加精准地服务具体应用场景。从这个角度来讲,小数据将在未来基础模型完成下游任务时,起到关键的作用。
多数应用场景难以获取高质量大数据
算法(模型)、算力和数据可以说已经成为推动人工智能发展的三大要素,其中数据尤为重要。在众多互联消费场景中,我们常常被精准的人工智能推送“击中”。通过对消费者消费习惯、购物偏好的分析,平台系统可以对消费者的潜在需求作出判断并加以引导,而这一切的基础,是基于大量的、丰富的数据样本。利用大数据,平台构建出了适用于该领域的专用模型,实现精准推送。
这些体验或许是普通消费者对于大数据和人工智能最直接的印象之一。吴恩达在采访中也表示,在过去10年里,面向消费者的企业由于拥有大量用户群(有时甚至高达数十亿),因此获得了非常大的数据集使得人工智能可以开展深度学习,并给企业带来了不少经济效益。但他同时强调,这种法则并不适用于其他行业。其原因在于,并不是所有场景都能产生丰富的大数据样本。
实际上,“在生活中,百分之八九十场景的问题都属于小样本问题。”王金桥表示,很多应用场景中,由于训练样本难以获取,因此只有极少量数据,缺陷检测就是其中的典型案例。缺陷检测,即采用机器视觉技术等,对某种特定缺陷进行检测和识别。这种检测在航天航空、铁路交通、智能汽车等众多领域都有应用。由于在实际的生产生活中,存在瑕疵的产品总是少数,所以缺陷检测的训练样本数量很少。
而即使对于样本丰富的场景,也存在训练数据标注愈发困难的问题。王金桥介绍,目前人工智能所使用的训练数据,还是以人工标注为主,而在海量数据面前,人工标注往往需要行业经验,一般人难以对标注区域进行识别。此外,针对每个应用需求都需要人工智能专家设计算法模型,模型越多,开发成本也会持续增加。
吴恩达也表示,在消费互联网行业中,我们只需训练少数机器学习模型就能服务10亿用户。然而在制造业中,有1万家制造商就要搭建1万个定制模型。而且要做到这点往往需要大量的人工智能专家。
从目前的行业发展趋势来看,基础模型或许是解决上述问题的一个方向。
以基础模型为“基座”用小数据微调
“近些年,行业开始重视研发基础模型或者说是通用型模型来解决上述问题。”王金桥说,先用大量数据预训练一个模型。这些模型在预训练中,见多识广是首要任务。训练中,模型会见识到该领域各式各样的数据,增长见识,以应对今后出现的各种情况。之后再在下游任务中利用具体的场景数据进行微调。
如自然语言处理(NLP)领域的大模型,如果要利用它完成如对话、问答等下游任务,只需要使用这个下游任务中数量很小的数据,在这个大模型之上进行微调,就能达到不错的效果。一些研究成果也表明,只需要原来建立专属模型5%—10%的数据样本用于大模型的数据微调,就能得到和专属模型一样的精度。
“从大模型转向小模型,实现一个模型做多个任务,可以说是目前行业发展中的一个转变。”王金桥说,这样不仅降低了开发难度,还大大减少了开发成本。以前,每个算法都需要一个深度学习专家去设计和训练,现在只需要在大模型之下进行微调,模型的设计和架构也变得相对简单。中小型企业只需要在大模型上,自己上传数据就可以完成。
此外,利用这种方法,模型的误报率也会减少。基础模型见过丰富多彩的数据和场景,在处理具体任务的时候就具备了海量知识储备,有更充足的准备去应对具体的小场景应用。
不过吴恩达在访谈中也表示,预训练只是要解决难题的一小部分,更大的难题是提供一个工具让使用者能够选择正确的数据用于微调,并用一致的方式对数据进行标记。面对大数据集的应用时,开发者的通常反应都是如果数据有噪音也没关系,所有数据照单全收,算法会对其进行平均。但是,如果研究人员能够开发出用来标记出数据不一致地方的工具,为使用者提供一种非常有针对性的方法来提高数据质量,那这将是获得高性能系统的更有效的方法。
多模态或是大模型未来发展方向
基础模型作为生产众多小模型的“基座”,性能尤为重要。其认知能力越接近人类,在此之上产生的小模型性能也将越优异。
在探索外部环境的时候,人类具备视觉、听觉、触觉等多种认知手段,并通过语言对话等形式实现互动交流。其中视觉得到的信息约占70%,听觉、触觉等获得的信息约占30%。“同样,要使得大模型的性能更加优秀,更趋近人类的认知能力,就涉及到训练中的数据融合问题。”王金桥指出,我们熟知的语言生成模型GPT-3,能够生成流畅自然的文本,并完成问答、翻译、创作小说等一系列NLP任务,甚至可以进行简单的算术运算。但其和外界交互的主要方式还是进行文本交流,缺乏图像、视频等多模态融合。
每一种信息的来源或者形式,都可以称为一种模态。如人有触觉、听觉、视觉、嗅觉;信息的媒介有语音、视频、文字等。人的认知模型可以说是一个多模态的集合。
要让基础模型的预训练更接近人类的认知模型,也需要进行多模态融合。即让模型通过机器学习的方法实现处理和理解多源模态信息的能力,如图像、视频、音频、语义之间的多模态学习。多模态预训练模型被广泛认为是从限定领域的弱人工智能迈向通用人工智能路径的探索。
“这一两年,大模型的数量呈现爆发式增长,且有从单一模态模型转向多模态模型的趋势。”王金桥说,具备了多模态能力的基础模型,在具体应用场景中健壮性更好,在异常和危险情况下系统的生存能力更强,今后多模态基础模型或将成为未来基础模型发展的一个重要方向。
标签: 人工智能
您可能也感兴趣:
为您推荐
冲刺6.2区间!美国要加息,人民币对美元为何不贬反升?
企业加快智能化转型 大模型“画龙”小数据“点睛”
安徽发布2022年长三角一体化重点项目清单 总投资1.2万亿元
排行
- 电能股份控股股东重庆声光电质押1800万股 占公司总股本比例的1.8053%
- 亿嘉和控股股东朱付云质押400万股 占公司总股本比例的1.93%
- 美年健康实际控制人上海维途质押7739.53万股 占公司总股本比...
- 新天药业控股股东新天生物质押84万股 占公司总股本比例的0.51%
- 天宇股份控股股东屠勇军质押700万股 占公司总股本比例的2.01%
- 提供有力基础支撑!中国铁塔推共享模式 争分夺秒保障5G建设
- 特高压板块集体霸屏!国家电网千亿元特高压项目已开工 特高...
- 捷强装备股东乔顺昌减持76.79万股 价格区间为65.11-66.94元/股
- 晨化股份4名股东合计减持147.17万股 价格区间为19.97-22.15元/股
- 西藏旅游股东国风集团减持453.92万股 价格区间为9.35-10.47元/股
精彩推送
- 新业有新规 剧本杀要“按规矩来”
- 重金押注替代能源 雪佛龙超30亿溢价收购可再生能源集团
- 高空作业平台翻倍增长 华铁应急2021年净利创历史新高
- 鑫铂股份2021年毛利率下滑,议价力弱致经营现金失血,扩建产...
- 税务成本激增 墨西哥国家石油公司去年四季度净亏60亿美元
- 冲刺6.2区间!美国要加息,人民币对美元为何不贬反升?
- 企业加快智能化转型 大模型“画龙”小数据“点睛”
- 医美股业绩走势冰火两重天 下游机构净利率亟待提高
- 云洲智能IPO:无人船艇盈利有多难? 龙头企业成立12年仍在亏损
- 职业教育平台粉笔科技赴港IPO:2021年1-9月营收26.3亿
- 无人船艇厂商云洲智能闯关科创板 营收快速增长但仍未形成明...
- 行业调整期拟募资扩产 生物混合饲料商五粮泰冲创业板
- 再干3年!68岁董明珠获连任,股东大会上还透露这些计划
- 冲刺“运动科技第一股”Keep 靠卖货?
- 原材料涨价 孚能科技亏近10亿
- 60后高升,80后接棒:龙湖高层人事调整,内部稍感突然
- 手握600亿现金赴港上市,蔚来傲娇:无迫切融资需求,只为方便股民
- 潮汕资本教父因财务造假终身禁入证券市场,跌出富豪榜仅用3年
- 监管执法与风险防控并重 稳中求进推动全市场注册制改革
- 年内券商IPO承销收入49.6亿元 同比增61%
- 算法管理规定今施行 从三方面遏制“杀熟”
- 安徽发布2022年长三角一体化重点项目清单 总投资1.2万亿元
- 2021年安徽新能源和节能环保产业“吸金”近2400亿元
- 华储网:4万吨中央储备冻猪肉将收储
- 闽西南交通圈加快形成 完善福建土楼景区公路网
- 2022年年底前山东大气污染传输通道城市钢铁产能全部退出
- 盈利千万变成上亿亏损?华统股份收关注函
- 晶澳科技:董事、副总经理黄新明退休离职
- 开局不利!丰田汽车3月1日将停止日本所有工厂运转
- 国网信通:副总经理赵建保因工作变动原因辞职
- 河北清河:打造网络“名主播”助力产业发展
- 农业农村部:查早查小,防止非法转基因种子下地
- 交通运输部:2021年全国36个中心城市完成公共交通客运量近530亿人次
- 万科拟于3月7日提前兑付并摘牌“19万科01”
- 3月1日起养老理财产品试点扩展为“十地十机构”
- 深圳控股:1月份合同销售额约为9.74亿元,环比下降74.4%
- 国家消毒和院感领域专家:AOE空气消毒机具有良好消毒效果
- 荣盛发展:为下属子公司3000万元融资提供担保
- 三巽控股:1月份累计合同销售金额约2.9亿元
- 中交地产:选举叶瑞佳担任公司第九届监事会职工代表监事
- 上周7家上市公司发布套保公告 合计投入保证金不超过22.74亿
- 交通运输部:2021年我国完成港口货物吞吐量155.5亿吨
- 交通运输部:推进物流降成本 2021年减费总额超1000亿元
- 恒林股份3月1日起停牌:筹划发行股份购买资产
- 交通运输部:2021年网约车完成订单83.2亿 中心城市占46.76亿单
- 传神语联“带病”闯关科创板,核心技术人员频频“出走”
- 七连板直真科技收函:有未披露信息?涉内幕交易?
- 交易价超20亿元!大北农拟收购正邦科技旗下8家公司股权
- 2021年我国港口货物吞吐量155.5亿吨 同比增长6.8%
- 安琪酵母跌7.47% 招商证券在其高点强推喊目标价82元
- 爱尔眼科因医疗器械过期遭处罚“体外孵化”如何保证“高质量”?
- 力量钻石拟10转10派10 关注函追问:炒作股价?
- 总投资450亿元 中车新能源产业项目吉林松原开工
- A股“最强绞肉机”强势涨停,发生了什么?坏消息接踵而至,或...
- 力量钻石2021年净利润大涨228%,“高送转”遭深交所发函问询
- 未达标准却信披、明知侵权仍不死心 海辰药业究竟意欲何为
- 猪粮比价为4.98∶1 国家发改委启动中央冻猪肉收储工作
- 纽泰格跌9.25%创新低 存大客户依赖症去年净利降
- 广船国际海洋科技研究院在广州南沙揭牌成立
- 思摩尔国际跌0.52% 市值一年蒸发3678亿港元
- 可转债操作不及时亏损可高达66%,东方财富可转债也迎来最后一...
- 乡村基上海某门店违法被罚 未履行禁烟管理义务
- 创世纪年报被问询:应收款19亿 存贷双高利息收入较小
- 红塔证券跌4.11%垫底证券板块 近2年仅1份券商研报
- 金徽股份换手率70% 有息债务19亿IPO募资里2.8亿还债
- 爱尔眼科重庆使用过期医疗器械被处罚
- 港地产股跌势不减,融创中国单日大跌16%,股价年内接近腰斩
- 如何扩大交通基础设施投资、推进重点项目?交通运输部今年打...
- 报告:2月中国50城二手房价止跌企稳
- 切合医药工业发展规划 健康元加码研发投入收获颇丰
- 三亚机场启动航班延误黄色预警 无核酸报告禁入候机楼
- 房地产开发板块今跌0.55% 财信发展涨5.71%居首
- 碳中和板块今涨0.33% 聚光科技涨10.44%居首
- 亚洲第一深水导管架“海基一号”建造完工
- 翰森制药引进罕见病NMOSD治疗新药
- 港口航运板块今涨2.38% 锦州港涨10.13%居首
- 中国宝安遭万科子公司索赔6.71亿:地产为第三大收入来源,营...
- 视频电商“内卷”白热化 一味追求低价恶性竞争不可取
- 收评:两市回暖创指涨0.89% 新冠检测等板块涨幅居前
- “智能”电器让老人无从下手 呼吁更多人文关怀
- 2月28日国内黄金期货跌1.44%
- 华鲁集团原董事杨庆堂涉嫌严重违纪违法被查
- 宇邦新材:利润止步不前 募资动机不纯
- 翠微股份:解禁前后股价离奇暴涨
- 物业跨界做养老能行吗?行稳致远很重要
- 牧原股份定增预案微调为募资50亿至60亿补血 股价微跌
- 天华超净:锂电大扩产凶险难料
- 文旅产业韧性凸显,体育旅游或成风口
- 喜茶降价奈雪亏损新式茶饮难解盈利之困
- 兴证全球恒利一年定开债券增聘基金经理邓娟
- 深圳疫情处置有序 市场供应充足 多通道保障供港物资
- 老板电器“踩雷”恒大:2021年净利13.34亿降两成,恒大系客户...
- 京东健康发布“罕见病全生态服务”战略 聚焦用药可及、支付...
- 俄乌紧张局势持续 国际资金会否转为流入A股?
- 仁东控股:尚未支付资产购买金额超9640万元
- 上海临港新片区率先发起全国首个片区性人才企业年金计划
- 新氧APP上预约眼综合整容术后维权难?医美市场需行业深度自律
- 蔚来汽车以“介绍形式”登陆香港、新加坡 不为融资只为“抢...
- 新世界发展中期业绩:综合收入略低于同期 得益于出售资产归...
- 阳光诺和上市后首份年报:营收、利润快速增长,存量订单超15亿元