MosaicML 推出 300 亿参数模型,训练成本 70 万 每日视点


(相关资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

标签:

x 广告
当前快播:DNA比对成功!长沙雷公寻子22年将于深圳认亲:准备带孩子回家

近日,长沙寻子22年的雷武泽(雷公)收到了警方传来的好消息,儿子雷岳

2023年婚后买房离婚后怎么分配?婚后买房属于夫妻共同财产吗? 环球快播报|当前通讯

在现实生活中,我们都知道对于房屋的购买,得看看是在婚前购买还是婚后

房贷降息:算算你能省多少钱?今年还会再降吗?

6月20日,全国银行间同业拆借中心公布LPR报价。其中,1年期LPR为3 55%

全球热点评!运河水系发生今年第1号洪水

浙江水利官微消息,受集中降雨影响,杭嘉湖区近24小时集中降雨量98 5毫

河北唐山:多彩活动迎端午

6月20日,河北省唐山市丰润区白官屯镇福庆寺小学的孩子们通过包粽子、

【天天时快讯】肛门痒挂什么科(我老公老是肛门瘙痒,如果爱爱过后我也会痒,我们想去医院看看,不知道挂...)

屁股眼痒应该挂什么科你好,你的应该是肛门湿疹吧?有没有痔疮?这个可

浙江一药农卖元胡10分钟赚52万元,多味中药大涨40年未遇

今年以来,中药材价格普涨,而且多味中药材打破价格天花板。不少业内人

市场监管总局:推动气瓶安全排查整治 加强燃气用品质量安全监管 每日信息

6月23日,国家市场监督管理总局在银川市召开市场监管领域安全生产工作

重庆四环来了!将形成“四环二十二射六十联线”高速公路网布局

【重庆四环来了!将形成“四环二十二射六十联线”高速公路网布局】近日

恩施市:碧波漾影南里渡|全球资讯

恩施市:碧波漾影南里渡---湖北日报客户端讯(通讯员谭华)6月23日,恩

x 广告

Copyright ©  2015-2023 亚洲都市网版权所有  备案号:京ICP备2021034106号-51   联系邮箱:5 516 538 @qq.com