今日热议:MosaicML 推出 300 亿参数模型,训练成本 70 万


【资料图】

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

标签:

x 广告
莘县开展“粽享和谐邻里情”活动_天天视讯

6月22日下午,残奥会冠军贾红光和红光服务队志愿者来到莘县燕塔街道尚

俄国防部否认袭击俄雇佣军营地 消息和视频都是不真实的

当地时间23日,俄罗斯国防部发布声明称,在社交网络上以普里戈任名义传

天天资讯:全面停止支付境外债!河南地产巨头债务逾期

首度境外债偿付逾期,折射出建业集团流动资金紧张状况已进一步加剧。详

世界百事通!球王生日!巴萨卡点给梅西送祝福,舆论一边倒,怒斥管理层

梅西迎来36周岁生日,现在的梅西是世界杯冠军,足坛大满贯球员,他离开

全面提升供热运行保障水平 供热设施“冬病夏治”正当时-世界快报

为换热器板片除垢、对连通管线的阀门进行保养、“望闻问切”给水泵“治

日本强推核污染水排海 日本民众:不应做危害子孙后代的事

日本强推核污染水排海日本民众:不应做危害子孙后代的事

​竹山县举办首届特色餐饮技能大赛-环球速递

​竹山县举办首届特色餐饮技能大赛---湖北日报客户端讯(通讯员王俊张

发动救援队,出动无人机!厦门一走失超24小时老人被找回

近日,一患有老年痴呆症的老人外出超过24小时迟迟未归,杏滨派出所民警

白酒行业进入缩量低增长时代|当前快讯

$片仔癀(SH600436)$$贵州茅台(SH600519)$$泸州老窖(SZ000568)$大家好啊

郑州导游包揽前两名!河南省第六届导游大赛落幕_世界观天下

近日,由河南省文化和旅游厅、河南省总工会、中国共产主义青年团河南省

x 广告

Copyright ©  2015-2023 亚洲都市网版权所有  备案号:京ICP备2021034106号-51   联系邮箱:5 516 538 @qq.com