MosaicML 推出 300 亿参数模型,训练成本 70 万


(相关资料图)

AI 创业公司 MosaicML 近日发布了其语言模型 MPT-30B,单从参数来看,这个模型具有 300 亿参数,放在如今动则上千亿参数的模型领域中并没有什么突出的地方。但这个新模型的训练成本却只有其他模型的零头,有望扩大模型在更广泛领域的运用。

MosaicML 的首席执行官兼联合创始人 Naveen Rao 表示,MPT-30B 的训练成本为 70 万美元,远低于训练 GPT-3 所需的数千万美元。此外,MPT-30B 模型的质量超过了 OpenAI 在 2020 年发布的初版 GPT-3。由于 MPT-30B 的成本较低,体积较小,它也可以更快速地被训练,并部署在本地硬件设备上。

MosaicML 使用了 Alibi 和 FlashAttention 技术来优化模型,可以实现更长的文本长度和对 GPU 计算的高利用率。MosaicML 也是少数几个能够使用 Nvidia H100 GPU 的实验室,相比以往,这使得每 GPU 的吞吐量增加了 2.4 倍以上,带来更快的完成时间。

300 亿参数这是一个在大模型领域经常看到的数字,300 亿参数为什么这么特殊呢?MosaicML 首席科学家 Frankle 则解释道,首先 300 亿参数能够确保它可以在本地硬件上轻松运行,同时保持质量与 GPT-3 差不多或略优于它。

其次任何超过 300 亿参数限制的模型都需要将模型分解成多个平行段,通常也需要更加昂贵的多 GPU 设置。

除了让 AI 技术更容易获得之外,MosaicML 还专注于提高数据质量,以提高模型性能。他们目前正在开发工具,帮助用户在预训练过程中分层加入特定领域的数据。这确保了多样化和高质量的数据组合。将模型扩展到 300 亿参数只是 MosaicML 的第一步,接下来他们将以降低成本为前提,推出更大的、更高质量的模型。

开发者可以从 Hugging Face 下载并使用开源的 MPT-30B 基础模型,开发者还可以在自己的硬件上用自己的数据对模型进行微调。

标签:

x 广告
非遗游、避暑游、文化游……端午假期这些消费新体验等你打卡!

随着端午假期到来,旅游市场也被点燃,各地推出了丰富的文旅活动,在吸

厦门天马高世代生产线项目顺利推进

生产线项目将建设一条月加工2250mm×2600mm玻璃基板12万张的第8 6代新

F1赛车新游《New Star GP》上架steam 复古街机风 世界播报

NewStarGames开发的F1赛车新游《NewStarGP》日前上架steam,采用复古街

用户手册_关于用户手册介绍

用户手册,关于用户手册介绍这个很多人还不知道,我们一起来看看!1、用

环球速讯:去银行存钱,究竟该选一年期还是三年期?答案揭晓,别再存错了

随着人们的生活水平得到提升,现在大多数人都不再为衣食住行而发愁,甚

山东科学绿化试点示范省建设实施方案印发 打造济南-德州-聊城等沿黄绿色长廊 焦点热门

在济南等市建设生态廊道示范林,争创国家林草种质资源库8处……日前,

【播资讯】2023粤港澳车展:新款捷豹F-PACE售价47.2万起

在2023粤港澳车展上,新款捷豹F-PACE正式上市,新车提供四种版本可选,

巴拿马运河因干旱限制通行船舶吨位 或推高国际原材料市场价格|要闻速递

【巴拿马运河因干旱限制通行船舶吨位或推高国际原材料市场价格】受厄尔

【天天播资讯】心悦俱乐部g分有什么用(心悦g分有什么用)

心悦会员等级4是什么意思?1、在心悦俱乐部中,心悦会员会根据个人的心

普京称不会让俄罗斯分裂 俄多地进入反恐行动状态

【普京称不会让俄罗斯分裂俄多地进入反恐行动状态】俄私营军事集团“瓦

x 广告

Copyright ©  2015-2023 亚洲都市网版权所有  备案号:京ICP备2021034106号-51   联系邮箱:5 516 538 @qq.com